redes neurais de aprendizado profundo aplicadas a

REDES NEURAIS DE APRENDIZADO PROFUNDO APLICADAS A PROBLEMAS

COMPLEXOS DA ENGENHARIA NUCLEAR

Victor Henrique Cabral Pinheiro

Tese de Doutorado apresentada ao Programa de

Pós-graduação em Engenharia Nuclear, COPPE, da

Universidade Federal do Rio de Janeiro, como

parte dos requisitos necessários à obtenção do

título de Doutor em Engenharia Nuclear.

Orientador: Roberto Schirru

Rio de Janeiro

Junho de 2020

TESE SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ

COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA DA

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS

REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE DOUTOR EM

CIÊNCIAS EM ENGENHARIA NUCLEAR.

Aprovada por: Prof. Roberto Schirru

Profª. Andressa dos Santos Nicolau

Prof. Claudio Marcio do Nascimento Abreu Pereira

Prof. César Marques Salgado

Dr. Mario Cesar Mello Massa de Campos

RIO DE JANEIRO, RJ - BRASIL

JUNHO DE 2020

Pinheiro, Victor Henrique Cabral

Redes Neurais de Aprendizado Profundo Aplicadas a

Problemas Complexos da Engenharia Nuclear / Victor

Henrique Cabral Pinheiro. – Rio de Janeiro:

UFRJ/COPPE, 2020.

XIII, 102 p.: il.; 29,7 cm.

Tese (doutorado) – UFRJ/ COPPE/ Programa de

Engenharia Nuclear, 2020.

Referências Bibliográficas: p. 86-102.

1. Engenharia nuclear. 2. Aprendizado profundo. 3.

Engenharia de fatores humanos. I. Schirru, Roberto. II.

Universidade Federal do Rio de Janeiro, COPPE,

Programa de Engenharia Nuclear. III. Título.

À minha família.

AGRADECIMENTOS

Agradeço à minha família querida – principalmente minha mamãe, meu pai e

meu irmão – pelo apoio, pelos momentos de alegria e por terem proporcionado que eu

pudesse estudar e chegar até aqui.

Agradeço ao meu orientador, professor Roberto Schirru, por toda a orientação (o

que pode parecer redundante, mas não é!). Devo agradecimentos pelo excelente suporte

e mentoria, pela paciência, pela disponibilidade, pelos conselhos, pela paciência e ainda

mais uma vez pela paciência. Foi uma experiência excelente ser seu aluno de doutorado,

e através dela acho que amadureci e cresci, portanto, agradeço.

Agradeço ao pessoal do LMP pelo auxílio, por estarem sempre prontos a me

tirar dúvidas e orientarem com boa vontade quando necessário. Destaco aqui (dentre

muitos!) os pesquisadores Andressa Nicolau e Alan de Lima.

Agradeço aos amigos de dentro e de fora da universidade. Aos de dentro, pelo

companheirismo durante o doutorado e por terem tornado essa jornada mais agradável,

e aos de fora, pelo encorajamento e companhia.

Por fim, quero agradecer de maneira geral ao restante do corpo docente e

técnico-administrativo do PEN/COPPE. Tive uma grata surpresa pela maneira atenciosa

e agradável como acolheram a mim e aos demais alunos, e como trabalham com

diligência e dedicação para alcançar e manter o padrão de qualidade apresentado pelo

programa.

Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários

para a obtenção do grau de Doutor em Ciências (D.Sc.)

Março/2020

Programa: Engenharia Nuclear

Este trabalho descreve, analisa e propõe soluções a dois problemas complexos da

área nuclear, a saber, o Problema de Identificação de Acidentes Nucleares (PIAN) e o

Problema de Inferência de Temperaturas (PIT) em certos pontos internos do prédio de

contenção do reator. Os sistemas elaborados para solução destes problemas tiveram

como núcleo o paradigma de Redes Neurais Profundas (RNPs) – sozinhas ou acopladas

a outras técnicas de aprendizado de máquina e estatística – e foram desenvolvidos

através de pesquisas no estado da arte da literatura científica, testes minuciosos e

aprimoramentos, buscando as arquiteturas de RNPs mais adequadas, capazes de gerar

resultados robustos, confiáveis e exatos para esses dois problemas. No caso do PIAN, os

testes foram realizados com dados de operação simulados para a usina nuclear Angra 2,

e o sistema resultante mais eficiente alcançou 99,88% de respostas “não sei” para

eventos fora do escopo de treinamento e 94,56% de classificações corretas aplicando

redes neurais profundas retificadas (DRNN) e redes auto-associativas. Já para o PIT, o

conjunto de dados para a modelagem de regressão corresponde a aferições reais de

temperaturas na usina Angra 1, e os resultados aplicando a DRNN e redes recorrentes

LSTM apresentaram erro médio de regressão menor que 2 ºC em 89% dos casos.

Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the

requirements for the degree of Doctor of Science (D.Sc.)

DEEP LEARNING NETWORKS APPLIED TO COMPLEX PROBLEMS OF

NUCLEAR ENGINEERING

March/2020

Advisor: Roberto Schirru

Department: Nuclear Engineering

This work describes, analyzes and proposes the solution to two complex

problems of the nuclear area, namely, the nuclear accident identification problem

(NAIP) and the inference of temperatures problem (ITP) in certain spots of the reactor

containment building. The systems to solve these problems had at their core the

paradigm of deep neural networks (DNN) – alone or coupled with other machine

learning and statistical techniques – and were developed through research for the state

of the art in scientific literature, thorough tests and improvements, seeking for the most

adequate DNN architectures, capable of generating robust, reliable and accurate results

for these two problems. For NAIP, the tests were developed with operational data

simulated for Angra 2 NPP, and the resulting most efficient system achieved 99,88% of

correct “don‟t know” answers for events outside of training scope and 94,56% of correct

classifications applying deep rectifier neural networks (DRNN) and autoencoders. For

ITP, the dataset utilized for the regression modeling corresponds to real measurements

of physical variables for Angra 1, with average regression error below 2 ºC in 89% of

the cases applying DRNN and LSTM recurrent networks.

SUMÁRIO

1 - INTRODUÇÃO ........................................................................................................................... 1

1.1 – Contextualização e Motivação ......................................................................................... 1

1.2 – Objetivos .......................................................................................................................... 4

1.3 – Organização ...................................................................................................................... 5

2 - FUNDAMENTAÇÃO TEÓRICA .................................................................................................... 6

2.1 – Breve Histórico ................................................................................................................. 6

2.2 – O Problema do Desaparecimento de Gradiente .............................................................. 9

2.3 – Redes Neurais Profundas Retificadas ............................................................................. 13

2.4 – Redes Neurais Auto-Associativas ................................................................................... 15

2.5 – Redes Neurais Recorrentes (RNRs) ................................................................................ 16

2.5.1 – Problema de aprendizado de sequências e as RNRs ............................................... 16

2.5.2 – Long short-term memory (LSTM) ............................................................................ 20

2.6 – Floresta Aleatória ........................................................................................................... 23

3 - O PROBLEMA DE IDENTIFICAÇÃO DE ACIDENTES NUCLEARES (PIAN) ................................... 25

3.1 – Introdução ao Problema ................................................................................................. 25

3.2 – Modelagem Experimental .............................................................................................. 28

3.2.1 - O conjunto de dados ................................................................................................ 28

3.2.2 – Materiais e métodos ............................................................................................... 30

3.2.3 – O classificador ......................................................................................................... 31

3.2.4 – Inspirações para a resposta “não sei” ..................................................................... 31

3.2.5 – Novas Abordagens Propostas Para a Resposta “Não Sei” ....................................... 33

3.3 – Resultados Experimentais .............................................................................................. 34

3.3.1 – Classificação ............................................................................................................ 34

3.3.2 – Resposta “Não Sei” .................................................................................................. 37

3.4 – Análise dos Resultados ................................................................................................... 53

3.5 – Conclusões para o PIAN .................................................................................................. 55

4 - O PROBLEMA DE INFERÊNCIA DE TEMPERATURAS (PIT) ....................................................... 57

4.1 – Introdução ao Problema ................................................................................................. 57

4.2 – Inferência de Temperaturas ........................................................................................... 62

4.3 – Modelagem e Resultados Experimentais ....................................................................... 63

4.4 – Análise dos Resultados ................................................................................................... 80

4.5 – Conclusões para o PIT..................................................................................................... 82

5 - CONCLUSÕES .......................................................................................................................... 83

5.1 – RNPs Aplicadas ao PIAN ................................................................................................. 83

5.2 – RNPs Aplicadas ao PIT .................................................................................................... 84

5.3 – Conclusões Finais e Trabalhos Futuros........................................................................... 84

REFERÊNCIAS BIBLIOGRÁFICAS ................................................................................................... 86

LISTA DE FIGURAS

Figura 2.1 – Modelo de neurônio MP (MCCULLOCH & PITTS, 1943). ................................... 6

Figura 2.2 – Perceptron (HAYKIN, 2007). .................................................................................. 7

Figura 2.3 – Exemplo de rede neural (a) rasa e (b) profunda (GOODFELLOW, 2016). ............ 8

Figura 2.4 – Publicações envolvendo inteligência artificial (PERRAULT, 2019). ..................... 9

Figura 2.5 – Definições básicas para redes neurais (adaptado de KARPATHY, 2019). ........... 10

Figura 2.6 – Função sigmoide logística (a) e tangente hiperbólica (b) e suas derivadas. .......... 13

Figura 2.7 – Análise dos níveis de ativação neuronal (GLOROT & BENGIO, 2010). ............. 13

Figura 2.8 – ReLU. .................................................................................................................... 14

Figura 2.9 – Rede neural auto-associativa (TSCHANNEN, 2018). ........................................... 15

Figura 2.10 – rede neural recorrente (adaptado de GOODFELLOW, 2015). ............................ 18

Figura 2.11 – Célula LSTM (adaptado de OLAH, 2015). ......................................................... 21

Figura 2.12 – Pseudocódigo para florestas aleatórias (ALVARENGA JÚNIOR, 2018). .......... 24

Figura 3.1 – Sistema elaborado por Mól et al. (2002). ............................................................... 32

Figura 3.2 – Matriz de confusão normalizada começando a análise aos 3 segundos. ................ 36

Figura 3.3 – Matriz de confusão normalizada começando a análise com 1 segundo. ................ 36

Figura 3.4 – RMAXZA: Matriz de confusão no conjunto combinado. ..................................... 39

Figura 3.5 – RMAXZA: Resposta do sistema segundo a segundo. ........................................... 39

Figura 3.6 – RMEDZA: Matriz de confusão no conjunto combinado. ...................................... 42

Figura 3.7 – RMEDZA: Resposta do sistema segundo a segundo. ............................................ 42

Figura 3.8 – PSO-RZA: Matriz de confusão no conjunto combinado. ...................................... 45

Figura 3.9 – PSO-RZA: Resposta do sistema segundo a segundo. ............................................ 45

Figura 3.10 – RAAR: Matriz de confusão no conjunto combinado. .......................................... 48

Figura 3.11 – RAAR: Resposta do sistema segundo a segundo. ............................................... 48

Figura 3.12 – A abordagem RAPUC. ........................................................................................ 50

Figura 3.13 – RAPUC: Matriz de confusão no conjunto combinado. ....................................... 52

Figura 3.14 – RAPUC: Resposta do sistema segundo a segundo. ............................................. 52

Figura 4.1 – RE para quatro temperaturas de envelhecimento (EPRI, 2010). ........................... 60

Figura 4.2 – Mapa de calor SICA (algumas variáveis) x SMO. ................................................ 64

Figura 4.3 – Exemplo de resultado de importância de variáveis................................................ 65

Figura 4.4 – Importância de variáveis para o componente “1 2”. .............................................. 67

Figura 4.7 – Importância de variáveis para o componente “3 50”. ............................................ 68

Figura 4.8 – Importância de variáveis para o componente “4 31”. ............................................ 69

Figura 4.9 – Resultado experimental para o componente “1 2”, abordagem A. ........................ 70

Figura 4.10 – Resultado experimental para o componente “3 5”, abordagem A. ...................... 70

Figura 4.11 – Resultado experimental para o componente “3 9”, abordagem A. ...................... 71

Figura 4.12 – Resultado experimental para o componente “3 50”, abordagem A. .................... 71

Figura 4.13 – Resultado experimental para o componente “4 31”, abordagem A. .................... 72

Figura 4.14 – Resultado experimental para o componente “1 2”, abordagem B. ...................... 72

Figura 4.17 – Resultado experimental para o componente “3 50”, abordagem B. .................... 74

Figura 4.18 – Resultado experimental para o componente “4 31”, abordagem B. .................... 74

Figura 4.19 – Resultado experimental para o componente “1 2”, abordagem C. ...................... 75

Figura 4.22 – Resultado experimental para o componente “3 50”, abordagem C. .................... 76

Figura 4.23 – Resultado experimental para o componente “4 31”, abordagem C. .................... 77

Figura 4.24 – Resultado experimental para o componente “1 2”, abordagem D. ...................... 77

Figura 4.27 – Resultado experimental para o componente “3 50”, abordagem D. .................... 79

Figura 4.28 – Resultado experimental para o componente “4 31”, abordagem D. .................... 79

LISTA DE TABELAS

Tabela 3.1 – Variáveis de estado. ............................................................................................... 28

Tabela 3.2 – Situações de operação da usina. ............................................................................ 29

Tabela 3.3 – Desempenho da rede iniciando 3 segundos após o início do transiente. ............... 35

Tabela 3.4 – Desempenho da rede iniciando no segundo de início do transiente. ..................... 35

Tabela 3.5 – RMAXZA: Revmax para cada situação operacional. ............................................... 38

Tabela 3.6 – RMAXZA: Performance nos três conjuntos. ........................................................ 38

Tabela 3.7 – RMAXZA: Exatidão do sistema (%)..................................................................... 40

Tabela 3.8 – RMEDZA: Revavg para cada situação operacional................................................. 41

Tabela 3.9 – RMEDZA: Performance nos três conjuntos. ......................................................... 41

Tabela 3.10 – RMEDZA: Exatidão do sistema (%). .................................................................. 43

Tabela 3.11 – PSO-RZA: raio para cada situação operacional. ................................................ 44

Tabela 3.12 – PSO-RZA: Performance nos três conjuntos. ....................................................... 44

Tabela 3.13 – PSO-RZA: Exatidão do sistema (%). .................................................................. 46

Tabela 3.14 – RAAR: para cada evento operacional. ................................................... 47

Tabela 3.15 – RAAR: Performance nos três conjuntos. ............................................................. 47

Tabela 3.16 – RAAR: Exatidão do sistema (%). ........................................................................ 49

Tabela 3.17 – RAPUC: para cada evento operacional. ................................................. 51

Tabela 3.18 – RAPUC: Performance nos três conjuntos. .......................................................... 51

Tabela 3.19 – RAPUC: exatidão do sistema (%). ...................................................................... 53

Tabela 3.20 – Exatidão média nos três conjuntos para cada abordagem. .................................. 53

Tabela 4.1 –Principais hiperparâmetros para as RNPs aplicadas ao PIT. .................................. 66

Tabela 4.2 – Configuração dos experimentos do PIT. ............................................................... 69

Tabela 4.3 – Resultados obtidos. ................................................................................................ 80

ACRÔNIMOS E ABREVIAÇÕES

AE – AutoEncoder;

DL – Deep Learning;

DRNN – Deep Rectifier Neural Network;

EFH – Engenharia de Fatores Humanos;

GPU – Graphics Processing Unit;

LSTM – Long Short-Term Memory;

ML – Machine Learning;

MLP – Multilayer Perceptron;

NRC – Nuclear Regulatory Comission;

PIAN – Problema de Identificação de Acidentes Nucleares;

PIT – Problema de Inferência de Temperaturas;

PSO – Particle Swarm Optimization;

RF – Random Forest;

RNA – Rede Neural Artificial;

RNP – Rede Neural Profunda;

RNR – Rede Neural Recorrente;

SGD – Stochastic Gradient Descent;

UN – Usina Nuclear.

CAPÍTULO 1

INTRODUÇÃO

1.1 – Contextualização e Motivação

As usinas nucleares (UNs) são sistemas complexos projetados e operados

baseados em normas e diretrizes rigorosas de segurança. Dadas as possíveis

consequências catastróficas decorrentes de eventos operacionais adversos, uma das

maiores prioridades desses ambientes é tipicamente manter o risco de um acidente tão

baixo quanto seja possível alcançar de maneira razoável. Assim, sistemas redundantes,

complexas análises de segurança, treinamentos exigentes e procedimentos operacionais

detalhados estão presentes de forma ubíqua nas UNs, o que faz com que,

historicamente, elas estejam entre as instalações de geração de energia elétrica mais

seguras do mundo (MARKANDYA & WILKINSON, 2007; KHARECHA &

HANSEN, 2013).

Sob este paradigma de segurança, é natural que a indústria de geração de energia

nuclear esteja particularmente interessada em absorver e implementar inovações no que

concerne à Engenharia de Fatores Humanos (NRC, 1981), testando-as e adaptando-as

para que auxiliem na tarefa desafiadora de aumentar, concomitantemente, o fator de

segurança e o fator de capacidade operacional da usina (MA & JIANG, 2011).

Entretanto, considerando os supracitados riscos da operação, é, outrossim,

compreensível que a mesma indústria seja cautelosa e reticente, adotando uma posição

conservadora ao incorporar apenas os avanços científicos que tenham atingido um grau

considerável de confiabilidade e maturidade tecnológica.

É nesse contexto que se encontra atualmente a inserção nas UNs do novo

paradigma de redes neurais artificiais (RNAs) chamado de aprendizado profundo

(GOODFELLOW et al., 2014): embora técnicas de inteligência artificial (RUSSELL &

NORVIG, 2009) incluindo redes neurais “tradicionais” e modelos estatísticos

sofisticados venham sendo estudados pela comunidade acadêmica há décadas para tratar

de problemas conhecidos nas usinas e aprimorar a eficiência e segurança dos processos

(BARTLETT & UHRIG, 1992; EMBRECHTS & BENEDEK, 2004; KWON & KIM,

1999; MÓL et al., 2010; MOSHKBAR-BAKHSHAYESH & GHOFRANI, 2013;

NICOLAU & SCHIRRU, 2017; PINHEIRO & SCHIRRU, 2019; ROVERSO, 2004), as

complexidades envolvidas no treinamento de redes neurais mais profundas (isto é, com

mais camadas ocultas), além de fenômenos como a saturação de neurônios (WANG et

al., 2004), dificultaram e limitaram por décadas a aplicação do aprendizado profundo

em uma miríade de áreas – incluindo a nuclear.

Cabe ressaltar que a RNA, enquanto técnica de aprendizado de máquina (do

inglês, machine learning – ML), não é particularmente nova. Sua concepção inicial

como modelo probabilístico para o armazenamento de informações inspirado no cérebro

humano é historicamente atribuída à McCulloch & Pitts (1943) e Rosenblatt (1957).

Desde então, a ideia de modelar computacionalmente o processo de pensamento

humano tem evoluído de forma conjunta com a tecnologia da computação, neurociência

e até mesmo com a criatividade dos pesquisadores. A despeito de alguns obstáculos

devidos a ceticismo, complicações matemáticas ou falta de poder computacional, as

RNAs têm sido aprimoradas com considerável sucesso como uma das mais poderosas

técnicas de aprendizado de máquina ao longo dos últimos 60 anos.

As redes neurais profundas (RNPs) são RNAs com diversas camadas internas

(também chamadas de camadas ocultas) de neurônios separando as camadas de entrada

e saída da rede. Mais especificamente, como definidas por Bengio & LeCun (2007), as

RNPs possuem “muitos níveis de componentes adaptativos não-lineares”, ao contrário

das tradicionais redes neurais (dali em diante comumente chamadas de redes neurais

“rasas”), com poucas camadas internas. Tal nomenclatura deu origem à área de

aprendizado profundo (do inglês, deep learning – DL) como sendo aquela que envolve,

principalmente, modelos de redes neurais profundas.

As RNPs possuem a habilidade de aprender através de exemplos e de modelar

complexas relações não-lineares entre esses exemplos. Sua vantagem em relação às

redes neurais rasas reside fundamentalmente no fato de que o aprendizado profundo

introduz o conceito de hierarquia de representações de características (GOODFELLOW,

2015), de modo que representações de características complexas são expressas em

termos de representações mais simples, distribuídas e aprendidas pela rede ao longo das

camadas durante o processo de treinamento. Com efeito, isso reflete a forma como é

entendido o funcionamento do cérebro: de forma hierárquica (LEWIS & VAN ESSEN,

2000).

Apesar de suas similaridades, há diferenças consideráveis no comportamento de

redes neurais profundas e rasas durante o treinamento. Há um número muito maior de

transformações parametrizadas não lineares que um sinal de entrada encontra conforme

se propaga da camada de entrada para a camada de saída, sendo cada transformação

realizada por uma unidade de processamento (neurônio) que possui parâmetros

treináveis, comumente chamados de pesos. Esse fato dificultou e, por décadas,

impossibilitou que se alcançasse qualquer resultado significativo com redes neurais

contendo mais de cerca de três camadas internas, tanto por uma questão de capacidade

computacional quanto por um problema fundamental – o Problema de Desaparecimento

de Gradiente (GLOROT & BENGIO, 2010) – que será descrito no Capítulo 2, e

consiste basicamente na perda da capacidade de aprendizado por parte das redes durante

a atualização de parâmetros por retropropagação do erro.

Felizmente, a combinação recente de avanços nas arquiteturas, como

computação de reservatório (LUKOŠEVIČIUS & JAEGER, 2009), redes neurais

convolucionais (FUKUSHIMA & WAKE, 1980; LECUN et al., 1989) e recorrentes

(HOCHREITER & SCHMIDHUBER, 1997; JORDAN, 1990), novos algoritmos de

treinamento e funções de ativação, tais como a ReLU (GLOROT & BORDES, 2011) e

ELU (CLEVERT & UNDERTHINER, 2015) possibilitaram a exploração de redes mais

complexas e eficientes. De fato, o aumento no número de publicações científicas

estudando as arquiteturas das assim chamadas redes neurais profundas vem crescendo

rapidamente desde circa 2006 (VARGAS et al., 2017), fornecendo resultados “estado

da arte” em diversas aplicações em diferentes áreas do conhecimento

(SCHMIDHUBER, 2015).

Entretanto, embora não seja difícil encontrar na literatura exemplos de resultados

notáveis utilizando redes neurais profundas nas mais diferentes aplicações, estas ainda

têm sido relativamente pouco estudadas na área de engenharia nuclear, onde os estudos

recentes mencionados mostram que elas potencialmente podem oferecer melhor

performance, menor tempo de treinamento e maior capacidade de generalização do que

outras técnicas de aprendizado de máquina quando aplicadas a problemas complexos da

engenharia nuclear.

1.2 – Objetivos

Esta pesquisa foi conduzida com o objetivo de analisar o comportamento de

redes neurais profundas em dois problemas complexos da área nuclear. São eles:

O problema de identificação de acidentes em usinas nucleares – PIAN

(NICOLAU & SCHIRRU, 2013), a partir de séries temporais de variáveis físicas de

um conjunto de acidentes de base de projeto postulados para a usina nuclear Angra

2, obtidas com dados simulados;

O problema de inferência de temperaturas – PIT, através de correlações com

variáveis físicas reais disponíveis nos sistemas de controle integrados na usina

nuclear Angra 1, para auxiliar na avaliação do tempo de vida útil restante de

equipamentos expostos a condições adversas de temperatura dentro do prédio de

contenção na usina.

Ambos os estudos de caso relatados neste trabalho foram realizados com

ineditismo na literatura acadêmica, até onde foram as pesquisas deste autor. De fato, não

foram encontrados trabalhos tratando do problema de inferência de temperaturas (PIT)

utilizando redes neurais profundas para estimativa de vida útil remanescente de

equipamentos em usinas nucleares. A relevância dessa aplicação em específico está em

dar suporte a uma tomada de decisão mais embasada no tocante à substituição ou não

dos equipamentos dentro do prédio de contenção do reator, potencialmente elevando o

nível de confiabilidade operacional da usina durante o período de extensão de vida útil,

ao mesmo tempo em que permitirá otimizar os gastos com manutenção e troca do

maquinário, enquanto que o PIAN é relevante na medida em que fornece ao operador

uma ferramenta de suporte à tomada de decisão capaz de alertá-lo acerca de um possível

transiente antes mesmo deste tomar consciência da possibilidade de ocorrência do

evento, aumentando assim o nível de segurança da planta. De forma geral, as

metodologias aplicadas são ainda contribuições relevantes na medida em que podem ser

facilmente estendidas e adaptadas a outros conjuntos de dados e situações similares nas

mais diversas indústrias e operações.

Já no que se refere à aplicação desse paradigma de redes para o PIAN, esta levou

à publicação de dois artigos por este autor (PINHEIRO et al., 2019; SANTOS et al.,

2019) e, quando da publicação destes, naturalmente também era pioneira, embora isso

esteja, felizmente, começando a mudar, com artigos aplicando o aprendizado profundo

nas usinas nucleares sendo publicados com mais constância. Seu valor está em atuar

como um sistema de engenharia de fatores humanos (EFH) para dar suporte à tomada de

decisão de operadores nas usinas nucleares para regularização da situação na hipótese

de um evento adverso, aumentando o fator de segurança operacional e eficiência das

mesmas e minimizando o risco de acidentes graves, como será mais bem descrito nos

capítulos subsequentes. Aqui, novamente, o sistema proposto é extensível a outras

indústrias e processos.

A relevância dessas pesquisas e estudos de caso talvez resida, entretanto,

principalmente em demonstrar o potencial que as redes neurais profundas possuem em

fornecer melhores resultados para os problemas e desafios clássicos da área de geração

de energia nuclear, além de mostrar caminhos plausíveis para o tratamento de

problemas complexos da área nuclear até então sem solução. Espera-se que os

resultados deste trabalho influenciem e possam motivar mais trabalhos e pesquisas

utilizando essa abordagem.

1.3 – Organização

No Capítulo 1 foi feita uma introdução sobre o cenário atual da aplicação de

redes neurais profundas à área da engenharia nuclear, seu potencial e importância.

Foram ainda apresentadas a motivação, inovação e relevância do trabalho e introduzida

qual será a abordagem aplicada: estudos de caso da performance de redes neurais

profundas a dois problemas complexos da área nuclear.

No Capítulo 2 será apresentada a fundamentação teórica das redes neurais

profundas, com foco nas arquiteturas desenvolvidas e aplicadas aos problemas

abordados neste trabalho.

O Capítulo 3 apresenta o primeiro estudo de caso, o PIAN.

O Capítulo 4 apresenta o segundo estudo de caso, o PIT.

O Capítulo 5 apresenta as conclusões gerais e sugestões para trabalhos futuros.

CAPÍTULO 2

FUNDAMENTAÇÃO TEÓRICA

2.1 – Breve Histórico

O desenvolvimento de unidades de processamento inspiradas nos neurônios

biológicos é historicamente atribuído inicialmente à McCulloch & Pitts (1943), com seu

modelo de neurônio artificial (conhecido atualmente como neurônio MP) que fora

baseado principalmente em estudos em neurologia da década de 30. Ilustrado na Figura

2.1, trata-se de um núcleo de processamento simples, que recebe entradas binárias

(vindas dos neurônios 1 e 2) e é capaz de fornecer uma saída também binária (saindo do

neurônio 3), desde que seja atingido um limiar de ativação neuronal. Tal modelo era

capaz de representar (ou melhor, mapear) algumas funções lógicas lineares.

Figura 2.1 – Modelo de neurônio MP (MCCULLOCH & PITTS, 1943).

Dezesseis anos depois, é postulada aquela que ficou conhecida como regra de

Hebb (1949), a respeito de como funciona o processo de aprendizagem do ponto de

vista neurobiológico: através do fortalecimento de conexões neuronais entre

determinados neurônios com a repetição de estímulos. Embora tal estudo tenha sido

feito no campo da neuropsicologia, o paradigma de neurônio artificial viria a ser

alterado para ao menos permitir esse novo conceito biológico, de forma tal a culminar,

em 1958, no modelo de neurônio artificial chamado perceptron (ROSENBLATT, 1958),

ilustrado na Figura 2.2. Sua principal diferença em relação ao neurônio MP é a presença

de pesos, “ ”, que representam a força das conexões entre cada entrada e o neurônio

de saída, permitindo o “aprendizado” por parte desse modelo de neurônio através do

ajuste desses pesos levando em consideração exemplos de treinamento conhecidos.

Figura 2.2 – Perceptron (HAYKIN, 2007).

Entretanto, a despeito do grande otimismo de Rosenblatt quanto ao futuro dos

perceptrons, Minsky (1969) publica, no livro Perceptrons, uma forte crítica ao modelo

de neurônio artificial e à, até então, recente1 abordagem conexionista para a inteligência

artificial. Em particular, Minsky argumenta que o perceptron ainda não era capaz de

representar funções não lineares (ou, mais exatamente, não linearmente separáveis) tais

como a função XOR, indicando que, para tal, seria necessária a concatenação de várias

camadas de perceptrons. Porém, até então não havia um algoritmo de aprendizado capaz

de fazer o ajuste de pesos para este caso. Esse fato, aliado aos avanços na abordagem

simbólica para a inteligência artificial (sistemas especialistas, algoritmos

evolucionários, árvores de decisão, etc.) levaram ao período chamado de “primeiro

inverno” para as redes neurais, com poucas aplicações e pesquisas na área.

Apenas 17 anos depois a abordagem conexionista voltou a prosperar, com

Rumelhart et al. (1986), ao revisitarem, expandirem e tornarem acessível a ideia de

retropropagação de erros – a qual fora proposta por Werbos (1974), mas sem muita

apreciação por parte da academia – para ajustes de pesos naquelas que passaram a ser

chamadas de redes neurais perceptron de múltiplas camadas (do inglês, multilayer

perceptrons – MLP). Seguiram-se a isso resultados teóricos importantes, como

Cybenko (1989), que enunciou o teorema da aproximação universal para redes neurais2.

O que se tinha, até então, eram redes neurais que funcionavam bem com uma ou

poucas camadas internas com quantidade razoável de neurônios, dadas as limitações

computacionais anteriores à democratização das unidades de processamento gráfico (do

1 Atribui-se o “nascimento” da inteligência artificial enquanto ciência formal à conferência de Dartmouth,

em 1956. 2 Enuncia que redes neurais, ainda que com uma única camada, com quantidade finita suficientemente

grande de neurônios podem, em teoria, aproximar funções arbitrariamente complexas.

inglês, Graphics Processing Units – GPU), e um estudo teórico robusto que embasava

as promessas de resultados notáveis que as redes neurais com uma camada poderiam

atingir. Por que, então, buscar redes neurais com várias camadas? Surpreendentemente,

ainda não há uma resposta definitiva para isso, porém o consenso geral entre os

cientistas é de que redes neurais mais rasas (isto é, com menos camadas internas de

neurônios), representada na Figura 2.3a, necessitam de uma quantidade

exponencialmente maior de neurônios para aproximar (mapear) a mesma função que

uma mais profunda (Figura 2.3b). Isso ocorre porque as redes neurais profundas

aprendem de forma hierárquica, com as camadas mais próximas da entrada se

especializando em aprender características mais simples do conjunto de dados de

treinamento que vão sendo combinadas em representações mais abstratas e de nível do

problema, o que foi confirmado apenas recentemente com estudos envolvendo a

interpretabilidade do aprendizado de máquina, como Zeiler & Fergus (2014).

Figura 2.3 – Exemplo de rede neural (a) rasa e (b) profunda (GOODFELLOW, 2016).

O fato, entretanto, é que não se tinha ainda uma forma eficiente de treinar essas

redes neurais mais profundas. O espaço da função de erro, que se quer minimizar, é

muito ruidoso nesses casos, com muitos mínimos locais. Além disso, foi relatado por

Hochreiter (1991, 1998) o problema de desaparecimento de gradiente, que aparece e se

intensifica com o aumento de profundidade das redes. Tais fatores, juntamente com a

falta de capacidade computacional, levaram a uma limitação no escopo de problemas

que as redes neurais eram capazes de resolver de forma eficiente, e consequentemente

ao “segundo inverno” para as redes neurais.

A formalização do conceito de aprendizado profundo (BENGIO & LECUN,

2007), formas de contornar as dificuldades relatadas, especialmente o desenvolvimento

de uma função de ativação que permitiu contornar o problema de desaparecimento de

gradiente (GLOROT, 2010), além do avanço das GPUs, tornaram possível e eficiente o

treinamento de redes neurais mais profundas, mas foi apenas por volta de 2012 que a

onda maciça de publicações envolvendo aprendizado profundo e suas aplicações

ocorreu, principalmente devido àquele que ficou conhecido como o “momento

ImageNet”, quando uma arquitetura de rede neural profunda (KRIZHEVSKY, 2012)

venceu por larga margem a competição de classificação de imagens “ImageNet”,

chamando a atenção de grandes empresas e concentrando investimentos na pesquisa e

desenvolvimento de sistemas envolvendo aprendizado profundo. A Figura 2.43 retrata a

propagação de artigos envolvendo inteligência artificial publicados em um repositório

ao longo da última década, fazendo com que o aprendizado profundo tenha produzido

resultados “estado da arte” em aplicações como processamento de imagens, visão

computacional, reconhecimento de fala, tradução automática, arte, imagiologia médica,

processamento de informação médica, robótica e controle, bioinformática,

processamento de linguagem natural, cibersegurança e muitos outros (ALOM et al.,

2019; SCHMIDHUBER, 2015).

Figura 2.4 – Publicações envolvendo inteligência artificial (PERRAULT, 2019).

2.2 – O Problema do Desaparecimento de Gradiente

3 Nos rótulos da figura, respectivamente, lê-se: inteligência artificial, computação e linguagem, visão

computacional e reconhecimento de padrões, aprendizado de máquina, computação neural e evolucionária

e, por fim, robótica.

O principal impedimento, do ponto de vista teórico, para que as redes profundas

pudessem ser treinadas com os algoritmos clássicos de retropropagação de gradiente

(HAYKIN, 2007) é o chamado problema de desaparecimento de gradiente. De fato, ele

é tão importante que ficou conhecido como o “problema fundamental do deep learning”

(SCHMIDHUBER, 2015). É importante notar que, embora tenha sido documentado

desde o início da década de 90 na literatura (BENGIO et al., 1994; HOCHREITER,

1991), o desaparecimento de gradiente só foi contornado de maneira eficiente para redes

neurais progressivas4 (do inglês, feedforward – FF) quando da introdução das funções

de ativação retificadas (GLOROT et al., 2011). Mas antes de explica-lo, são importantes

algumas definições básicas referentes às redes neurais, ilustradas na Figura 2.5:

Figura 2.5 – Definições básicas para redes neurais (adaptado de KARPATHY, 2019).

∑ pré-ativação neuronal;

( ) ativação neuronal; resultado da aplicação da função de ativação não-linear

à pré-ativação. Em particular, na Figura 2.5b, , uma função sigmoide logística;

saída da rede, equivalente, portanto, à ;

valor conhecido de saída, também chamado de alvo (do inglês, target);

viés (do inglês, bias). Funciona como o coeficiente linear da função afim de pré-

ativação, e nas redes neurais modernas tem, entre outras, as funções de aumentar a

flexibilidade do modelo e influenciar nas ativações neuronais.

: função de erro (do inglês, “loss function”); compara à de forma a medir a

performance da rede durante o treinamento.

4 Isto é, cujos sinais se propagam pelos neurônios em apenas um sentido, tipicamente da entrada para a

saída, ao contrário de redes com conexões de retroalimentação, definidas mais à frente.

Com essa notação tem-se, por exemplo, para o primeiro neurônio na segunda

camada interna (Figura 2.5a):

O algoritmo de retropropagação para o treinamento das redes baseado no método

do gradiente descendente (do inglês, stochastic gradient descent – SGD), também

conhecido como regra delta, consiste, basicamente, em:

Fornecer um exemplo (do inglês, sample) de treinamento (entradas) para a rede, que

calculará sua saída correspondente, dados os pesos (e vieses) atuais, inicializados

aleatoriamente;

Calcular o erro entre a saída da rede ( ) e o valor conhecido ( ) para tal exemplo;

Retropropagar o erro para cada um dos pesos da rede, segundo a seguinte

expressão5:

O problema de desaparecimento de gradiente usualmente aparece durante o

treinamento de RNPs utilizando métodos baseados em gradiente para o aprendizado das

redes: à medida que os valores de pré-ativação neuronal tornam-se muito grandes (em

valor absoluto), o gradiente computado pela derivada do erro nessas camadas torna-se

pequeno (fenômeno conhecido como “saturação de neurônio”). Consequentemente, o

gradiente, utilizado para ajustar os pesos da rede, tende a ficar cada vez mais próximo

de zero conforme o erro vai sendo retropropagado através da regra da cadeia. Assim, as

primeiras camadas internas da rede terão gradiente desprezível, e seu impacto no ajuste

dos pesos será ínfimo, tornando o processo de aprendizado tão lento a ponto de ser

impraticável (ver Figura 2.7).

5 Na prática, embora o erro seja calculado exemplo a exemplo, o ajuste dos pesos da rede não é

tipicamente realizado nessa freqüência, como no SGD, mas sim realizado em bateladas (do inglês,

batches), por razões computacionais, de eficiência e de estabilidade de treinamento, sendo o tamanho da

batelada é um dos hiperparâmetros a definir. Isso dá origem aos termos “batch gradient descent" (quando

o tamanho do batelada é o tamanho do conjunto de dados de treino) e “mini batch gradient descent”,

quando o conjunto de dados é dividido em grupos (mais comum).

De fato, calculando explicitamente as taxas de variação do erro em relação a

cada um dos pesos destacados na Figura 2.5a, tem-se, adotando a função simples de erro

quadrático ( )

e desconsiderando os termos referentes aos vieses, para

simplificar a notação (sem prejuízo da argumentação):

( ) ( )

( ) ( ) ,

( ) ( )

Assim, as RNPs que, seguindo o exemplo das redes neurais rasas, eram

tradicionalmente ativadas com funções sigmoides (HAYKIN, 2007) são bastante

afetadas pelo desaparecimento de gradiente conforme se desenvolvem em profundidade,

pois estas saturam muito rapidamente. As funções sigmoide logística e tangente

hiperbólica, por exemplo, definidas como ( )

(Figura 2.6a) e ( )

( ) (Figura 2.6b), possuem limites assintóticos entre 0 e 1 e -1 e 1,

respectivamente, conforme suas entradas se aproximam de 4 ou -4, como pode ser

observado na Figura 2.6. Nessas regiões, suas derivadas se aproximam de zero e o

gradiente tende a desaparecer.

Figura 2.6 – Função sigmoide logística (a) e tangente hiperbólica (b) e suas derivadas.

Glorot & Bengio (2010) realizaram um estudo aprofundado a respeito de redes

neurais profundas com funções de ativação sigmoides e mostraram que, de fato, a

ativação de neurônios nas camadas mais profundas da rede se aproxima de zero (Figura

2.7, mostrando que a partir da camada 4 o valor da ativação fica próximo de zero muito

rapidamente). Quando isso ocorre, se está efetivamente zerando o aprendizado dos

pontos ligados àquele neurônio saturado, fazendo-as apresentar um desempenho ruim,

com treinamento lento que converge tipicamente para mínimos locais.

Figura 2.7 – Análise dos níveis de ativação neuronal (GLOROT & BENGIO, 2010).

2.3 – Redes Neurais Profundas Retificadas

GLOROT et al. (2011), então, propuseram um novo tipo de arquitetura,

chamada de rede neural profunda retificada (do inglês, deep rectifier neural network –

DRNN), que utiliza uma função de ativação retificada chamada de ReLU (rectified

linear unit), definida como ( ) ( ), para ativar os neurônios das camadas

internas. Como se pode observar na Figura 2.8, tal função não sofre com o problema de

desaparecimento de gradiente por apresentar comportamento linear no domínio positivo,

de maneira que o gradiente fluirá bem para os neurônios ativos durante a

retropropagação.

Figura 2.8 – ReLU.

Adicionalmente, segundo os autores, tal função de ativação introduz uma

esparsividade que é mais biologicamente plausível, ao emular melhor o funcionamento

do cérebro. Os autores argumentam que estudos indicam que os neurônios biológicos

codificam informação de maneira esparsa e distribuída, com percentual de neurônios

ativos ao mesmo tempo entre 1 e 4%. A ReLU, nesse sentido, por construção inativa

cerca de 50% dos neurônios a cada fase do treinamento (aqueles cuja pré-ativação será

negativa ou nula), ao passo que funções sigmoides geram uma representação densa dos

pesos, com quase 100% deles continuamente ativos ao mesmo tempo.

As DRNN, portanto, são redes neurais profundas progressivas ativadas nas

camadas internas por funções ReLU. Naturalmente, devido ao triunfo dessa função de

ativação, diversas outras funções retificadas similares foram propostas na literatura,

como ELU, SELU, Leaky-ReLU, GELU, ISRU, Swish, entre outras (NWANKPA,

2018). Embora algumas forneçam resultados interessantes em alguns problemas

específicos, a maior parte das aplicações científicas e comerciais ainda utiliza a ReLU,

pois esta tem fornecido bons resultados de maneira robusta e consistente.

2.4 – Redes Neurais Auto-Associativas

As redes neurais auto-associativas (do inglês, autoencoders – AE) são redes

projetadas e treinadas para aprenderem a copiar os seus sinais de entrada (KRAMER,

1992). A arquitetura de uma rede neural autoencoder rasa tradicional (também chamada

de “vanilla autoencoder”) é composta por uma camada de entrada, uma camada interna

e uma camada de saída. O advento do paradigma de redes neurais profundas levou à

implementação de autoencoders profundos com várias camadas, nos quais as camadas

de entrada e saída possuem a mesma quantidade de neurônios, enquanto que as camadas

internas possuem tipicamente menos neurônios, formando uma representação codificada

dos dados (representada por na Figura 2.9). Como tal, as redes neurais autoencoder

fazem parte da classe de aprendizado de máquina não supervisionado, definido como

aquele capaz de descobrir padrões ou características nos dados sem o fornecimento de

classes (labels) pré-definidas, diferenciando-se das aplicações de aprendizado

supervisionado, nas quais tanto os dados de entrada quanto os esperados de saída

(targets) são fornecidos à rede para o treinamento6.

Figura 2.9 – Rede neural auto-associativa (TSCHANNEN, 2018).

O propósito inicial dessa arquitetura era realizar compressão de dados ou

redução da dimensionalidade no espaço de características em aplicações de

processamento de informação (BOURLARD & KAMP, 1988). No seu processo de

aprendizado, a AE inicialmente comprime a entrada em um espaço de menor dimensão

para obter sua codificação, a qual é posteriormente decodificada através da reconstrução

para a dimensão original. Esse segundo processo é feito através do cálculo das

diferenças entre a entrada original e seus valores reconstruídos (KRAMER, 1992),

6 Há ainda uma série de outras formulações e terminologias, como aprendizado autossupervisionado,

aprendizado semissupervisionado, meta-aprendizado, etc, as quais fogem ao escopo deste trabalho.

chamado de erro de reconstrução, a partir do qual os pesos da rede são ajustados

utilizando algum algoritmo de treinamento que diminua esse erro.

Após o treinamento, portanto, a AE tenderá a fornecer erros de reconstrução

muito grandes para entradas que difiram daquelas utilizadas no treinamento, devido ao

fato de que a rede não será capaz de decodificá-las a partir de sua projeção em menor

dimensão (isto é, após ter se especializado em codificar e decodificar os dados de treino,

informações diferentes destes tenderão a ser consideradas dados espúrios pela rede).

Isso torna essa arquitetura de redes particularmente adequada para tarefas como

detecção de novelties, a qual constitui, juntamente com a detecção de outliers

(AGGARWAL, 2015) uma parte da área de detecção de anomalias e consiste em

identificar se um sinal de entrada é suficientemente diferente daqueles utilizados para o

treinamento de algum modelo (AMARBAYASGALAN et al., 2018).

A variante profunda dos autoencoders, chamada de deep autoencoder

(AGGARWAL, 2018), possui o mesmo objetivo que a rede AE tradicional, porém conta

com vários estágios de codificação e decodificação do sinal de entrada empilhados

sequencialmente (ZHOU et al., 2014). Assim, ela tem a capacidade de discriminar,

captar e representar de forma hierárquica e eficiente características complexas dos

dados brutos de entrada (ZHOU & PAFFENROTH, 2017). A DAE tem sido utilizada,

por conta disso, com sucesso em aplicações modernas de detecção de anomalias

(AMARBAYASGALAN et al., 2018; GUTOSKI et al., 2017; ZONG et al., 2018).

2.5 – Redes Neurais Recorrentes (RNRs)

As redes neurais recorrentes (GOLLER & KUCHLER, 1996) são arquiteturas

particularmente adequadas para lidar com problemas de aprendizado de sequências.

2.5.1 – Problema de aprendizado de sequências e as RNRs

Redes neurais progressivas permitem, por construção, apenas que os sinais se

propaguem através de suas camadas em uma direção (ver Figura 2.5), e, portanto,

implicitamente assumem que há independência entre cada um dos exemplos de

treinamento e teste. Dessa forma, ao ser finalizado o processamento de cada exemplo, o

estado, isto é, o conhecimento adquirido a respeito daquele exemplo em particular, é

perdido (embora ele ainda esteja, filosoficamente, guardado indiretamente na forma da

transformação dos pesos da rede durante o treinamento). Em casos em que os exemplos

são, de fato, independentes entre si, isto não representa um problema, mas caso

contrário – como é típico na modelagem de séries temporais, palavras, frases ou frames

de um vídeo – existe uma relação sequencial entre cada um dos dados, e tais problemas

são caracterizados, portanto, como aprendizado de sequências (LIPTON et al., 2015).

Há duas formas principais de fornecer às redes neurais a capacidade de

incorporar informações sobre o contexto sequencial: coletando os inputs na forma de

“janelas deslizantes” sequenciais de tamanho fixo ou adicionando conexões de

retroalimentação ao paradigma de rede neural progressiva para modelar o fluxo

sequencial diretamente. As redes neurais recorrentes (RNR) nascem7, portanto, dessa

segunda abordagem, ao adicionar tais conexões de retroalimentação (feedback) em um

grau arbitrário de complexidade. Tratam-se de modelos conexionistas Turing-completos

(SIEGELMANN & SONTAG, 1992) por construção temporalmente profundos com a

habilidade de transmitir informação dinamicamente ao longo dos passos da sequência,

formando uma espécie de “memória”. Além disso, tais redes, ao processarem cada

exemplo de maneira sequencial, adicionam a flexibilidade (bastante desejada nesse tipo

de aplicação) de lidar com sequências de tamanho variável, permitindo com que seja

definida, com certo grau de liberdade, quanta informação a rede deve receber antes de

fornecer uma saída, algo que não seria possível com a modelagem de janela deslizante

para as redes neurais progressivas (com entradas de tamanho fixo).

A figura 2.10 ilustra uma rede neural recorrente e seu “desdobramento” ao longo

dos passos da sequência8. O estado interno (muitas vezes denotado como ) é o

responsável pela acumulação e, portanto, memória dos pontos anteriores na sequência.

7 Historicamente, na verdade, podem ser consideradas uma evolução das redes de Hopfield (1982), as

quais, por sua vez, foram possivelmente inspiradas por Little (1974), mantendo inclusive algumas das

suas terminologias (como o conceito de “estados”) até hoje. 8 Na nomenclatura de redes neurais recorrentes, usam-se os termos passos de tempo e elementos da

sequência de forma intercambiável.

Figura 2.10 – rede neural recorrente (adaptado de GOODFELLOW, 2015).

As redes neurais recorrentes tradicionais, entretanto, por serem treinadas com

variações dos métodos de otimização por gradiente, como a retropropagação no tempo

(WERBOS, 1990), também sofrem do problema de desaparecimento de gradiente, tendo

sido mostrado que elas não guardam adequadamente informação sobre passos anteriores

da sequência da ordem de mais de uma dezena (HOCHREITER et al., 2001). Além

disso, não possuem mecanismos que as permitam discriminar seletivamente quais

aspectos da sequência devem ser guardados, esquecidos e transmitidos ao longo de seu

processamento. Esses fatores, principalmente, limitaram bastante a sua aplicabilidade e

motivaram a busca por uma arquitetura de rede neural robusta e mais eficiente.

De fato, a retropropagação no tempo consiste, tal como numa rede neural FF, em

inicializar cada um dos parâmetros (U, V e W, seguindo a notação da Figura 2.10)

aleatoriamente, fornecer exemplos de dados de entrada ( ) para os quais conhece-se a

saída correta ( ) e ajustar os parâmetros de maneira a minimizar o erro ( ) entre a saída

fornecida pela rede ( ) e de acordo com o gradiente descendente:

Sendo, neste caso:

com e (ou e ), na aplicação comum de sequências temporais) sendo o

passo sequencial atual e anterior, respectivamente. Fazendo ainda, por exemplo,

( ) ( ( ) )

tem-se para, por exemplo, o quarto passo da sequência:

O termo

leva a multiplicações sucessivas (pois depende de , que

depende de , etc.) da derivada da função de ativação. Supondo-a sigmoide logística,

esse valor está limitado (Figura 2.6a) entre e

levando, Q.E.D., ao problema do desaparecimento de gradiente9. Ao longo dos anos, os

pesquisadores buscaram solucionar ou contornar esse problema e aproveitar o potencial

das RNRs de várias formas, como:

Funções de ativação alternativas, como a ReLU e suas variantes;

Clipagem de gradiente;

Pré-treinamento não-supervisionado;

9 A rigor, as RNRs também estão sujeitas, da mesma forma, ao problema de explosão de gradiente

(fazendo com que o treinamento divirja), além do desaparecimento de gradiente, que pode advir das

multiplicações sucessivas do peso da conexão recorrente no caso e , respectivamente.

Porém, a explosão de gradiente é mais simples de evitar, utilizando clipagem de gradiente.

Busca de pesos por métodos alternativos como os algoritmos evolucionários;

Algoritmos de força bruta (do inglês, brute force algorithms), contando com poder

computacional para transmitir a informação;

Mas foi na utilização de arquiteturas alternativas que contornam o problema,

como as redes de estado de eco (JAEGER, 2001) e as redes de longa memória curta (do

inglês, long short-term memory – LSTM), propostas por Hochreiter & Schmidhuber

(1997) que as RNRs triunfaram.

2.5.2 – Long short-term memory (LSTM)

As redes neurais Long Short-Term Memory (HOCHREITER &

SCHMIDHUBER, 1997) são arquiteturas de redes neurais recorrentes que buscam

melhorar o fluxo do erro durante o treinamento das RNR tradicionais, afastando-as do

problema de desaparecimento do gradiente e tornando possível à rede guardar a

informação de centenas de passos anteriores na sequência de forma seletiva.

Uma camada LSTM consiste de um ou mais blocos conectados de forma

recorrente, conhecidos como blocos de memória, ou células LSTM (Figura 2.11). Cada

bloco contém, tipicamente, três unidades multiplicativas, chamadas de portões de

entrada, saída e esquecimento, que controlam seletivamente, respectivamente, as

operações de escrita, leitura e exclusão de informações no estado das células ( ),

mantendo-o relativamente protegido durante o processo de atualização dos pesos. Mais

especificamente, a entrada para a célula é multiplicada pela ativação do seu portão de

entrada, a saída da célula é multiplicada pela ativação do portão de saída e os valores

anteriores armazenados no estado da célula são multiplicados pela ativação do portão de

esquecimento. Matematicamente, e utilizando a notação da Figura 2.11, a célula LSTM

pode ser representada como segue, sendo o estado interno da célula e seu estado

oculto que, em última instância, é dado como saída:

Figura 2.11 – Célula LSTM (adaptado de OLAH, 2015).

o portão de esquecimento seletivamente “esquece-se” de informações irrelevantes na

sequência:

( , - )

o portão de entrada identifica a nova informação a ser armazenada, e consiste na etapa

sigmoide logística, que decide o que deve ser atualizado, e na etapa tanh, que elabora

um vetor com possíveis valores a adicionar ao estado da célula:

( , - )

na etapa de atualização do estado da célula, é aplicada a operação de esquecimento ao

estado anterior da célula, e são adicionados os possíveis valores, parametrizados pelo

quanto decidiu-se atualizar:

finalmente, o portão de saída fornece uma versão “filtrada” do estado da célula:

( , - )

Ao discretizar, dessa forma, as funções de cada parte da célula, há apenas

multiplicações matriciais elemento a elemento (produtos de Hadamard) combinadas por

uma soma na atualização do estado da célula. Dessa forma, ao retropropagar o erro, o

fluxo do gradiente não tende a ser interrompido. De fato, lembrando que, nas RNN

“tradicionais”, aplicações sucessivas de

são precisamente o que leva ao problema

de desaparecimento de gradiente, resta saber como a LSTM evita que esse termo vá a

zero. Reescrevendo o termo referente ao estado da célula LSTM:

( , -) ( , -) ( , -)

tem-se que o fluxo de gradiente pelo estado da célula nas LSTM é:

( , -)

( ( , -) ( , -))

ou seja:

( , -)

Assim, o gradiente comporta-se de maneira similar ao termo do portão de

esquecimento. Isto é, tenderá a ser aproximadamente um tantas vezes quantas a rede

“decidir” que uma parte da informação deve ser lembrada.

Em última instância, isso significa que o gradiente não irá a zero rapidamente,

como ocorre nas RNN tradicionais, tendo sido reportados resultados experimentais em

que a LSTM consegue guardar informação de mil pontos anteriores na sequência

(HOCHREITER & SCHMIDHUBER, 1997).

A LSTM, juntamente com a arquitetura de redes neurais convolucionais (do

inglês, convolutional neural networks – CNN), propostas por LeCun et al. (1989) tem

sido responsável por boa parte do sucesso na aplicação de modelos de aprendizado

profundo nas mais diversas áreas, atingindo resultados estado da arte em campos como:

análise proteica, reconhecimento de escrita manual, detecção de voz, reconhecimento

ótico de caracteres, tradução automática, identificação de idiomas, análise de

sentimento, modelagens de séries temporais em geral, entre outros (SCHMIDHUBER,

2015).

2.6 – Floresta Aleatória

Como será descrito mais a frente, a técnica de aprendizado de máquina floresta

aleatória (do inglês, random forests – RF), proposta por Breiman (2001), embora não

pertença à classe de redes neurais, mas sim de geração de agregados de árvores de

decisão (do inglês, decision tree ensembles), foi utilizada (Seção 4.3) como parte de um

sistema para “filtrar” as variáveis físicas mais relevantes, dentro de um escopo de cerca

de 150 variáveis, para serem alimentadas às RNPs na modelagem de regressão no

problema de inferência de temperaturas, num processo conhecido como importância de

variáveis (do inglês, feature importance – FI) por permutação, descrito em Altmann et

al. (2010).

As florestas aleatórias tratam-se de um modelo relativamente barato

computacionalmente e altamente interpretável (quando comparado às redes neurais,

cujas principais desvantagens são o custo computacional e apresentarem características

de modelos “caixas-pretas”), fazem parte da classe de algoritmos supervisionados de

aprendizado de máquina e consistem no “ensacamento” (do inglês, bagging) de árvores

de decisão. Tais algoritmos objetivam obter árvores que se ajustem bem aos dados, ao

mesmo tempo em que sejam tão pouco correlacionadas (i.e. com baixa covariância)

entre si quanto possível, o que é feito em geral selecionando amostras aleatoriamente

com reposição (do inglês, bootstrapping) do conjunto de dados. A ideia é que os valores

de predição de cada uma das árvores sejam combinados de alguma forma e seus desvios

individuais em relação ao valor esperado, por serem pouco correlacionados devido ao

bagging, tendam a se anular, fornecendo uma resposta mais acurada do que as respostas

de cada árvore individual.

Formalmente, para o caso de florestas aleatórias aplicadas à classificação10

“Uma floresta aleatória é um classificador que consiste em uma coleção de

classificadores individuais em formato de árvores de decisão * ( ) +

onde os * + são vetores aleatórios independentes identicamente distribuídos no

espaço, e cada um „vota‟ para eleger qual a classe mais popular para a entrada .”

(BREIMAN, 2001, em tradução livre).

A aplicação de florestas aleatórias para regressão é análoga, variando basicamente a forma como são

interpretadas e calculadas as funções de erro e demais métricas. Ver Denil et al. (2014) para mais

detalhes.

A Figura 2.12 ilustra o pseudocódigo para florestas aleatórias simples. Ao longo

dos anos, o modelo de RF alcançou sucesso considerável em uma grande variedade de

aplicações e inspirou diversas modificações e técnicas mais avançadas de agrupamento

de árvores de decisão (PRETORIUS et al., 2017).

Figura 2.12 – Pseudocódigo para florestas aleatórias (ALVARENGA JÚNIOR, 2018).

CAPÍTULO 3

O PROBLEMA DE IDENTIFICAÇÃO DE ACIDENTES NUCLEARES (PIAN)

3.1 – Introdução ao Problema

As usinas nucleares são projetadas e operadas baseando-se em padrões e

diretrizes estritamente definidos. A análise de segurança de uma usina nuclear busca

tornar tão baixa a probabilidade de um acidente radiológico quanto seja razoável atingir,

a despeito do grande risco inerente ao inventário de radiação no núcleo do reator.

Portanto, princípios de redundância, diversos sistemas de segurança e de defesa em

profundidade são aplicados desde a etapa de concepção e projeto, de modo a garantir

um elevado nível de confiabilidade e previsibilidade (O‟HARA et al., 1994).

O problema de identificação de acidentes nucleares (PIAN) é um problema

complexo da área nuclear de grande relevância para a segurança da planta, que vem

sendo estudado ao longo dos anos (MA & JIANG, 2011). Na ocorrência de um

transiente, é possível observar a evolução temporal das variáveis físicas envolvidas

através das leituras dos instrumentos da sala de controle, a começar pela operação em

estado estacionário. Tal evolução no tempo de cada uma das possivelmente dezenas de

variáveis envolvidas fornece uma curva específica – um padrão – único (em teoria) com

respeito àquele tipo de acidente/transiente (JEONG et al., 1996), tornando a sua análise

útil para identificar o evento que está ocorrendo. O PIAN pode, assim, ser encarado

como um problema de reconhecimento de padrões, onde sintomas relevantes compostos

por um grupo de variáveis da planta são representativos do acidente.

Um sistema de diagnóstico automatizado capaz de identificar o evento

operacional de forma rápida e robusta é uma ferramenta valiosa de suporte à tomada de

decisão aos aos operadores da sala de controle, na medida em que permite a eles

atuarem mais rapidamente para retornar a usina à operação normal, ou proceder com o

seu desligamento preventivo, conforme protocolo.

Como já sugerido, diversos métodos estatísticos e técnicas de inteligência

artificial foram testados na literatura científica com vistas a resolver o PIAN (ver MA &

JIANG, 2011, para uma revisão bibliográfica, além de KWON & KIM, 1999; MOL et

al., 2002; EVSUKOFF & GENTIL, 2005; NICOLAU & SCHIRRU, 2017; PENG et al.,

2018; PINHEIRO, 2018). Dentre estas abordagens, as redes neurais têm sido

exploradas, sejam sozinhas ou combinadas em sistemas híbridos, como ferramentas

para identificar automaticamente os padrões de saída dos instrumentos durante o

transiente ou acidente, os quais serão diferentes dos observados na operação normal.

De fato, a evolução no desempenho das redes neurais para o PIAN acompanha

diretamente a notável evolução das próprias redes neurais ao longo das décadas: desde

as primeiras publicações no assunto, como BARTLETT & UHRIG (1992), até outros

trabalhos envolvendo arquiteturas mais recentes (EMBRECHTS & BENEDEK, 2004;

ROVERSO, 2004), as redes neurais avançaram de técnicas que não eram capazes de

identificar os transientes rápido o suficiente até uma alternativa poderosa que pode lidar

com cenários numerosos de acidentes em tempo real ou mesmo em uma janela de tempo

de quase-equilíbrio (MOSHKBAR & GHOFRANI, 2013). Entretanto, a dificuldade em

identificar transientes com evolução rápida e modelar dados com dependências

temporais são problemas tradicionais e recorrentes das aplicações de redes neurais ao

Paralelamente, dada a característica de “mundo aberto”11

desse e da vasta

maioria dos problemas práticos de classificação de padrões (SCHEIRER, 2014), é

importante que o classificador seja capaz de considerar todos os outros objetos fora do

escopo de interesse como potenciais negativos, isto é, não pertencentes a nenhuma das

classes conhecidas, ao invés de atribuí-los à classe mais similar conhecida (treinada).

Além disso, dado que as usinas nucleares são sistemas críticos do ponto de vista de

segurança, é igualmente importante que a rede forneça respostas assertivas apenas

quando ela tiver um grau suficiente de confiança naquela classificação, de maneira a

não fornecer informações conflitantes ou, pior, equivocadas aos operadores, podendo

influenciá-los a conduzir a planta a um estado mais grave que o atual, com

consequências possivelmente catastróficas. A solução para tais complicadores é equipar

o sistema com a capacidade de fornecer uma resposta “não sei” (KARMAKAR & PAL,

2018) para eventos fora do escopo da modelagem ou para os quais a rede não seja capaz

de fornecer uma resposta assertiva. Alguns exemplos notáveis de trabalhos que buscam

atingir esse objetivo, com redes neurais ou outros classificadores, são:

Problemas de classificação de mundo aberto são aqueles em que há apenas algumas classes que o

sistema é capaz de reconhecer em um grande espaço de todas as classes conhecidas, já que não é

necessário (ou possível), neste caso, treinar o sistema com todos os possíveis transientes operacionais.

1. Ha (1997) com rejeição seletiva por classe como uma alternativa à rejeição simples

para reduzir erros de classificação em situações nas quais os inputs não puderem ser

atribuídos a uma das classes conhecidas de maneira confiável;

2. Mol et al. (2002), que consiste em uma arquitetura de RNA com saltos (do “inglês,

jump type ANN”) combinada a um modelo de rede auto-associativa. Boa parte da

abordagem realizada com redes neurais profundas apresentado neste trabalho teve

como inspiração esse artigo;

3. Chakraborty & Pal (2002) desenvolveram um esquema de treinamento de redes

neurais que consiste em treinar “sub-redes” para cada classe, de maneira que estas

não respondam a pontos fora do escopo dos dados de treinamento;

4. Jain et al. (2014) calculam o teorema do valor extremo para cada classe e estima a

máxima verossimilhança de parâmetros de uma distribuição de Weibull;

5. Scheirer et al. (2014) introduziram um modelo de reconhecimento em problemas de

“mundo aberto” chamado de redução compacta de probabilidades (do inglês,

compact abating probability – CAP) onde a probabilidade de pertencimento a uma

classe diminui conforme o candidato distancia-se dos dados conhecidos em direção

ao espaço aberto;

6. Bendale & Boult (2015) propõem um algoritmo de não-outlier mais próximo (do

inglês, nearest non-outlier – NON) que adiciona categorias de forma incremental

enquanto detecta outlier e gere o risco de espaço aberto;

7. Nicolau & Schirru (2017) aplicaram o algoritmo evolucionário de inspiração

quântica (do inglês, quantum evolutionary algorithm – QEA) combinada com a

teoria de vizinho mais próximo dos diagramas de Voronoi para clusterizar áreas de

influência para cada evento conhecido, fornecendo a resposta “não sei” para aqueles

fora dessa área.

Nesse contexto, a motivação dessa aplicação foi explorar combinações de

arquiteturas, procedimentos de treinamento e funções de ativação centralizados em

redes neurais profundas para atuarem como base a um sistema robusto capaz de

diagnosticar de forma rápida e acurada acidentes nucleares e fornecer ainda a resposta

“não sei”. O diferencial deste estudo reside, portanto, em abordar o problema utilizando

modelos de aprendizado profundo otimizados com as arquiteturas de RNPs. O sistema

foi desenvolvido e testado utilizando dados de operação simulados para a usina nuclear

de reator de água pressurizada (PWR) Angra 2, localizada na região sudeste do Brasil.

3.2 – Modelagem Experimental

3.2.1 - O conjunto de dados

Neste estudo de caso foi utilizado um conjunto de dados, obtidos por Alvarenga

(1997) em um simulador de referência para a usina Angra 2, composto por assinaturas

temporais de 61 segundos envolvendo 16 variáveis físicas, listadas na Tabela 3.1, para

13 cenários de operação (12 acidentes postulados mais a operação normal, enumerados

na Tabela 3.2). O objetivo é, novamente, aplicar técnicas de redes neurais profundas de

maneira a obter um sistema eficiente e robusto ao ruído que seja capaz de identificar, o

quanto antes possível, a qual situação operacional cada evolução temporal das variáveis

de estado corresponde, além de fornecer a resposta “não sei” para eventos que

porventura estejam fora do escopo de treinamento ou para os quais a rede não seja capaz

de fornecer uma resposta confiável.

Tabela 3.1 – Variáveis de estado.

Código Variável Unidade

1 Vazão percentual no núcleo %

2 Temperatura na perna quente ºC

3 Temperatura na perna fria ºC

4 Vazão no núcleo kg/s

5 Nível percentual no gerador de vapor – faixa larga %

6 Nível percentual no gerador de vapor – faixa estreita %

7 Pressão no gerador de vapor MPa

8 Vazão de água de alimentação kg/s

9 Vazão de vapor kg/s

10 Vazão no circuito primário kg/s

11 Pressão no sistema primário MPa

12 Potência térmica percentual %

13 Potência nuclear percentual %

14 Margem de subresfriamento ºC

15 Nível percentual do pressurizador %

16 Temperatura média no primário ºC

Tabela 3.2 – Situações de operação da usina.

Código Situação Descrição simplificada

1 BLACKOUT Perda de alimentação elétrica externa

2 BLACKSEM Perda de alimentação elétrica sem desligamento do reator

3 LOCA Perda de refrigerante do sistema primário

4 MEFWISO Isolamento da alimentação principal e auxiliar

5 MFWBRSEM Ruptura da alimentação principal sem desligamento do reator

6 MFWISO Isolamento da alimentação principal

7 MSTMISEM Isolamento da linha de vapor principal sem desligamento do reator

8 MSTMISO Isolamento da linha de vapor principal

9 NORMAL Condição normal de potência

10 SGTR Ruptura de tubos do gerador de vapor

11 STMLIBR Ruptura da linha de vapor principal

12 TRIPREA Desligamento da turbina sem desligamento do reator

13 TRIP Desligamento da turbina e do reator

De forma a aumentar a robustez do sistema e ao mesmo tempo fornecer à RNP a

quantidade adequada de exemplos de treinamento, foi feito aumento de dados (do

inglês, data augmentation) nas séries temporais originais de forma a simular, para cada

variável, as incertezas dos instrumentos de medição (tipicamente consideradas 1% nas

usinas nucleares) ao sobrepor aos dados originais um ruído branco com distribuição

normal e 1% de desvio padrão. Para as avaliações de performance do classificador, esse

procedimento resultou em 4368 séries para treinamento, 2184 para validação e 1456

para o teste12

da rede, seguindo a formulação aproximada 50-30-20, respectivamente.

Naturalmente, quando uma situação de operação anormal ocorre, ela se inicia

com um transiente no qual as variáveis físicas envolvidas no evento ainda não se

desenvolveram por completo até seus valores no regime estacionário. Isso significa que

quanto mais tempo um sistema de diagnóstico automático tem para absorver os dados e

identificar o evento, mais confiável será sua resposta. Por outro lado, sistemas mais

Neste trabalho, treinamento refere-se aos dados reservados para o treino das redes e atualização dos

parâmetros através do gradiente descendente, tal como descrito no Capítulo 2. Validação refere-se aos

dados utilizados para definição de critérios de parada e considerações acerca do ajuste da rede aos dados,

e teste diz respeito aos dados reservados para auferir a capacidade de generalização da rede e desempenho

geral do treinamento.

rápidos são obviamente desejáveis, especialmente em situações críticas do ponto de

vista de segurança, como nas usinas nucleares. O sistema ideal é, portanto, aquele que

apresenta um meio-termo e relação balanceada entre tempo e precisão, de forma a

permitir uma implementação segura. Pensando nisso, as análises envolvendo o

classificador foram realizadas tanto considerando que o início da aquisição dos dados

pelo sistema ocorre 3 segundos após o início do transiente (para a análise da resposta

“não sei” é considerado este caso apenas) quanto com ela ocorrendo no segundo de

início do mesmo (cenário mais desafiador).

Já a modelagem experimental para a geração de resposta “não sei” consistiu em

reproduzir diversas situações de eventos desconhecidos da seguinte maneira:

inicialmente, um dos 13 cenários operacionais é selecionado para representar o evento

desconhecido. Então, três conjuntos são criados para avaliar a performance de cada um

dos métodos propostos (que serão descritos mais adiante), e uma versão do classificador

é treinada sem esse evento escolhido. Tais conjuntos são montados da seguinte maneira:

1) Conjunto desconhecido: esse conjunto contém 1881 exemplos do evento

desconhecido selecionado;

2) Conjunto conhecido: esse conjunto contém 1881 exemplos de cada evento que é

parte do escopo de treinamento do classificador. No total, formam-se 22572

exemplos;

3) Conjunto combinado: esse conjunto combina o conjunto desconhecido ao

conhecido, somando 24453 exemplos.

Ao seguir esse padrão, foi possível avaliar cada metodologia “não sei” proposta

para cada situação hipotética de evento desconhecido dentre os 13 cenários operacionais

da Tabela 3.2. Isto é, cada metodologia é testada para o caso de blackout desconhecido,

depois BLACKSEM desconhecido, e assim por diante.

3.2.2 – Materiais e métodos

O tempo de treinamento é um fator relevante para as RNPs. Portanto, foi

utilizada uma unidade de processamento gráfico (GPU) modelo NVIDIA® GeForce®

GTX 1070 para acelerar o treinamento dos modelos através da computação paralela. A

linguagem de programação utilizada para conduzir a pesquisa foi o Python (VAN

ROSSUM, 2007), adotando as versões habilitadas para computação paralela – baseadas

na linguagem CUDA (NICKOLLS et al., 2008) – de algumas de suas bibliotecas

(frameworks) de código aberto especializadas em aprendizado de máquina: TensorFlow

(ABADI et al., 2016) e Keras (CHOLLET, 2016), além das bibliotecas auxiliares

NumPy (WALT et al., 2011), Pandas (MCKINNEY, 2010), Scikit-learn (PEDREGOSA

et al., 2011) e Matplotlib (HUNTER, 2007).

3.2.3 – O classificador

Para a definição do modelo de rede neural utilizado para classificar os eventos

operacionais, diversos testes foram realizados buscando os hiperparâmetros (número de

camadas, épocas, neurônios em cada camada, funções de ativação, taxa de aprendizado,

otimizadores, etc.) que forneceriam a melhor performance. Assim, chegou-se ao modelo

de rede neural profunda retificada (DRNN, descrito na Seção 2.3) composta por três

camadas internas com mil neurônios cada ativados por ReLU nas camadas internas e de

saída. As camadas de entrada e saída possuem, respectivamente, dezesseis e um

neurônio.

3.2.4 – Inspirações para a resposta “não sei”

Já para capacitar o sistema a fornecer a resposta “não sei” de maneira confiável e

eficiente, e ao mesmo tempo que não afetasse o desempenho do classificador, diversas

abordagens foram testadas, bastante influenciadas pelo trabalho de Mól et al. (2002), os

quais desenvolveram um sistema baseado na arquitetura de rede neural com saltos

(classificador) acoplada a uma rede auto-associativa (Figura 3.1). O classificador recebe

como entradas as variáveis físicas de operação e fornece como saída um evento

candidato que deve ser validado pelo sistema. Foram definidos dois critérios para

validar a saída do classificador, de forma que o sistema apenas fornecerá uma resposta

assertiva a respeito do evento caso os dois critérios sejam satisfeitos simultaneamente,

caso contrário, retornará a resposta “não sei”. Estes critérios são o critério de

identificação e validação da saída da rede (CIVR) e o critério de validação de variáveis

(CVV):

CIVR: O primeiro critério elaborado para gerar a resposta “não sei” baseou-se no

raio máximo da zona de alcance (RMAXZA) para cada classe (evento operacional).

O sistema atribui à cada transiente um valor discreto (seu “target”: 1, 2, ..., n) de

forma que, após o treinamento, os valores de saída para cada evento operacional

oscilarão em torno do valor definido. O RMAXZA para cada transiente é, então,

definido como o maior desvio entre o valor esperado e a saída fornecida pela rede

para o respectivo transiente (Equação 3.1, onde indica o evento operacional,

seu valor esperado e a saída fornecida pela rede (não confundir com e ,

descritos na Seção 2.2, referentes ao processo de treinamento da rede). O evento

será considerado válido neste estágio apenas se, durante a etapa de inferência13

raio obtido não for maior que RMAXZA.

CVV: consiste em validar todas as variáveis de estado utilizadas como entradas para

a rede classificadora, utilizando para isso uma rede auto-associativa rasa (descrita na

Seção 2.4) treinada com todos os eventos operacionais de forma que, após o

treinamento, ela seja capaz de reconstruir as variáveis de estado para cada evento

com erro de reconstrução mínimo para cada variável. Mais especificamente, durante

o treinamento, obtém-se o erro máximo de reconstrução ( ) para cada variável,

definido como o maior desvio entre o valor esperado para a variável e o valor

apresentado como saída da rede auto-associativa. Durante a etapa de inferência, uma

variável será considerada válida apenas se a diferença entre o valor da variável e a

saída fornecida pela rede auto-associativa for menor que ; o evento candidato

será, então, considerado válido se todas as variáveis forem consideradas válidas.

Figura 13.1 – Sistema elaborado por Mól et al. (2002).

Etapa de inferência refere-se à fase pós-treinamento da rede, quando o modelo é utilizado para

inferir/predizer os dados recebidos de acordo com o que foi aprendido durante o treinamento, seja em fase

de produção ou de testes.

3.2.5 – Novas Abordagens Propostas Para a Resposta “Não Sei”

Baseado nos critérios descritos na seção anterior, foram propostas e testadas

algumas abordagens alternativas para a geração da resposta “não sei” no sistema, que

serão descritas a seguir. Vale ressaltar que as duas primeiras foram inspiradas no CIVR

e a terceira no CVV.

3.2.5.1 – Raio médio da zona de alcance (RMEDZA)

Considerando que o RMAXZA pode sofrer muita influência devido à presença

de um simples outlier nos dados, foi avaliada a alternativa que considera o raio médio

da zona de alcance, calculado como:

onde i é o número de exemplos de treinamento. A ideia é suavizar a influência de ruído

e eventos aleatórios que podem ter sido capturados na aquisição dos dados.

3.2.5.2 – Raio da zona de alcance baseado em PSO (PSO-RZA)

O algoritmo de otimização por enxame de partículas (do inglês, particle swarm

optimization – PSO), descrito em detalhes em Kennedy et al. (2001), foi testado como

uma ferramenta de busca meta-heurística para determinar o vetor de raios de alcance

que levaria à melhor performance do sistema, i.e., identificação correta de eventos e

respostas “não sei” corretas no conjunto de testes. A parametrização do algoritmo foi

feita partindo-se de boas práticas documentadas na literatura (KENNEDY, 2007;

PEDERSEN & CHIPPERFIELD, 2010) e realizando testes empíricos, chegando aos

hiperparâmetros listados abaixo:

Parâmetro cognitivo ( ): 1,8;

Parâmetro social ( ): 2,2;

Coeficientes de inércia ( ): 0,2;

Espaço de busca: [0,01; 0,5];

Número de partículas ( ): 50;

Número máximo de iterações ( ): 50.

3.2.5.3 – Rede auto-associativa profunda de única classe (RAPUC)

Como alternativa ao modelo original de rede auto-associativa rasa treinada com

todas as classes, presente no CVV original, o uso de uma rede auto-associativa profunda

de classe única (RAPUC) foi avaliado. Esse modelo consiste em uma série de redes

auto-associativas profundas (tais quais as descritas na Seção 2.4) onde cada uma é

treinada com apenas um evento operacional específico. Essa variante de classe única,

acredita-se, permitirá à rede especializar-se e diminuir ainda mais o erro de reconstrução

para as entradas que representam o evento fornecido àquela RAPUC em particular após

o treinamento, ao mesmo tempo em que os erros de reconstrução serão ainda maiores

para entradas diferentes daquelas utilizadas no treinamento, o que é desejável em uma

aplicação crítica do ponto de vista de segurança. De fato, essa variante de classe única

foi proposta na literatura com outras técnicas similares, como máquinas de suporte

vetorial (SCHÖLKOPF et al., 1999; LI et al., 2003; ERFANI et al., 2016), para

detecção de anomalias, sendo também recentemente aplicada ao aprendizado profundo

(CHALAPATHY et al., 2018; RUFF et al., 2018).

3.3 – Resultados Experimentais

3.3.1 – Classificação

Os resultados obtidos aplicando a DRNN para o PIAN com os dados de teste

descritos na Seção 3.2 revelaram exatidão de cerca de 98% na correta classificação das

situações operacionais. De fato, a rede mostrou-se robusta e capaz de fornecer

resultados quase equivalentes tanto quando a análise começa no exato segundo de início

do transiente quanto 3 segundos após o início do mesmo, como se pode observar

analisando o desempenho dos modelos nas Tabelas 3.3 e 3.4 com suas respectivas

matrizes de confusão normalizadas presentes nas Figuras 3.2 e 3.3. É importante

observar que o número de exemplos (amostras) varia entre as duas tabelas apenas pelo

fato de haver mais medições no segundo caso, pois o sistema começa a receber os dados

alguns segundos antes.

Tabela 3.3 – Desempenho da rede iniciando 3 segundos após o início do transiente.

Conjunto de treino Conjunto de teste Conjunto de validação

Quantidade de amostras 4368 1456 2184

Erro médio absoluto 0,1089 0,0531 0,0453

Erro médio quadrático 0,2235 0,1103 0,0951

Exatidão 96,97% 98,21% 99,03%

Quantidade de épocas 500

Tempo de treinamento 4,68 min

Tabela 3.4 – Desempenho da rede iniciando no exato segundo de início do transiente.

Conjunto de treino Conjunto de teste Conjunto de validação

Quantidade de amostras 4524 1508 2262

Erro médio absoluto 0,1519 0,08485 0,0832

Erro médio quadrático 0,4822 0,1861 0,1895

Exatidão 95,44% 97,87% 97,99%

Quantidade de épocas 500

Tempo de treinamento 4,42 min

Figura 3.2 – Matriz de confusão normalizada começando a análise aos 3 segundos.

Figura 3.3 – Matriz de confusão normalizada começando a análise com 1 segundo.

3.3.2 – Resposta “Não Sei”

Já no que diz respeito à geração da resposta “não sei”, os resultados serão

apresentados separadamente para cada uma das abordagens na ordem em que foram

descritos na Seção 3.2, a começar pelos testes adaptando a DRNN ao sistema

desenvolvido por Mól et al. (2002). Como indicado na Seção 3.2.1, todos os resultados

apresentados doravante referem-se a testes considerando o início da análise 3 segundos

após o início do transiente.

3.3.2.1 – RMAXZA

Este experimento utiliza a abordagem original desenvolvida por Mól et al.

(2002), porém com a DRNN como classificador. Considerando o LOCA como evento

desconhecido, a Tabela 3.5 mostra os , calculados através da Equação 3.1, bem

como a Tabela 3.6 mostra o desempenho do sistema com essa abordagem nos três

conjuntos. A matriz de confusão normalizada para a situação de LOCA desconhecido

encontra-se na Figura 3.4. Para o conjunto conhecido, o sistema apresenta quase 100%

de exatidão. Porém, no conjunto desconhecido, apenas 60% das amostras foram

corretamente classificadas como desconhecidas (forneceram a resposta “não sei”), e

pode-se perceber que o sistema classificou erradamente os demais 40% como

STMLIBR (39%) e SGTR (1%), o que é confirmado analisando a Figura 3.5, que

mostra a resposta do sistema segundo a segundo.

A Tabela 3.7 mostra, ainda, o desempenho do sistema (medido como exatidão)

para cada cenário de evento desconhecido. Aqui, a coluna “nt blackout”, por exemplo,

significa que, nesse experimento, todas as situações operacionais são conhecidas, exceto

pelo blackout. A diagonal principal destacada significa, portanto, a exatidão do sistema

em corretamente classificar sua respectiva situação operacional como um evento

desconhecido, enquanto as demais células mostram a exatidão do sistema para os

eventos conhecidos. Finalmente, as duas últimas linhas mostram, respectivamente, a

exatidão média no conjunto combinado para o grupo e a exatidão média apenas para os

eventos conhecidos do grupo.

Tabela 3.5 – RMAXZA: Revmax para cada situação operacional.

Evento Codificação Revmax

BLACKOUT 1 0.0488

BLACKSEM 2 0.0258

LOCA 3 0.8851

MEFWISO 4 0.0683

MFWBRSEM 5 0.0300

MFWISO 6 0.0322

MSTMISEM 7 0.0430

MSTMISO 8 0.0447

NORMAL 9 0.1506

SGTR 10 0.1090

STMLIBR 11 0.0665

TRIPREA 12 0.0439

TRIP 13 0.2029

Tabela 3.6 – RMAXZA: Performance nos três conjuntos.

Conjunto desconhecido Conjunto conhecido Conjunto combinado

Exatidão 60,39% 99,18% 96,19%

Figura 3.4 – RMAXZA: Matriz de confusão no conjunto combinado.

Figura 3.5 – RMAXZA: Resposta do sistema segundo a segundo.

Tabela 3.7 – RMAXZA: Exatidão do sistema (%).

blackout

blacksem

mefwiso

mfwbrsem

mfwiso

mstmisem

mstmiso

normal

stmlibr

triprea

triptur

blackout 38.22 99.68 99.47 99.68 100.00 99.79 98.94 99.73 99.89 99.95 99.26 99.68 100.00

blacksem 99.42 88.46 99.36 99.42 99.63 99.26 98.62 98.72 99.95 99.79 98.67 99.84 99.04

loca 98.09 97.40 60.39 98.41 98.62 98.41 98.72 98.46 97.98 98.67 99.20 97.50 98.25

mefwiso 99.10 99.57 98.99 3.08 99.73 99.31 99.79 99.26 98.25 99.52 99.26 98.94 99.84

mfwbrsem 99.89 100.00 99.57 99.31 79.90 99.63 99.89 99.42 99.52 99.89 99.73 99.89 99.89

mfwiso 98.94 96.92 99.95 99.52 98.99 2.71 99.47 99.47 98.83 99.73 98.62 98.56 98.99

mstmisem 99.79 99.15 99.42 100.00 99.89 99.63 20.84 99.31 98.41 99.26 99.04 99.84 99.95

mstmiso 98.94 98.56 99.04 98.94 98.94 97.18 98.94 6.54 97.66 98.62 99.20 99.89 98.94

normal 99.15 99.10 98.72 99.52 99.36 98.99 98.72 99.20 4.31% 98.78 99.47 98.67 99.79

sgtr 98.94 97.34 98.41 98.67 99.52 98.78 99.10 99.73 99.04 74.38 98.03 99.42 99.73

stmlibr 95.80 97.13 99.20 97.77 96.86 98.51 97.24 96.70 97.34 97.34 91.49 96.81 98.25

triprea 99.57 98.83 98.30 99.84 99.84 99.73 99.42 99.63 99.52 99.20 99.79 7.39 99.73

triptur 99.47 100.00 99.68 99.73 99.95 99.20 99.84 98.99 98.30 99.73 99.95 100.00 51.04

Média 94.25 97.86 96.19 91.84 97.79 91.62 93.04 91.94 91.46 97.30 98.59 92.03 95.65

Média dos

Conhecidos 98.92 98.64 99.18 99.23 99.28 99.03 99.06 99.05 98.72 99.21 99.18 99.09 99.37

3.3.2.2 – RMEDZA

O raio médio da zona de alcance é o primeiro método proposto para substituir o

CIVR original. A Tabela 3.8 mostra o , calculado através da Equação 3.2, para

cada cenário operacional que compõe o escopo de treinamento.

Como esperado, os valores de raio obtidos aqui são menores que os produzidos

pelo método do raio máximo. Esses raios menores impactam a performance do sistema,

como mostrado na Tabela 3.9, para o LOCA como “não sei”. Por exemplo, no conjunto

desconhecido, o sistema apresentou exatidão de 94,26%, muito maior que os 60%

conseguidos com o RMAXZA. O percentual de classificações erradas foi de apenas 6%,

como mostram as Figuras 3.6 e 3.7, tendo novamente o sistema classificado

erradamente como STMLIBR. Entretanto, no conjunto conhecido, o sistema apresentou

exatidão de 92,56%, menor que os 99,18% conseguidos anteriormente.

Os resultados mostram que, ao diminuir o raio dos eventos utilizando a

metodologia de raio médio, o potencial do sistema em detectar eventos desconhecidos

aumenta, mas, em contraste, isso restringe a habilidade do sistema em classificar

eventos conhecidos. O mesmo padrão foi repetido ao analisar os demais cenários

desconhecidos, como mostra a Tabela 3.10: todos os cenários apresentaram aumento na

capacidade de detecção de eventos desconhecidos e piora na capacidade de detecção dos

conhecidos, como esperado.

Tabela 3.8 – RMEDZA: Revavg para cada situação operacional.

Evento Codificação Revmed

BLACKOUT 1 0.0126

BLACKSEM 2 0.0051

LOCA 3 0.0010

MEFWISO 4 0.0114

MFWBRSEM 5 0.0140

MFWISO 6 0.0115

MSTMISEM 7 0.0215

MSTMISO 8 0.0086

NORMAL 9 0.0294

SGTR 10 0.0094

STMLIBR 11 0.0120

TRIPREA 12 0.0142

TRIP 13 0.0429

Tabela 3.9 – RMEDZA: Performance nos três conjuntos.

Exatidão 94,26% 92,56% 92,69%

Figura 3.6 – RMEDZA: Matriz de confusão no conjunto combinado.

Figura 3.7 – RMEDZA: Resposta do sistema segundo a segundo.

Tabela 3.10 – RMEDZA: Exatidão do sistema (%).

blackout

blacksem

mefwiso

mfwbrsem

mfwiso

mstmisem

mstmiso

normal

stmlibr

triprea

triptur

blackout 65.23 94.63 94.58 97.24 97.13 91.44 100.00 100.00 96.86 96.86 98.62 100.00 99.68

blacksem 94.47 89.79 96.97 99.47 85.38 100.00 100.00 90.43 91.76 96.12 96.23 98.25 99.52

loca 98.46 89.53 94.26 82.99 88.73 88.73 97.61 88.78 90.91 96.38 89.15 97.02 94.68

mefwiso 82.40 97.08 99.15 3.08 95.75 87.24 89.15 97.66 91.12 97.34 98.25 94.68 100.00

mfwbrsem 100.00 100.00 78.31 96.38 91.49 99.95 97.08 88.30 91.92 91.55 90.06 97.29 97.50

mfwiso 99.04 97.87 81.39 99.68 99.15 22.86 99.84 91.65 99.26 97.18 93.62 87.67 99.63

mstmisem 99.15 85.17 97.24 100.00 85.59 88.78 28.92 97.13 98.72 94.10 94.84 88.14 95.91

mstmiso 97.29 98.88 99.10 97.24 99.36 92.56 92.29 6.54 85.86 98.51 88.68 100.00 98.88

normal 97.34 94.15 90.54 93.41 98.09 91.87 97.82 98.09 7.71% 99.20 93.78 91.39 92.88

sgtr 97.24 95.11 98.41 96.97 95.96 96.60 96.12 91.44 85.5% 85.11 96.38 97.34 96.97

stmlibr 90.48 95.53 87.03 86.55 92.03 92.72 91.97 96.33 97.08 85.38 97.87 94.05 95.91

triprea 99.42 89.47 89.37 89.42 94.63 94.21 86.98 99.84 90.91 99.84 95.43 4.31 93.94

triptur 86.23 100.00 98.67 100.00 85.59 92.77 92.24 86.39 89.79 98.94 100.00 100.00 91.02

Média 92.83 94.40 92.69 87.88 92.99 87.67 90.00 87.12 85.96 95.12 94.84 88.47 96.65

Média dos

Conhecidos 95.13 94.79 92.56 94.95 93.12 93.07 95.09 93.84 92.48 95.95 94.59 95.49 97.12

3.3.2.3 – PSO-RZA

A terceira abordagem envolvendo o CIVR envolveu a busca meta-heurística

pelo conjunto de raios de alcance através do PSO, cujo objetivo é minimizar os erros de

classificação do sistema. Após os testes, chegou-se à Tabela 3.11, que lista os raios

obtidos, e à Tabela 3.12, mostrando a performance resultante no caso LOCA como “não

sei” (com a matriz de confusão e resposta segundo a segundo correspondentes nas

Figuras 3.8 e 3.9, respectivamente). Por último, a exatidão do sistema para múltiplos

casos desconhecidos nessa abordagem é mostrada na Tabela 3.13. Nota-se uma

performance, de forma geral, pior que as duas abordagens apresentadas anteriormente

no conjunto desconhecido.

Tabela 3.11 – PSO-RZA: raio para cada situação operacional.

Evento Codificação Rpso

BLACKOUT 1 0.0565

BLACKSEM 2 0.0997

LOCA 3 0.1218

MEFWISO 4 0.0773

MFWBRSEM 5 0.0626

MFWISO 6 0.0853

MSTMISEM 7 0.0370

MSTMISO 8 0.0609

NORMAL 9 0.0520

SGTR 10 0.1080

STMLIBR 11 0.1358

TRIPREA 12 0.1011

TRIP 13 0.0845

Tabela 3.12 – PSO-RZA: Performance nos três conjuntos.

Exatidão 54,92% 98,64% 95,28%

Figura 3.8 – PSO-RZA: Matriz de confusão no conjunto combinado.

Figura 3.9 – PSO-RZA: Resposta do sistema segundo a segundo.

Tabela 3.13 – PSO-RZA: Exatidão do sistema (%).

blackout

blacksem

mefwiso

mfwbrsem

mfwiso

mstmisem

mstmiso

normal

stmlibr

triprea

triptur

blackout 80.65 100.00 100.00 96.86 99.95 99.79 1.44 100.00 100.00 100.00 99.79 90.38 95.37

blacksem 100.00 79.69 100.00 100.00 99.84 97.61 100.00 100.00 99.95 100.00 99.89 100.00 100.00

loca 92.08 97.40 54.92 93.99 97.29 90.06 98.25 98.03 95.91 98.09 99.73 94.36 97.61

mefwiso 98.72 99.95 99.68 2.66 99.73 100.00 78.42 99.31 94.58 97.71 96.65 96.54 23.18

mfwbrsem 14.41 100.00 100.00 94.79 86.71 99.95 100.00 99.79 24.83 100.00 99.89 98.72 100.00

mfwiso 91.55 98.56 100.00 100.00 100.00 0.16 29.56 99.73 32.48 99.79 98.88 98.56 99.79

mstmisem 96.76 99.79 94.26 2.13 96.86 99.63 16.37 96.97 7.97 98.72 97.98 100.00 98.83

mstmiso 94.52 99.47 95.80 92.08 95.96 99.20 95.85 6.01 97.66 97.87 99.47 100.00 91.71

normal 69.22 99.63 97.18 92.29 89.47 94.74 69.27 1.01 9.84 77.09 97.29 94.10 90.43

sgtr 98.46 98.88 99.31 97.40 98.67 99.04 98.19 98.67 96.12 82.62 94.90 95.69 89.63

stmlibr 97.02 97.50 99.31 97.61 96.54 98.35 97.08 96.92 85.17 97.66 90.64 95.59 95.69

triprea 97.45 99.89 99.52 92.08 92.13 99.36 99.68 100.00 99.79 5.10 99.15 0.21 99.63

triptur 95.27 100.00 98.67 75.01 99.79 99.73 100.00 99.95 89.79 100.00 100.00 99.26 78.10

Média 86.62 97.75 95.28 79.76 96.38 90.59 75.70 84.34 71.85 88.82 98.02 89.49 89.23

Média dos

Conhecidos 87.12 99.26 98.64 86.19 97.19 98.12 80.64 90.86 77.02 89.34 98.64 96.93 90.16

3.3.2.4 – Rede auto-associativa rasa (RAAR)

Quanto às abordagens que buscam solucionar o problema de fornecer a resposta

“não sei” baseando-se no CVV, a combinação da rede auto-associativa original com o

classificador DRNN foi testada inicialmente. Dessa forma, os para as 16

variáveis em cada situação operacional que compõe o escopo de treinamento foram

determinadas e estão mostradas na Tabela 3.14.

A Tabela 3.15, por sua vez, mostra a exatidão do sistema no caso LOCA como

“não sei”, onde é possível detectar que o método obteve uma performance pior do que a

do raio médio, conseguindo 86% de classificações corretas, enquanto os demais foram

classificados erradamente como SGTR (7%) e STMLIBR (7%), como ilustrado na

Figura 3.10 e reforçado pela resposta do sistema segundo a segundo (Figura 3.11). Na

Tabela 3.16 está listada a performance do sistema utilizando a RAAR para os múltiplos

cenários desconhecidos.

Tabela 3.14 – RAAR: para cada evento operacional.

blackout blacksem loca mefwiso mfwbrsem mfwiso mstmisem mstmiso normal sgtr stmlibr triprea triptur

1 0.091 0.101 0.032 0.031 0.032 0.031 0.031 0.041 0.028 0.032 0.030 0.040 0.027

2 0.037 0.068 0.037 0.067 0.015 0.062 0.022 0.049 0.012 0.012 0.009 0.040 0.028

3 0.019 0.031 0.104 0.031 0.074 0.020 0.086 0.029 0.038 0.032 0.052 0.076 0.033

4 0.018 0.044 0.035 0.015 0.100 0.013 0.019 0.016 0.010 0.069 0.016 0.012 0.014

5 0.084 0.072 0.056 0.055 0.061 0.060 0.059 0.067 0.045 0.041 0.055 0.088 0.057

6 0.034 0.028 0.081 0.044 0.085 0.039 0.054 0.044 0.059 0.061 0.049 0.059 0.058

7 0.034 0.062 0.290 0.041 0.116 0.035 0.063 0.046 0.048 0.070 0.109 0.054 0.039

8 0.016 0.032 0.106 0.087 0.044 0.029 0.048 0.054 0.034 0.033 0.037 0.067 0.073

9 0.012 0.084 0.020 0.036 0.068 0.036 0.011 0.028 0.009 0.008 0.009 0.020 0.098

10 0.090 0.112 0.029 0.035 0.034 0.030 0.031 0.034 0.035 0.030 0.035 0.032 0.027

11 0.035 0.101 0.237 0.055 0.018 0.095 0.014 0.061 0.019 0.058 0.051 0.097 0.032

12 0.024 0.104 0.053 0.021 0.024 0.019 0.023 0.021 0.020 0.016 0.016 0.024 0.019

13 0.023 0.104 0.056 0.022 0.017 0.019 0.018 0.022 0.020 0.016 0.013 0.026 0.020

14 0.041 0.072 0.157 0.038 0.034 0.055 0.025 0.079 0.025 0.027 0.021 0.050 0.023

15 0.024 0.076 0.260 0.042 0.030 0.039 0.091 0.044 0.010 0.053 0.011 0.051 0.027

16 0.059 0.101 0.056 0.068 0.040 0.046 0.043 0.068 0.036 0.030 0.043 0.062 0.041

Tabela 3.15 – RAAR: Performance nos três conjuntos.

Exatidão 86,55% 95,57% 94,87%

Figura 3.10 – RAAR: Matriz de confusão no conjunto combinado.

Figura 3.11 – RAAR: Resposta do sistema segundo a segundo.

Tabela 3.16 – RAAR: Exatidão do sistema (%).

blackout

blacksem

mefwiso

mfwbrsem

mfwiso

mstmisem

mstmiso

normal

stmlibr

triprea

triptur

blackout 100.00 96.33 95.37 97.34 96.12 97.40 97.02 97.24 97.34 96.92 97.55 97.13 97.24

blacksem 93.20 100.00 96.07 92.82 96.07 92.93 92.08 92.13 92.13 92.13 92.77 92.24 92.56

loca 93.62 92.08 86.55 93.41 95.22 93.30 93.14 93.30 92.34 93.04 94.58 93.14 92.34

mefwiso 95.11 94.52 95.00 23.13 96.12 95.11 95.27 93.78 95.16 95.22 95.16 95.06 95.43

mfwbrsem 96.81 96.70 96.17 96.65 97.02 96.65 96.70 96.86 96.70 96.97 96.65 96.97 96.86

mfwiso 96.65 96.12 95.85 95.43 97.02 7.92 95.85 96.44 96.38 95.85 96.60 94.95 96.12

mstmisem 97.71 97.82 95.96 97.40 94.58 97.40 53.64 97.50 97.34 96.28 97.08 97.34 97.45

mstmiso 95.96 96.33 96.60 96.01 95.64 96.28 96.33 32.59 95.22 95.91 96.28 96.49 96.12

normal 91.23 93.51 96.38 92.24 93.46 91.76 92.34 91.55 81.29 91.71 92.61 92.08 91.97

sgtr 94.90 95.69 95.85 95.16 95.85 95.11 94.95 95.22 95.75 69.01 94.42 94.68 95.16

stmlibr 93.62 94.10 93.73 94.05 92.08 94.31 93.99 93.99 93.62 94.63 65.02 93.51 93.94

triprea 96.07 95.96 94.95 95.69 95.22 95.80 95.59 95.59 95.75 95.85 95.59 1.06 95.53

triptur 94.79 95.06 94.84 94.47 94.79 94.31 94.79 94.36 93.78 93.46 93.99 93.99 16.96

Média 95.36 95.71 94.87 89.52 95.32 88.33 91.67 90.04 94.06 92.84 92.95 87.59 89.05

Média dos

Conhecidos 94.97 95.35 95.57 95.06 95.18 95.03 94.84 94.83 95.13 94.83 95.27 94.80 95.06

3.3.2.5 – RAPUC

Essa abordagem substitui a RAAR por múltiplas redes auto-associativas de

única classe (RAPUCs), uma para cada situação operacional. Cada RAPUC é treinado

estritamente com dados do seu evento correspondente, e o erro máximo de reconstrução

de cada variável de estado para cada cenário operacional é determinado. Após a

conclusão desse processo o sistema realizará as seguintes etapas durante a operação:

1) A DRNN recebe as variáveis de entrada e as classifica como um evento candidato;

2) A RAPUC correspondente, previamente treinada com exemplos da situação

operacional em questão, receberá as entradas e as processará;

3) O valor absoluto da diferença entre as variáveis de entrada e as saídas geradas pela

RAPUC (erro de reconstrução) será determinado. De forma similar ao CVV

original, uma entrada de variáveis será considerada válida se seus erros de

reconstrução não forem maiores que para aquela respectiva variável.

4) Se todas as variáveis de entrada forem válidas, o sistema retornará o evento

identificado pela DRNN como saída. Caso contrário, o sistema retornará “não sei”.

O sistema descrito está ilustrado na Figura 3.12. Os RAPUCs utilizados são

progressivos e compostos por 7 camadas contendo 16, 20, 10, 5, 10, 20 e 16 neurônios

(já incluindo as camadas de entrada e saída correspondentes às 16 variáveis físicas

consideradas). O segmento de codificação da rede é composto pelas camadas {20, 10,

5} enquanto que o trecho responsável pela decodificação é composto pelas camadas

{10, 20, 16}. Além disso, os neurônios das camadas internas são ativados pela função

SELU (KLAMBAUER et al. 2017), outro tipo de função retificada14

. Como de

costume, a Tabela 3.17 lista os erros máximos de reconstrução obtidos para o caso

LOCA como “não sei”, enquanto que a Tabela 3.18 e as Figuras 3.13 e 3.14

apresentam, respectivamente, a performance, a matriz de confusão normalizada e a

resposta do sistema segundo a segundo para essa situação, onde (a) mostra a resposta

quando o sistema recebe um LOCA e (b) quando ele recebe um blackout, para ilustrar

melhor este caso. Na Tabela 3.19, por fim, a performance do sistema nos múltiplos

cenários desconhecidos é mostrada.

Quando equipada com a abordagem RAPUC, o sistema resultante DRNN-

RAPUC foi capaz de fornecer corretamente a resposta “não sei” para eventos fora do

escopo de treinamento 99,88% das vezes, ao mesmo tempo em que guardou uma

capacidade de classificar corretamente os eventos conhecidos 94,56% das vezes, com

um resultado no conjunto combinado de 94,97%.

Figura 3.12 – A abordagem RAPUC.

Para mais informações acerca do impacto de número de camadas e funções de ativação em redes auto-

associativas, ver Kuchaiev et al. (2017)

Tabela 3.17 – RAPUC: para cada evento operacional.

blackout blacksem loca mefwiso mfwbrsem mfwiso mstmisem mstmiso normal sgtr stmlibr triprea triptur

1 0.0546 0.0349 0.0314 0.0286 0.0367 0.0336 0.0385 0.0351 0.0352 0.0365 0.0296 0.0412 0.0359

2 0.0366 0.0464 0.0319 0.0363 0.0369 0.0624 0.0424 0.1184 0.0363 0.0412 0.0441 0.0980 0.0359

3 0.0499 0.0502 0.1089 0.1031 0.1042 0.0854 0.0822 0.0492 0.0363 0.0402 0.0963 0.0943 0.0838

4 0.0114 0.0191 0.0066 0.0261 0.0273 0.0155 0.0229 0.0110 0.0076 0.0124 0.0063 0.0069 0.0231

5 0.0594 0.0568 0.0554 0.0455 0.0809 0.0789 0.0899 0.0794 0.0470 0.0488 0.0622 0.1073 0.0561

6 0.0485 0.0704 0.0684 0.0645 0.1383 0.1466 0.0487 0.0425 0.0473 0.0632 0.0656 0.0923 0.1015

7 0.0442 0.0547 0.3568 0.1001 0.3912 0.2740 0.0753 0.0597 0.0437 0.0863 0.3620 0.2976 0.1009

8 0.0142 0.0078 0.0048 0.0312 0.1209 0.0086 0.0756 0.0797 0.0154 0.0174 0.0248 0.0879 0.0813

9 0.0784 0.0856 0.0054 0.0493 0.1592 0.0762 0.0232 0.0157 0.0094 0.0062 0.0049 0.0956 0.1638

10 0.0465 0.0328 0.0289 0.0319 0.0322 0.0394 0.0322 0.0342 0.0371 0.0284 0.0354 0.0439 0.0311

11 0.0448 0.0750 0.0572 0.0740 0.2221 0.3185 0.0611 0.0493 0.0364 0.0564 0.0902 0.2054 0.2785

12 0.0251 0.1229 0.0282 0.0227 0.0271 0.0257 0.0283 0.0247 0.0252 0.0222 0.0272 0.0281 0.0287

13 0.0233 0.1280 0.0231 0.0208 0.0300 0.0273 0.0329 0.0267 0.0241 0.0279 0.0241 0.0283 0.0244

14 0.0501 0.0623 0.0596 0.0706 0.0510 0.1057 0.0422 0.1356 0.0501 0.0410 0.0593 0.0674 0.0600

15 0.0686 0.0576 0.0334 0.0851 0.0658 0.0803 0.0701 0.0828 0.0570 0.0699 0.0750 0.1020 0.0594

16 0.0489 0.0585 0.0597 0.0681 0.0631 0.0570 0.0463 0.0612 0.0335 0.0314 0.0650 0.0620 0.0580

Tabela 3.18 – RAPUC: Performance nos três conjuntos.

Exatidão 100% 94,58% 94,99%

Figura 3.13 – RAPUC: Matriz de confusão no conjunto combinado.

Figura 3.14 – RAPUC: Resposta do sistema segundo a segundo para (a) LOCA como

don‟t know e (b) blackout como evento conhecido.

Tabela 3.19 – RAPUC: exatidão do sistema (%).

blackout

blacksem

mefwiso

mfwbrsem

mfwiso

mstmisem

mstmiso

normal

stmlibr

triprea

triptur

blackout 100.00 96.65 95.64 96.01 95.53 96.01 96.07 96.01 96.01 96.33 95.80 95.85 96.12

blacksem 95.11 100.00 92.88 93.89 94.79 93.89 93.78 93.89 93.89 95.16 93.78 94.31 93.94

loca 93.89 91.12 100.00 93.30 93.09 93.41 93.67 93.57 93.62 93.89 94.68 93.67 93.35

mefwiso 90.64 89.69 88.30 100.00 97.02 90.38 89.42 90.38 89.58 90.22 90.11 86.60 91.12

mfwbrsem 96.07 95.53 96.23 95.91 100.00 95.91 95.96 95.91 95.37 95.59 95.91 96.23 95.91

mfwiso 94.58 95.96 94.68 94.63 97.50 98.56 95.16 94.58 94.58 93.20 94.68 96.28 94.79

mstmisem 96.01 96.28 95.32 95.85 95.85 95.85 100.00 95.85 95.75 95.64 95.80 95.64 95.48

mstmiso 95.80 95.75 95.59 95.37 95.85 95.69 95.53 100.00 95.27 95.37 95.69 95.48 94.52

normal 94.31 93.57 94.42 94.63 94.21 94.26 94.52 94.15 100.00 94.31 94.47 93.35 94.63

sgtr 94.52 95.00 94.68 93.99 94.47 93.94 93.67 93.94 94.05 100.00 92.56 95.22 92.93

stmlibr 93.46 94.42 96.23 94.31 93.20 94.58 94.05 93.41 93.30 94.58 99.89 93.73 93.99

triprea 95.85 96.28 96.38 95.85 97.08 95.96 96.23 95.96 95.91 97.02 96.01 100.00 96.12

triptur 94.42 94.31 94.58 94.63 95.00 94.63 94.95 94.63 95.00 94.4% 94.36 94.42 100.00

Média 94.97 94.97 94.99 95.26 95.66 94.85 94.85 94.79 94.79 95.06 94.90 94.68 94.84

Média dos

conhecidos 94.56 94.55 94.58 94.87 95.30 94.54 94.42 94.36 94.36 94.64 94.49 94.23 94.41

3.4 – Análise dos Resultados

A Tabela 3.20 resume o desempenho médio do sistema no conjunto completo de

dados para cada abordagem, para efeito de comparação. Note que, nesse trabalho, ao

contrário de em Mól et al. (2002), métodos inspirados pelo CIVR não incluem uma

etapa CVV seguinte, e métodos baseados em CVV não incluem uma etapa CIVR

anterior, o que, com efeito, já configura uma considerável simplificação comparando

com o estudo de 2002.

Tabela 3.20 – Exatidão média nos três conjuntos para cada abordagem.

RMAXZA 40,67% 99,07% 94,58%

RMEDZA 52,94% 94,47% 91,28%

PSO-RZA 42,96% 83,15% 80,06%

RAAR 56,48% 95,07% 92,10%

RAPUC 99,88% 94,56% 94,97%

Observando os resultados, há muitos pontos a discutir, como se segue:

Para a abordagem RMAXZA, embora o sistema tenha apresentado excelente

desempenho no conjunto conhecido (99,07%), para o conjunto desconhecido o

sistema obtém um resultado ruim de 40,67%. Investigando mais a fundo, fica claro

que essa grande quantidade de classificações erradas se deve ao fato de que um

simples outlier (em um conjunto de dados de milhares) pode gerar um raio máximo

grande o bastante para divergir as classificações em direção a um evento conhecido.

Como sugerido na Seção 3.2.5.1, a expressão de cálculo para o RMEDZA ajuda a

suavizar a influência dos outliers no conjunto de dados, o que é refletido em uma

leve melhora nos números para essa alternativa. Entretanto, ela ainda assim foi

capaz de apenas romper a barreira de classificar corretamente metade dos pontos de

teste no conjunto desconhecido. Como o ponto focal desse trabalho foi aumentar a

classificação correta para os dados “não sei”, essas duas abordagens podem ser

consideradas as piores;

O PSO-RZA representa uma nova forma de encontrar os raios de zona de alcance

para as situações operacionais, porém, sua performance se mostrou na média das

duas abordagens anteriores, baseadas em CIVR, e como tal, continuou retornando

uma considerável quantidade de classificações erradas para o primeiro (e mais

relevante) conjunto. Embora teoricamente o uso de uma técnica de busca meta-

heurística para encontrar os raios ótimos de um conjunto de eventos pareça

poderosa, o fato de que o PSO não necessariamente tem informação a respeito do

conjunto desconhecido embutida em sua função objetivo (já que, por construção, a

rede não é treinada com ele) significa que o algoritmo terá capacidade limitada de

explorar o espaço de busca em direção à região que otimiza a classificação para esse

conjunto. Além disso, esses três grupos de resultados indicam uma dificuldade das

abordagens baseadas em raios do CIVR. Usualmente, uma boa performance no

conjunto desconhecido significará uma concessão na performance no conjunto

conhecido, e vice-versa. Isso deve ser levado em consideração, especialmente

quando se busca implementar essas abordagens em uma operação crítica do ponto

de vista de segurança;

Os resultados apresentados pela RAAR são similares aos obtidos pelo RMEDZA,

alcançando exatidão próxima a ele no conjunto conhecido e levemente melhor no

conjunto desconhecido. A maior quantidade de eventos operacionais, quando

comparado ao trabalho de Mól et al. (2002), que os dividiu em dois grupos, parece

ser demais para uma rede auto-associativa rasa lidar e angariar informação

discriminatória suficiente durante o treinamento.

A clara melhora no desempenho do sistema “não sei” apresentada pela abordagem

RAPUC no conjunto desconhecido, quando comparada a qualquer uma das

propostas anteriores, é bastante significativa, mas o que é particularmente notável é

o fato de esta ter performado bem nos três conjuntos, acumulando exatidões de

99,88%, 94,56% e 94,97% nos conjuntos desconhecido, conhecido e combinado,

respectivamente. Como já foi sugerido anteriormente, um grupo de autoencoders de

classe única especializados em discriminar apenas se um fluxo de dados pertence ou

não a uma classe em particular deve ser mais adequado na tarefa de fornecer

respostas “não sei” (o que corrobora resultados recentes reportados na literatura de

classificação, como Gutoski et al., 2017; Ruff et al., 2018). Tais resultados

notabilizam o sistema DRNN-RAPUC como uma evolução geral do sistema

proposto por Mól et al. (2002): sem a necessidade de separar os eventos mais

similares em diferentes grupos – ou mesmo de uma etapa CIVR anterior15

abordagem foi capaz de identificar e corretamente classificar como “não sei” os

eventos de maneira mais acurada, rápida e confiável um conjunto de dados maior e

mais complexo que o trabalho supracitado.

3.5 – Conclusões para o PIAN

Este capítulo apresentou um estudo de caso envolvendo sistemas baseados em

redes neurais profundas ao problema de identificação de acidentes em usinas nucleares.

Diversas técnicas, largamente influenciadas pelo trabalho de Mól et al. (2002), foram

combinadas e desenvolvidas, bem como formas alternativas de calcular, ou buscar

meta-heuristicamente, os raios de influência para cada evento operacional, tendo sido as

modelagens e resultados experimentais aqui apresentados.

Destas, o uso de uma rede neural profunda retificada combinada a uma

arquitetura auto-associativa profunda, sistema DRNN-RAPUC mostrou-se a abordagem

de maior êxito, rendendo uma exatidão média de 99,88% em termos de classificações

“não sei” corretas, ao mesmo tempo em que classificou corretamente 94,56% dos

De fato, a combinação do RAPUC com as técnicas CIVR também foi testada, mas não resultou em

melhora significativa.

eventos, quando alimentada com dados contendo a evolução temporal de 16 variáveis

físicas correspondendo a 13 situações operacionais simuladas para a UN Angra 2.

Esses resultados para o conjunto desconhecido colocam o sistema proposto,

através de sua performance, robustez e confiabilidade, como uma complementação

adequada e muito necessária ao classificador, núcleo do sistema, sendo uma evolução

em relação a trabalhos anteriores (como o próprio Mól et al., 2002 e Peng et al. 2018),

seja em termos de abrangência, exatidão e complexidade do sistema testado.

Combinados, esses resultados evidenciam um sistema robusto que pode ser considerado

para aplicação como ferramenta de suporte ao operador da usina, dada a baixíssima

margem para falhas que tais sistemas podem ter nessa aplicação. Adicionalmente, a

despeito dos resultados excepcionais do DRNN-RAPUC, cada uma das abordagens

alcançou algum grau de sucesso e são, a priori, factíveis de serem aplicadas à outras

operações industriais, dependendo das particularidades dos seus conjuntos de dados.

Estudos posteriores aplicando o sistema à simulações com operadores, visando

explorar o impacto cognitivo e a viabilidade prática do sistema, desenvolver mais o

sistema habilitando-o a fornecer previsão (do inglês, forecasting) de possíveis eventos

futuros utilizando redes neurais recorrentes, além da geração de dados espúrios (do

inglês, novelty generation) através de, possivelmente, redes generativas adversariais (do

inglês, generative adversarial networks – GAN), propostas por Goodfellow et al.

(2014) para melhorar a performance de algoritmos de busca meta-heurística pelos raios

de alcance, além de elaboração e análise de diagramas de Pareto para avaliação de

dominância no espaço dos objetivos entre as abordagens propostas para a resposta “não

sei” podem fornecer contribuições valiosas ao sistema proposto e ficam como algumas

sugestões para trabalhos futuros.

CAPÍTULO 4

O PROBLEMA DE INFERÊNCIA DE TEMPERATURAS (PIT)

4.1 – Introdução ao Problema

Garantir que os sistemas de segurança e equipamentos são capazes de realizar

suas atividades-fim, tanto na operação normal quanto durante eventos adversos, como

terremotos ou acidentes postulados, é fundamental à operação segura de usinas

nucleares comerciais e à segurança e saúde públicas. O ato de certificar que tais

sistemas e equipamentos podem desempenhar suas funções como requerido e manter

sua condição funcional ao longo de todo o período de operação quando expostos às

condições operacionais dos eventos de base de projeto16

(do inglês, Design Basis Events

– DBE) é chamado de qualificação de equipamentos ou qualificação ambiental de

equipamentos (QA), e é responsabilidade do licenciado a operar a planta. A QA engloba

tanto equipamentos mecânicos quanto elétricos, mas, como os equipamentos elétricos

são mais sensíveis a condições adversas, mais ênfase tem sido dada à importância da

qualificação ambiental para equipamentos elétricos (EPRI, 2010).

O programa de qualificação ambiental de equipamentos busca, portanto, garantir

que os componentes da usina tenham condições de operar em situações normais e de

acidente (DBE), mitigando suas consequências e impedindo a liberação de material

radioativo para o meio ambiente.

Todo equipamento possui uma limitação de tempo de operação, que leva em

consideração o envelhecimento e degradação devidos à exposição à temperatura,

radiação e outros fatores nas condições normais e transientes operacionais. Quando seu

tempo é atingido, este deve ser substituído ou devem ser estudados meios que

possibilitem sua extensão de uso.

Em particular, e especialmente após o acidente nuclear de Three Mile Island em

1979, no qual alguns equipamentos instalados dentro do prédio de contenção do reator

falharam devido às condições adversas severas após o acidente, a Comissão Reguladora

Nuclear (do inglês, Nuclear Regulatory Comission – NRC) emitiu uma série de normas

e regulamentações no que concerne à qualificação de equipamentos de usinas nucleares,

Isto é: a operação normal além dos acidentes e transientes que fazem parte dos acidentes de base de

projeto (no caso de uma usina nuclear).

principalmente os localizados dentro do prédio de contenção. Dentre os diversos pontos

preconizados por essas normas17

, são de particular importância para este trabalho:

Na Generic Letter 82-09 (NRC, 1982), afirma-se que a vida qualificada18

diversas classes de equipamentos não precisariam ser avaliadas desde que a

degradação e envelhecimento dos mesmos ao longo da vida em operação fosse

mitigada através de programas de manutenção preventiva, sendo a troca ou

recondicionamento realizados conforme a susceptibilidade conhecida à degradação

ou conforme os resultados das inspeções.

Entretanto, conforme avançou-se no entendimento das limitações e incertezas

envolvidas no processo de envelhecimento acelerado de equipamentos expostos à

condições adversas, determinou-se, através do regulamento “10 CFR 50.49” (CFR,

1983) e do guia regulatório “Regulatory Guide 1.89” (NRC, 1984) que os

equipamentos devem ser substituídos ao fim de sua vida qualificada a não ser que

metodologias de qualificação contínua (do inglês, ongoing qualification) constatem

que o item possui vida operacional adicional. De fato, o guia regulatório afirma que:

“Testes e inspeções periódicas são aceitáveis para estimar as incertezas acerca da

degradação devida ao envelhecimento que poderia afetar a capacidade funcional do

equipamento. O resultado de tais programas serão aceitáveis como qualificação

contínua para modificar a vida qualificada de equipamentos e deve ser incorporado

aos cronogramas de manutenção e recondicionamento.” (NRC, 1984).

Dentre os agentes estressores aos quais os equipamentos das usinas nucleares estão

expostos, a temperatura (juntamente com a radiação ionizante e pressão) é um dos

que possui maior influência no processo de degradação e envelhecimento

acelerados. Variações de temperatura consideravelmente além da temperatura

ambiente afetam as propriedades físicas, mecânicas, elétricas e químicas dos

materiais, mas mesmo quando a variação é pequena, o efeito pode ser significativo

ao longo dos anos de operação, degradando os equipamentos indiretamente através

de um processo conhecido como envelhecimento térmico, além de afetar a vedação

de juntas, gaxetas, o-rings e outros componentes de precisão mecânicos e elétricos

Ver IEEE (1993) para uma compilação das normas referentes à qualificação ambiental. 18

Definida como o período de tempo a partir do início da operação sob eventos de base de projeto durante

o qual foi demonstrado que o equipamento satisfaz os critérios de projeto nas condições de serviço

especificadas (IEEE, 1971).

por conta da dilatação térmica. Por conta disso, é particularmente importante

considerar a temperatura à qual os equipamentos estiveram expostos e seus efeitos

para qualquer estimativa de qualificação contínua (EPRI, 2010).

O modelo térmico de envelhecimento de Arrhenius (DAVID & MONTANARI,

1992) é tipicamente aplicado para estimar os efeitos da temperatura na degradação dos

equipamentos em geral e em usinas nucleares, e pode ser expresso em modo

conveniente para a avaliação da vida qualificada por:

: energia de ativação ( , sendo );

: constante de Boltzmann ( );

: tempo de envelhecimento acelerado ( );

: tempo de serviço simulado ( );

: temperatura de envelhecimento (K);

: temperatura de serviço (K).

O parâmetro refere-se ao tempo à temperatura de serviço (temperatura

ambiente somada ao aquecimento interno inerente ao funcionamento do equipamento)

requerida para atingir um certo nível de degradação, assumindo que a taxa de

degradação seja controlada por uma reação química caracterizada por uma energia de

ativação . Se esse nível de degradação for assumido como aquele além do qual a

funcionalidade do equipamento não é garantida (isto é, o critério de fim de vida útil),

então torna-se a vida qualificada térmica à . A forma da equação de Arrhenius

relaciona o tempo de serviço a uma duração menor na eventualidade de o

equipamento ficar exposto à temperatura maior, levando ao envelhecimento térmico

acelerado. De fato, pode-se perceber na Figura 4.1, que mostra a retenção de

alongamento19

(do inglês, Retention of Elongation – RE) para diferentes temperaturas,

que dependendo do material que constitui o equipamento e da faixa de temperaturas,

Medida de degradação em materiais que tendem a contrair-se com o aquecimento, como borrachas e

resinas (MATHEW et al., 2013).

uma variação de pouco mais de 10 graus na temperatura à qual o equipamento está

exposto pode ser traduzida em milhares de horas de vida qualificada, efeito que se

acentua consideravelmente conforme se aproxima das temperaturas próximas à

temperatura ambiente, como se nota no gráfico.

Figura 4.1 – RE para quatro temperaturas de envelhecimento (EPRI, 2010).

A usina nuclear Angra 1 teve sua primeira criticidade em 1982 e iniciou sua

operação comercial em 1985. Por ter obtido a licença para construção e ter sido

construída antes do desenvolvimento da “Generic Letter 82-09”, citada anteriormente, e

outras normatizações tornadas regra em 1983, a usina não teve um plano de qualificação

ambiental no início de sua operação (o qual atualmente encontra-se em sua fase final).

No ano de 2024 Angra 1 chega ao final do seu período previsto de operação – 40

anos. Dada sua importância na matriz energética brasileira, está sendo proposto, em

lugar do descomissionamento (PINHO, 2018), um programa de extensão de vida útil

por 20 anos adicionais (ELLER, 2018). Um dos documentos importantes para avaliação

da extensão de vida útil é o Programa de Qualificação Ambiental de Equipamentos

Elétricos20

(PQAEE) importantes para a segurança nas condições de serviços

postuladas, pois a partir dele é possível identificar quais dos

Eletronuclear, 2018.

equipamentos/sistemas/componentes importantes para a segurança da planta estão em

plenas condições de funcionamento e podem continuar na usina.

Em particular, os sistemas, componentes e estruturas presentes no interior do

prédio de contenção do reator são qualificados para condições severas de operação (ver

Muzitano et al., 2017, para mais detalhes envolvendo o procedimento de qualificação).

Diante de um cenário de extensão de vida útil, onde se tem como objetivo operar a usina

além do seu tempo de base de projeto, é necessário o estudo de viabilidade de

qualificação contínua para garantir que os componentes podem continuar operando e/ou

determinar quais devem ser substituídos para que se possa receber o licenciamento para

operação de longo prazo (CARDOZO, 2019).

Para realizar o mapeamento das condições ambientais em que operam os

equipamentos que fazem parte do PQAEE em condições normais de operação, foi feito,

pela operadora da usina, um planejamento para instalação de conjuntos de monitoração

dos parâmetros de dose de radiação21

e temperatura – chamados de SMOs – em diversos

pontos internos do prédio da contenção onde estão localizados os equipamentos de

segurança que fazem parte da listagem do programa. Essa monitoração será feita por

todos os ciclos de operação até próximo ao final da vida útil da planta, de forma que se

tenha um mapeamento das temperaturas e doses de radiação nas áreas onde os

componentes do PQAEE estão instalados e seja possível verificar as condições às quais

eles estiveram expostos. De posse desses dados, será possível aplicar as metodologias

de qualificação contínua22

e determinar a vida qualificada dos equipamentos já em

operação, permitindo auferir quais equipamentos deverão ser substituídos ou

recondicionados e quais podem continuar operando, tornando assim a operação durante

a extensão de vida útil mais eficiente, econômica e segura.

Entretanto, tal ação de instalação dos medidores começou a ser realizada a partir

de 2015, não havendo medições da exposição à temperatura diretamente nos

equipamentos específicos do PQAEE, dentro do prédio de contenção da usina, nos anos

anteriores a isso, dificultando que o estudo de envelhecimento e degradação devido a

É importante esclarecer que, embora os SMOs meçam parâmetros de dose de radiação e temperatura,

este trabalho está voltado para a determinação e considerações acerca dos efeitos da temperatura como

agente estressor, apenas. 22

Para isso, a Eletronuclear dispõe do software EQMS (EPRI, 2003), que utiliza a teoria de Arrhenius,

descrita anteriormente.

este agente estressor seja feito para períodos de operação anteriores, ou seja, desde o

início de operação da usina.

Por outro lado, a UN Angra 1 dispõe do Sistema Integrado De Computadores de

Angra 1 (SICA), cujo projeto inicial encontra-se descrito em Martinez23

et al. (1986), o

qual, dentre outras funções, monitora continuamente diversas variáveis físicas de

operação da usina – inclusive em pontos no interior do prédio de contenção – que ficam,

posteriormente, armazenadas em bancos de dados na planta.

Baseado no exposto, o objetivo deste estudo de caso é aplicar o aprendizado

profundo de redes neurais artificiais para inferir, a partir de modelos treinados com os

dados reais provenientes dos SMOs e do SICA, os valores de temperatura em diferentes

pontos do interior do prédio de contenção no período compreendido entre o início de

operação da usina e a instalação dos SMOs. Cabe ressaltar que esta aplicação é pioneira,

até onde foram as pesquisas deste autor.

4.2 – Inferência de Temperaturas

Conforme sugerido na Seção 4.1, o PIT consiste em simular medidores (SMOs)

virtuais no passado que permitam estimar os valores de temperatura aos quais os

equipamentos do PQAEE estiveram expostos durante o histórico de operação da usina

(mais especificamente, entre 1982 e a instalação dos SMOs físicos, em 2015). Para tal,

os dados de temperatura obtidos através dos SMOs físicos recentemente instalados em

diferentes pontos do interior do prédio de contenção servirão como base para uma

modelagem de regressão não-linear que os correlacionará às medições de temperatura

disponíveis no banco de dados do histórico do SICA.

Em particular, duas arquiteturas de RNPs foram testadas para atuarem como o

regressor nessa modelagem: a DRNN (Seção 2.3), devido ao sucesso da sua aplicação

ao PIAN (Capítulo 3) e a LSTM (Seção 2.5.2), já que, conforme descrito no Capítulo 2,

trata-se de uma variante de rede neural recorrente adequada, a priori, para modelar

sequências como séries temporais.

A pesquisa envolvendo a inferência de temperaturas dos SMOs consistiu de três

grandes etapas sequenciais (pipeline):

À época, Angra-1 Parameters Display System (SSPA).

Pré-tratamento dos dados, tanto do SICA quanto do SMOs, buscando remover dados

espúrios, preencher ou remover trechos de dados faltantes e formatá-los;

Mineração nos dados (do inglês, data mining), através de análises de correlação e

feature importance (Seção 2.6), buscando encontrar as variáveis monitoradas pelo

SICA (dentre cerca de 150 em total) que melhor se relacionam com cada um dos

SMOs posicionados no interior do prédio de contenção;

Testes experimentais com as arquiteturas de redes neurais profundas, cujas entradas

serão uma ou mais variáveis do SICA, buscando o modelo que, treinado em

períodos onde há dados de temperatura medidos pelos SMOs (2015-2018), forneça

melhor desempenho e capacidade de generalização no mapeamento de temperaturas

que seriam medidas por SMOs nas mesmas posições, caso os mesmos estivessem

presentes nos anos anteriores às suas instalações.

4.3 – Modelagem e Resultados Experimentais

Diversas abordagens foram testadas no que concerne à separação de dados para

treino, validação e teste das redes, sendo que a mais robusta e razoável (considerando

que os SMOs instalados em um dado ponto variam de ano para ano em alguns casos,

alterando a sua numeração e o fato de que há oscilações, ainda que leves, nas condições

de operação ano após ano) e que será apresentada no restante dessa seção consiste na

concatenação de todos os dados disponíveis para cada componente com posterior

separação para validação e teste dos períodos mais antigos na proporção (definida

empiricamente) de 65% treino, 15% validação, 20% teste, e seguindo as boas práticas

no aprendizado de máquina que determinam que o conjunto de validação e teste devem

representar da melhor forma possível o que a rede receberá para processar na fase de

inferência, de forma a maximizar a sua capacidade de generalização (SCHMIDHUBER,

2015).

A etapa de mineração dos dados iniciou-se com a geração de mapas de calor de

correlação (do inglês, heatmaps), como o mostrado na Figura 4.2, onde regiões com

vermelho mais intenso representam correlação direta mais forte entre as variáveis. Eles

permitiram constatar que há, de fato, grandes diferenças de correlação entre variáveis

monitoradas pelo SICA e os SMOs.

Figura 4.2 – Mapa de calor SICA (algumas variáveis) x SMO.

Aprofundando a pesquisa, e especialmente devido ao grande número de

variáveis candidatas presentes no SICA, gerando mapas de calor difíceis de analisar,

decidiu-se utilizar a técnica de importância de variáveis (do inglês, feature importance –

FI) por permutação (ALTMANN et al., 2010) acoplada à floresta aleatória24

(Seção 2.6)

para obter quais variáveis do SICA seriam mais adequadas para uma modelagem de

regressão com os SMOs. A Figura 4.3 ilustra um exemplo do resultado dessa análise

para um SMO qualquer, onde as barras significam a piora na métrica de desempenho

(neste caso, o coeficiente estatístico de determinação, ) que se verifica ao

descorrelacionar aquela variável das demais. Por exemplo, na figura, descorrelacionar a

variável TI5701 acarreta uma piora de 0,65 no coeficiente de determinação para o

As florestas aleatórias para cada um dos SMOs foram construídas seguindo o procedimento descrito na

Seção 2.6, seguindo os procedimentos e hiperparâmetros descritos em Breiman (2001) no que concerne à

composição de florestas aleatórias para regressão.

classificador, destacando-a como uma das mais importantes. É possível notar que três

variáveis do SICA (nomeadamente, para esse caso, TI5701, TI5702 e TI181) são

responsáveis por cerca de 89% do desempenho da floresta aleatória para este SMO,

fenômeno esse que, incidentalmente, repetiu-se em quase todos os casos.

Figura 4.3 – Exemplo de resultado de importância de variáveis.

De posse dessa informação, o próximo passo foi realizar testes experimentais

com tais variáveis mais relevantes, verificando a capacidade de generalização dos

modelos de aprendizado profundo na inferência das medições de temperatura em

períodos nos quais os SMOs não estavam presentes. As configurações das RNPs foram

determinadas através de vários testes com diferentes combinações de hiperparâmetros,

chegando à Tabela 2125

, onde estão listados os principais.

Na tabela, “dropout” (SRIVASTAVA et al., 2014) e decaimento de peso (NG, 2000) referem-se a

técnicas de regularização para evitar que a rede ajuste-se sobremaneira (do inglês, overfit) aos dados de

treinamento. Já a normalização de batch (IOFFE & SZEGEDY, 2015) é utilizada para acelerar o

treinamento das redes. Na DRNN, tais métodos também foram testados mas não levaram a melhora

substancial nos resultados.

importância

Tabela 4.1 –Principais hiperparâmetros para as RNPs aplicadas ao PIT.

Hiperparâmetro DRNN LSTM

Camadas internas 7 2

Número de neurônios/unidades

LSTM por camada 100 10

Funções de ativação nas

camadas internas ReLU

tanh e sigmoide

logística

Decaimento de peso – L1: 0,01 e L2: 0,01

Dropout – 0,2

Normalização de batch – momento: 0,99

No total, há 90 componentes com SMOs associados dentro do prédio de

contenção para os quais deseja-se saber a assinatura temporal da temperatura ao longo

dos anos de operação. Destes, até onde se dispunha de dados de operação no momento

da conclusão deste trabalho, 80 apresentavam medições válidas para realizar o estudo. A

modelagem experimental consistiu em treinar uma rede neural para regressão não-linear

para cada um dos componentes, cada uma com uma ou mais variáveis do SICA como

variáveis independentes, tendo como alvo a temperatura do SMO. Mais

especificamente, os testes experimentais foram feitos considerando cada uma de quatro

abordagens, variando a quantidade de variáveis regressoras (SICA) – sempre tomadas

em ordem decrescente de importância – e a arquitetura das redes, tal qual descrito na

Tabela 22.

No restante dessa seção serão apresentados os resultados detalhados

correspondentes a cinco dos componentes, identificados dentro do prédio de contenção

como “1 2”, “3 5”, “3 9”, “3 50” e “4 31”, cujas análises de importância de variáveis

encontram-se nas Figuras 4.4-4.8, por serem representativos do todo no tocante à

comparação direta entre as abordagens, análise e discussão dos resultados. Para efeito

de completude, cabe ressaltar e adiantar que 71 dos 80 componentes (89%)

apresentaram erro médio absoluto abaixo de 2 °C, como será abordado em mais

detalhes e discutido na Seção 4.5.

Figura 4.4 – Importância de variáveis para o componente “1 2”.

importância

Quando da elaboração deste trabalho, estavam disponíveis os dados operacionais

para treinamento, validação e testes das redes referentes aos períodos de operação 2015-

2016 (código 1P21), 2016-2017 (1P22) e 2017-2018 (1P23). Porém, cabe ressaltar que,

como tratam-se de dados experimentais reais, nem todas as posições dispunham de

SMOs acoplados a elas com medições válidas em todos esses anos. Sendo assim, as

Figuras 4.9-4.28, em seus títulos, especificam qual a arquitetura de rede utilizada e os

períodos considerados para treino e teste das redes, seguindo a Tabela 4.2 que classifica

as abordagens. Os gráficos estão codificados por cor e representam as variáveis do

SICA consideradas, SMOs e o resultado da regressão das redes (predição). Os números

destacados em cada gráfico referem-se ao erro médio absoluto (do inglês, Mean

Absolute Error – MAE) entre a saída fornecida pela rede e o alvo (SMO), sendo tomada

como a métrica de performance nessa aplicação. Cada uma das redes LSTM foram

treinadas em por volta de 50 minutos até estabilização do erro26

, enquanto as DRNN

treinavam bem mais rapidamente: cerca de dois minutos por rede.

Tabela 4.2 – Configuração dos experimentos do PIT.

Abordagem Variáveis regressoras Arquitetura

A 1 DRNN

B 3 DRNN

C 1 LSTM

D 3 LSTM

Em GPU NVIDIA® GeForce® GTX 1070 Ti. Os demais materiais são tais como descrito na Seção 3.2.2.

importância

Figura 4.9 – Resultado experimental para o componente “1 2”, abordagem A.

Figura 4.14 – Resultado experimental para o componente “1 2”, abordagem B.

Figura 4.19 – Resultado experimental para o componente “1 2”, abordagem C.

Figura 4.24 – Resultado experimental para o componente “1 2”, abordagem D.

4.4 – Análise dos Resultados

A Tabela 4.3 resume os erros médios absolutos obtidos no conjunto de teste para

cada uma das abordagens nos 5 componentes listados na Seção anterior. É possível

observar que os melhores resultados foram alcançados para a abordagem A, isto é, uma

variável regressora com a arquitetura de rede DRNN.

Tabela 4.3 – Resultados obtidos.

Abordagem Componente MAE no teste (ºC)

1 2 0,284

3 5 7,299

3 9 1,625

3 50 0,519

4 31 1,392

1 2 0,332

3 5 5,62

3 9 1,282

3 50 0,496

4 31 1,689

1 2 0,460

3 5 7,061

3 9 1,583

3 50 0,691

4 31 1,991

1 2 1,154

3 5 4,096

3 9 1,582

3 50 0,630

4 31 2,104

Ao comparar diretamente as abordagens com uma e três variáveis regressoras,

nota-se que, quando os dados de medição são “bem comportados”, ou seja, mais

estáveis, o uso de apenas uma variável permite à rede especializar-se melhor na tarefa

de regressão com o SMO, muito embora as outras duas variáveis consideradas também

apresentem importância significativa. Porém, casos mais complexos (mais oscilações,

ruídos, etc.) parecem ser melhor tratados com a utilização das três variáveis mais

importantes. De forma geral, vale testar as duas opções (ou mesmo duas variáveis ou

outras combinações), caso a caso.

No tocante às arquiteturas, embora próximas em alguns casos, a DRNN

apresentou desempenho superior à LSTM (embora próximo, em muitos casos)

consistentemente dentre os 80 casos analisados. Este fato, pode-se supor, é causado pela

presença de ruídos nos dados (o que é inerente a dados reais de operação) e flutuações

nas condições operacionais que, observando os gráficos, aparecem de um ano para o

outro, alterando a relação entre as variáveis do SICA e os SMO. De fato, é sabido que as

RNRs são modelos mais adequados para dados mais “limpos”, tendo sido reportado na

literatura que treinar redes neurais recorrentes com dados altamente ruidosos pode

fornecer resultados aquém do esperado, ao fazê-las desprezarem dependências

sequenciais de longo prazo no aprendizado, o que leva a rede a sobreajustar-se aos

dados de treinamento mais comuns ou à média entre estes, fornecendo tais respostas

triviais como sua saída (BENGIO, 1996; GILES et al. 2001). Tal resultado experimental

faz sentido intuitivamente, na medida em que a característica – em geral desejável – das

RNRs de carregar informações sobre passos anteriores da sequência em sua memória e

utilizá-las para inferir o próximo passo (Seção 2.5.1) fornece mais desinformação do

que informação, no caso de séries com muito ruído, interferindo em seu desempenho.

Analisando cada um dos casos listados, nota-se que, para os componentes “1 2”,

“3 50” e “4 31”, a rede foi capaz de encontrar, mediante treinamento, a relação não

linear entre a(s) variável(is) do SICA e o SMO, mesmo quando os dados apresentam

oscilação periódica considerável, como no “4 31”.

Já no caso do componente “3 5”, fica evidente que os dados do SMO apresentam

alguma falha sistemática de medição (pois, se assim não fosse, oscilações similares

seriam também observadas no SICA). Assim, como é de se esperar, a rede não é capaz

de modelar em seu treinamento a correspondência entre as variáveis medidas pelos dois

sistemas, não sendo capaz, portanto, de generalizar para o conjunto de teste. Por fim, o

resultado apresentado para o componente “3 9” ilustra uma situação que corrobora essa

hipótese: embora a rede tenha sido capaz de aprender a relacionar as variáveis durante o

treinamento, algum evento fortuito levou a uma oscilação espúria do SMO durante boa

parte do conjunto de teste que novamente não foi acompanhada pelo SICA. Isso levou,

consequentemente, a uma variação considerável entre a temperatura predita pela rede e

o SMO nesse trecho e, por conseguinte, a incremento substancial no MAE.

4.5 – Conclusões para o PIT

Interpretando os resultados apresentados e discutidos na Seção 4.3 e na Seção

4.4 é possível afirmar que, para a abordagem A, dos 80 componentes para os quais se

dispunha de SMOs para a modelagem, 71 (89%) apresentaram erro médio absoluto

inferior a 2 ºC. Dentre os restantes, para os quais os erros no conjunto de teste foram

superiores à referida marca, as análises dos resultados indicaram que isso se deve mais a

problemas nos dados do que de modelagem/arquitetura das redes, o que é natural em

aplicações com dados reais de operação.

Dentre as arquiteturas testadas, a DRNN mostrou-se mais eficiente, tendo sido

capaz de fornecer resultados mais acurados (embora próximos aos da LSTM), com o

benefício adicional de ser treinada em muito menos tempo e com configurações mais

simples que a LSTM, embora requeira muito mais camadas e mais neurônios que esta

última levando, por consequência, a modelos com mais conexões que ocuparão mais

espaço computacional para serem armazenados (em média, 7 MB por rede contra 70 kB

para a LSTM). Mesmo com todos esses pontos favoráveis à DRNN, a LSTM também

apresentou desempenho notável e é uma opção que deve ser considerada em aplicações

similares com dados não tão ruidosos.

Isto posto, os resultados apresentados permitem concluir que as RNPs são, de

fato, uma alternativa viável para a aplicação ao PIT. Além disso, tal como no PIAN,

vale mencionar que essa aplicação é facilmente extensível a outras indústrias e

processos, considerando as especificidades dos conjuntos de dados em questão.

Finalmente, o treinamento com mais anos de operação, a pesquisa de

arquiteturas e métodos estatísticos para pré-tratamento e mineração de dados, além da

utilização de redes auto-associativas nas variáveis do SICA, como forma de verificar até

que ano as condições de operação continuariam válidas no passado para a inferência,

obtendo uma espécie de mecanismo “não sei” para o sistema proposto, ficam como

sugestões para trabalhos futuros.

CAPÍTULO 5

CONCLUSÕES

Resumidamente, nesta tese foram apresentados dois trabalhos inovadores (até

onde foram as pesquisas deste autor) que aplicam o paradigma de redes neurais

profundas a dois problemas complexos da área nuclear envolvendo séries temporais: o

problema de identificação de acidentes nucleares (PIAN) e o problema de inferência de

temperaturas (PIT).

5.1 – RNPs Aplicadas ao PIAN

A metodologia utilizada no PIAN (Capítulo 3) consistiu em elaborar um modelo

de rede neural profunda retificada para servir como classificador e núcleo de um sistema

capaz de, alimentado com as assinaturas temporais de diferentes variáveis

correspondentes a certos acidentes postulados para a UN Angra 2, fornecer o

diagnóstico acerca do evento operacional corrente na usina. No conjunto de 13

acidentes considerado, contendo alguns acidentes com evoluções temporais bastante

similares entre si, o classificador foi capaz de fornecer taxas de acerto de 97,87% no

cenário mais desafiador testado (assumindo o início da classificação no exato segundo

de início do transiente), cabendo destacar que os erros de classificação correspondem,

em maioria, aos instantes iniciais do transiente.

Prosseguiu-se, então, nas pesquisas de métodos para habilitar o sistema a

fornecer a resposta “não sei”, crucial do ponto de vista de segurança e confiabilidade

para sistemas de diagnóstico nessa aplicação. Diversas abordagens foram testadas e

comparadas, sendo a mais eficiente delas conseguida mediante o acoplamento de redes

neurais auto-associativas profundas de classe única ao classificador, resultando em um

sistema capaz de fornecer a resposta “não sei” corretamente para eventos fora do escopo

de treinamento 99,88% das vezes, ao mesmo tempo em que guardou a capacidade de

diagnosticar o evento correto em 94,56% dos casos.

O sistema resultante – facilmente extensível a outras indústrias e operações –

avança o estado da arte apresentado em trabalhos anteriores no qual o sistema se baseou

(MÓL et al., 2002) e superam demais trabalhos similares aplicando redes neurais ao

problema, como Peng et al. (2018), seja em taxa de acerto, abrangência e complexidade

do conjunto de dados considerado, como mencionado em Santos et al. (2019) e Pinheiro

et al. (2019).

5.2 – RNPs Aplicadas ao PIT

O PIT (Capítulo 4) foi um problema que surgiu na medida em que, como parte

dos requisitos para autorização da extensão de vida útil da UN Angra 1, dados a respeito

das temperaturas às quais diferentes equipamentos dispostos dentro do prédio de

contenção do reator durante o histórico de operação da usina estiveram expostos

precisavam ser conhecidos com o objetivo de estimar seus envelhecimentos acelerados

devido a esse agente estressor e avaliar, em última instância, suas qualificações

contínuas (EPRI, 2010; MUZITANO et al., 2017). O problema advém do fato de que as

instalações de medidores de temperatura (SMOs) para tal fim começaram a ser

realizadas nos pontos de interesse apenas a partir de 2015, não havendo dados anteriores

fisicamente medidos anteriormente a isso.

A abordagem aqui proposta consistiu, portanto, de utilizar arquiteturas de RNPs

para, através de uma modelagem de regressão, estabelecer a correlação entre as

variáveis físicas disponíveis no histórico de operação da usina medidas através do

sistema integrado de computadores de Angra 1 (SICA) e aquelas medidas pelos SMOs.

Dessa forma, após treinada, a RNP atua como um SMO virtual do passado quando

alimentada com as variáveis regressoras pertinentes, permitindo inferir a temperatura

que seria medida pelo SMO naquela posição caso ele estivesse lá presente.

Após o pré-tratamento, mineração dos dados e otimização dos modelos, as RNPs

estudadas se mostraram capazes de fornecer resultados satisfatórios na grande maioria

dos casos, chegando a alcançar menos de 2 ºC de diferença média absoluta no conjunto

de teste para cerca de 89% dos componentes testados e acima dessa marca nos demais,

provando o valor da abordagem que, a propósito, pode ser também facilmente aplicada

a problemas e conjuntos de dados com características similares.

5.3 – Conclusões Finais e Trabalhos Futuros

De forma geral, os resultados obtidos para o PIAN e PIT evidenciam o grande

potencial latente que as RNPs, tendo sido definidas, estudadas e modernizadas como tal,

possuem no que diz respeito ao atingimento de novos estados da arte em problemas

complexos já parcialmente solucionados da área nuclear e, quiçá, na resolução de

problemas ainda em aberto.

Nesse sentido, e revisitando a argumentação apresentada ao final da Seção 1.3,

os estudos de caso apresentados nesta tese, embora relevantes e com resultados

satisfatórios, propõem-se a ser e apresentam-se como ponto de partida, fonte de

referência e exploração incipiente das futuras pesquisas a serem realizadas com esse

paradigma de aprendizado de máquina. Aplicá-lo aos demais desafios e procedimentos

da área nuclear, como o problema de recarga do reator, robótica de enxames para

exploração de ambientes radioativos e geração de salas de controle mais interativas e

inteligentes, potencialmente explorando metodologias não mencionadas aqui, como o

aprendizado por reforço (SUTTON & BARTO, 2018), aprendizado semi-

supervisionado (CHAPELLE et al., 2006) e aprendizado ativo (SETTLES, 2011)

configuram-se como apenas alguns exemplos e ficam aqui como sugestões para

trabalhos futuros.

REFERÊNCIAS BIBLIOGRÁFICAS

ABADI, M. et al. TensorFlow: A system for large-scale machine learning. In: USENIX

SYMPOSIUM ON OPERATING SYSTEMS DESIGN AND IMPLEMENTATION.

Proceedings… pp. 265-283, 2016.

AGGARWAL, C. C. Data mining. Springer, Cham, 2015.

AGGARWAL, C. C. Neural networks and deep learning. Springer, 2018.

ALOM, M. Z. et al. A state-of-the-art survey on deep learning theory and architectures.

Electronics, v. 8, n. 3, p. 292, 2019.

ALTMANN, A.; TOLOŞI, L.; SANDER, O.; LENGAUER, T. Permutation importance:

a corrected feature importance measure. Bioinformatics, v. 26, n. 10, pp. 1340-1347,

ALVARENGA, M. A. B. Diagnóstico do desligamento de um reator nuclear através

de técnicas avançadas de inteligência artificial. Tese (Doutorado em Ciências) –

Programa de Engenharia Nuclear, Universidade Federal do Rio de Janeiro, Rio de

Janeiro, 1997.

ALVARENGA JÚNIOR, W. J. Métodos de otimização hiperparamétrica: um

estudo comparativo utilizando árvores de decisão e florestas aleatórias na

classificação binária. Dissertação (Mestrado em Ciências) – Programa de Engenharia

Elétrica, Universidade Federal de Minas Gerais, Minas Gerais, 2018.

AMARBAYASGALAN, T.; JARGALSAIKHAN, B.; RYU, K. H. Unsupervised

novelty detection using deep autoencoders with density-based clustering. Applied

Sciences, v. 8, n. 9, p. 1468, 2018.

BARTLETT, E. B.; UHRIG, R. E. Power Plant Status Diagnostics Using Artificial

Neural Network. Nuclear Technology, v. 97, pp. 272-281, 1992.

BENDALE, A.; BOULT, T. Towards open world recognition. In: IEEE

CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION.

Proceedings… pp. 1893-1902, 2015.

BENGIO, Y. Neural networks for speech and sequence recognition. Nova Iorque:

Van Nostrand Reinhold, 1996.

BENGIO, Y.; LECUN, Y. Scaling learning algorithms towards AI. Large-scale Kernel

Machines, v. 34, n. 5, pp. 1-41, 2007.

BENGIO, Y.; SIMARD, P.; FRASCONI, P. Learning long-term dependencies with

gradient descent is difficult. IEEE Transactions on Neural Networks, v. 5, n. 2, 1994.

BOURLARD, H.; KAMP, Y. Auto-association by multilayer perceptrons and singular

value decomposition. Biological Cybernetics, v. 59, pp. 291-294, 1988.

BREIMAN, L. Random forests. Machine Learning, v. 45, n. 1, pp. 5-32, 2001.

CARDOZO, F. H. P. Simulação de detectores de radiação no interior do prédio de

contenção da usina nuclear Angra 1. Trabalho de conclusão de curso (Engenharia

Nuclear) – Escola Politécnica, Universidade Federal do Rio de Janeiro, Rio de Janeiro,

CHAKRABORTY, D.; PAL, N. R. Making a multilayered perceptron network say "

don't know" when it should. In: INTERNATIONAL CONFERENCE ON NEURAL

INFORMATION PROCESSING. Proceedings… v. 1, pp. 45-49, 2002.

CHALAPATHY, R.; MENON, A. K.; CHAWLA, S. Anomaly detection using one-

class neural networks. ArXiv Preprint, arXiv: 1802.06360, 2018.

CHAPELLE, O.; SCHOLKOPF, B.; ZIEN, A. Semi-supervised learning. Londres:

MIT Press, 2006. 508 p.

CHOLLET, F. Keras. Versão 2.2.4. [S.l.]: 2018. Disponível em:

<https://github.com/fchollet/keras>.

CFR – CODE OF FEDERAL REGULATIONS. Environmental qualification of

electrical equipment important to safety for nuclear power plants. 2000.

CLEVERT, D. A.; UNTERTHINER, T.; HOCHREITER, S. Fast and accurate deep

network learning by exponential linear units (elus). ArXiv Preprint, arXiv:

1511.07289, 2015.

CYBENKO, G. Approximation by superpositions of a sigmoidal function.

Mathematics of Control, Signals and Systems, v. 2, n. 4, pp. 303-314, 1989.

DAVID, P. K.; MONTANARI, G. C. Compensation effect in thermal aging

investigated according to Eyring and Arrhenius models. European Transactions on

Electrical Power, v. 2, n .3, pp. 187-194, 1992.

DENIL, M.; MATHESON, D.; DE FREITAS, N. Narrowing the gap: random forests in

theory and in practice. In: INTERNATIONAL CONFERENCE ON MACHINE

LEARNING. Proceedings… pp. 665-673, 2014.

ELETRONUCLEAR – ELETROBRAS TERMONUCLEAR S.A. Critérios para

desenvolvimento do programa de qualificação ambiental de equipamentos elétricos

de Angra 1 (IN-A1-0108). Rio de Janeiro, Brasil, 2018. 43 p.

ELLER, I. B. Uma metodologia para avaliação regulatória de extensão de vida de

usinas nucleares. Dissertação (Mestrado em Ciências) – Instituto de Engenharia

Nuclear, Rio de Janeiro, 2018.

EMBRECHTS, M. J.; BENEDEK, S. Hybrid identification of nuclear power plant

transients with artificial neural networks. IEEE Transactions on Industrial

Electronics, v. 51, n. 3, pp. 686-693, 2004.

EPRI – ELECTRIC POWER RESEARCH INSTITUTE. Environmental qualification

management system implementation guide. Palo Alto, CA, 2003. 50 p.

EPRI – ELECTRIC POWER RESEARCH INSTITUTE. Plant support engineering:

nuclear power plant equipment qualification reference manual, revision 1. Palo

Alto, CA, 2010. 666 p.

ERFANI, S. M.; RAJASEGARAR, S.; KARUNASEKERA, S.; LECKIE, C. High-

dimensional and large-scale anomaly detection using a linear one-class SVM with deep

learning. Pattern Recognition, v. 58, pp. 121-134. 2016.

EVSUKOFF, A.; GENTIL, S. Recurrent neuro-fuzzy system for fault detection and

isolation in nuclear reactors. Advanced Engineering Informatics, v. 19, n. 1, pp. 55-

66, 2005.

FUKUSHIMA, K.; WAKE, N. Handwritten alphanumeric character recognition by the

neocognitron. IEEE Transactions on Neural Networks, v. 2, n. 3, pp. 355-365, 1991.

GILES, C. L.; LAWRENCE, S.; TSOI, A. C.. Noisy time series prediction using

recurrent neural networks and grammatical inference. Machine Learning, v. 44, pp.

161-183, 2001.

GLOROT, X.; BENGIO, Y. Understanding the difficulty of training deep feedforward

neural networks. In: INTERNATIONAL CONFERENCE ON ARTIFICIAL

INTELLIGENCE AND STATISTICS. Proceedings… v. 9, pp. 249–256, 2010.

GLOROT, X.; BORDES, A.; BENGIO, Y. Deep Sparse Rectifier Neural Networks. In:

INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND

STATISTICS. Proceedings… v. 15, pp. 315-323, 2011.

GOLLER, C.; KUCHLER, A. Learning task-dependent distributed representations by

backpropagation through structure. In: INTERNATIONAL CONFERENCE ON

NEURAL NETWORKS. Proceedings... pp. 347-352, 1996.

GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep learning. Cambridge: MIT

Press, 2016.

GOODFELLOW, I. et al. Generative adversarial nets. In: ADVANCES IN NEURAL

INFORMATION PROCESSING SYSTEMS. Proceedings… pp. 2672-2680, 2014.

GUTOSKI, M.; RIBEIRO, M.; AQUINO, N. M. R.; LAZZARETTI, A. E.; LOPES, H.

S. A clustering-based deep autoencoder for one-class image classification. In: IEEE

LATIN AMERICAN CONFERENCE ON COMPUTATIONAL INTELLIGENCE.

Proceedings… pp. 1-6, 2017.

HA, T. M. The optimum class-selective rejection rule. IEEE Transactions on Pattern

Analysis and Machine Intelligence, v. 19, n. 6, pp. 608-615, 1997.

HAYKIN, S. Redes neurais: princípios e prática. 2. ed. Bookman Editora, 2007.

HEBB, D. O. The organization of behavior. Editora Wiley, 1949.

HOCHREITER, Sepp. Untersuchungen zu dynamischen neuronalen netzen.

Dissertação (Mestrado em Ciências) – Universidade Técnica de Munique, Munique,

HOCHREITER, S. The vanishing gradient problem during learning recurrent neural

nets and problem solutions. International Journal of Uncertainty, Fuzziness and

Knowledge-Based Systems, v. 6, n. 02, pp. 107-116, 1998.

HOCHREITER, S.; BENGIO, Y.; FRASCONI, P.; SCHMIDHUBER, J. Gradient flow

in recurrent nets: the difficulty of learning long-term dependencies In: KREMER, S. C.;

KOLEN, J. F. (Eds.). A field guide to dynamical recurrent neural networks. 2001.

HOCHREITER, S.; SCHMIDHUBER, J. Long short-term memory. Neural

Computation. v. 9, n. 8, pp. 1735-1780, 1997.

HOPFIELD, J. J. Neural networks and physical systems with emergent collective

computational abilities. In: National academy of sciences. Proceedings…v. 79, n. 8, pp.

2554-2558, 1982.

HUNTER, J. D. Matplotlib: A 2D graphics environment. Computing in Science &

Engineering, v. 9, n. 3, pp. 90-95, 2007.

IAEA – INTERNATIONAL ATOMIC ENERGY AGENCY. Equipment qualification

in operational nuclear power plants : upgrading, preserving and reviewing. Viena,

126 p. 1998.

IEEE – Institute of Electrical and Electronics Engineers. Standard for qualifying class

1E electric equipment for nuclear power generating stations (Std 323). 1971.

IEEE – Institute of Electrical and Electronics Engineers. Nuclear EQ sourcebook: - a

compilation of documents for nuclear equipment qualification and supplement.

IOFFE, S.; SZEGEDY, C. Batch normalization: accelerating deep network training by

reducing internal covariate shift. ArXiv Preprint, arXiv: 1502.03167, 2015.

JAEGER, H. The “echo state” approach to analyzing and training recurrent neural

networks - with an erratum note. In: German national research center for

information technology GMD technical report, v. 148, n. 34, p. 13, 2001.

JAIN, L. P.; SCHEIRER, W. J.; BOULT, T. E. Multi-class open set recognition using

probability of inclusion. In: EUROPEAN CONFERENCE ON COMPUTER VISION,

Proceedings... pp. 393-409, 2014.

JEONG, E.; FURUTA, K.; KONDO, S. Identification of transient in nuclear power

plant using adaptive template matching with neural network. In: INTERNATIONAL

TOPICAL MEETING ON NUCLEAR PLANT INSTRUMENTATION, CONTROL

AND HUMAN-MACHINE INTERFACE TECHNOLOGIES. Proceedings… pp. 243-

250, 1996.

JORDAN, M. I. Attractor dynamics and parallelism in a connectionist sequential

machine. In: Artificial neural networks: concept learning, pp. 112-127, 1990.

KARPATHY, A. CS231n Convolutional Neural Networks for Visual Recognition

[on-line]. Universidade de Stanford. Mai. 2019 [citado em 28 Jan. 2020]. Disponível

em: <http://cs231n.github.io/convolutional-networks/>.

KARMAKAR, B.; PAL, N. R. How to make a neural network say „„don‟t know”.

Information Sciences, v. 430, pp. 444–466, 2018.

KENNEDY, J. Some issues and practices for particle swarms. In: IEEE SWARM

INTELLIGENCE SYMPOSIUM. Proceedings… pp. 162-169, 2007.

KENNEDY, J.; EBERHART, R. C.; SHI, Y. Swarm intelligence. Elsevier, 2001.

KHARECHA, P. A.; HANSEN, J. E. Prevented mortality and greenhouse gas emissions

from historical and projected nuclear power. Environmental Science & Technology, v.

47, n. 9, pp. 4889-4895, 2013.

KLAMBAUER, G.; UNTERTHINER, T.; MAYR, A.; HOCHREITER, S. Self-

normalizing neural networks. ArXiv Preprint, arXiv: 1706.02515, 2017.

KRAMER, M. A. Autoassociative neural networks. Computers & Chemical

Engineering, v. 16, pp. 313-328, 1992.

KRIZHEVSKY, A.; SUTSKEVER, I.; HINTON, G. E. Imagenet classification with

deep convolutional neural networks. ADVANCES IN NEURAL INFORMATION

PROCESSING SYSTEMS. Proceedings… pp. 1097-1105, 2012.

KUCHAIEV, O.; GINSBURG, B. Training deep autoencoders for collaborative

filtering. ArXiv Preprint, arXiv: 1708.01715, 2017.

KWON, K. C.; KIM, J. H. Accident identification in nuclear power plants using hidden

Markov models. Engineering Applications of Artificial Intelligence, v. 12, pp. 491-

501, 1999.

LECUN, Y.; BOSER, B.; DENKER, J. S.; HENDERSON, D.; HOWARD, R. E.;

HUBBARD, W.; JACKEL, L. D. Backpropagation applied to handwritten zip code

recognition. Neural Computation, v. 1, n. 4, pp. 541-551, 1989.

LEWIS, J. W.; VAN ESSEN, D. C. Mapping of architectonic subdivisions in the

macaque monkey, with emphasis on parieto‐occipital cortex. Journal of Comparative

Neurology, v. 428, n. 1, pp. 79-111, 2000.

LI, K. L., HUANG, H. K., TIAN, S. F., XU, W. Improving one-class SVM for anomaly

detection. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND

CYBERNETICS. Proceedings… pp. 3077–3081, 2003.

LIPTON, Z. C.; BERKOWITZ, J.; ELKAN, C. A critical review of recurrent neural

networks for sequence learning. ArXiv Preprint, arXiv: 1506.00019, 2015.

LITTLE, W. A. The existence of persistent states in the brain. In: From high-

temperature superconductivity to microminiature refrigeration. Springer, Boston,

MA, pp. 145-164, 1974.

LUKOŠEVIČIUS, M.; JAEGER, H. Reservoir computing approaches to recurrent

neural network training. Computer Science Review, v. 3, n. 3, p. 127-149, 2009.

MA, J.; JIANG, J. Applications of fault detection and diagnosis methods in nuclear

power plants: a review. Progress in Nuclear Energy, v. 53, n. 3, pp. 255-266, 2011.

MARKANDYA, A.; WILKINSON, P. Electricity generation and health. The Lancet,

v. 370, n. 9591, pp. 979-990, 2007.

MARTINEZ, A. S.; DE OLIVEIRA, L. F. S.; SCHIRRU, R.; THOME, F.; DA SILVA,

R. A. A new concept of safety parameter display system. NUCLEAR ENGINEERING

IN LATIN AMERICA. Proceedings… 1986.

MATHEW, S.; VARGHESE, S.; JOSEPH, R. Degradation behaviour of natural rubber

layered silicate nanocomposites. Progress in Rubber Plastics and Recycling

Technology, v. 29, n. 1, pp. 1-20, 2013.

MCCULLOCH, W. S.; PITTS, W. A logical calculus of the ideas immanent in nervous

activity. The Bulletin of Mathematical Biophysics, v. 5, n. 4, p. 115-133, 1943.

MCKINNEY, W. Data structures for statistical computing in Python. In: PYTHON IN

SCIENCE CONFERENCE. Proceedings… pp. 51-56, 2010.

MINSKY, M.; PAPERT, S. Perceptrons. MIT Press, 1969.

MÓL, A. C. A.; MARTINEZ, A. S.; SCHIRRU, R. A. New approach for transient

identification with "Don‟t Know" response using neural networks. In: RUAN, D. (Ed.).

Power plant surveillance and diagnostics: applied research and diagnostics. Berlin:

Springer, pp. 253-272, 2010.

MOSHKBAR-BAKHSHAYESH, K.; GHOFRANI, M. B. Transient identification in

nuclear power plants: a review. Progress in Nuclear Energy, v. 67, pp. 23-32, 2013.

MUZITANO, G. F.; JUSTINO, M. C.; SILVA, M. C. Environmental qualification

program of electric equipment for Angra 1. In: INTERNATIONAL NUCLEAR

ATLANTIC CONFERENCE. Proceedings… Brasil, 2017.

NICKOLLS, J.; BUCK, I.; GARLAND, M.; SKADRON, K. Scalable parallel

programming with CUDA. Queue, v. 6, n. 2, pp. 40-53, 2008.

NICOLAU, A. S.; SCHIRRU, R. Study of Confinements in the QDPSO applied to

Nuclear Accident Identification Problems. International Journal of Applied

Mathematics and Informatics, n. 144, 2013.

NICOLAU, A. S.; SCHIRRU, R. A new methodology for diagnosis system with “Don‟t

Know” response for Nuclear Power Plants. Annals of Nuclear Energy, v. 100, pp. 91-

97, 2017.

NRC – NUCLEAR REGULATORY COMISSION. Standard Review Plan for the

Review of Safety Analysis Reports for Nuclear Power Plants. 1981.

NRC – NUCLEAR REGULATORY COMISSION. Environmental qualification of

safety-related electrical equipment (Generic Letter 82-09). 1982.

NRC – NUCLEAR REGULATORY COMISSION. Regulatory guide 1.89:

environmental qualification of certain electric equipment important to safety for

nuclear power plants. 1984.

NG, A. Y. Feature selection, L1 vs. L2 regularization, and rotational invariance. In:

INTERNATIONAL CONFERENCE ON MACHINE LEARNING. Proceedings… p.

78, 2004.

NWANKPA, C.; IJOMAH, W.; GACHAGAN, A.; MARSHALL, S. Activation

functions: comparison of trends in practice and research for deep learning. ArXiv

Preprint, arXiv: 1811.03378, 2018.

O‟HARA, J.; HIGGINS, J.; STUBLER, W.; GOODMAN, C.; ECKINRODE, R.;

BONGARRA, J.; GALLETTI, G. Human factors engineering review program model

(NUREG-0711 rev. 1). US Nuclear Regulatory Commission, Washington, DC, 1994.

OLAH, C. Understanding LSTM Networks [on-line]. 27 Ago. 2015 [citado em 28

Jan. 2020]. Disponível em: <https://colah.github.io/posts/2015-08-Understanding-

LSTMs/>.

PEDERSEN, M. E. H.; CHIPPERFIELD, A. J. Simplifying particle swarm

optimization. Applied Soft Computing, v. 10, n. 2, pp. 618-628, 2010.

PEDREGOSA, F. et al. Scikit-learn: machine learning in Python. Journal of Machine

Learning Research, v. 12, pp. 2825-2830, 2011.

PENG, B.S.; XIA, H.; LIU, Y.K.; YANG, B.; GUO, D.; ZHU, S.M. Research on

intelligent fault diagnosis method for nuclear power plant based on correlation analysis

and deep belief network. Progress in Nuclear Energy, v. 108, pp. 419-427, 2018.

PERRAULT, R. et al. The AI Index 2019 Annual Report. AI Index Steering

Committee – Human-Centered AI Institute, Stanford University, Stanford, CA,

PINHEIRO, V. H. C. Programação genética aplicada à identificação de acidentes de

uma usina nuclear PWR. Dissertação (Mestrado em Ciências) – Programa de

Engenharia Nuclear, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2018.

PINHEIRO, V. H. C.; SANTOS, M. C.; DESTERRO, F. S. M.; SCHIRRU, R.;

PEREIRA, C. M. D. N. A. Nuclear Power Plant accident identification system with

“don‟t know” response capability: Novel deep learning-based approaches. Annals of

Nuclear Energy, v. 137, p. 107, 2019.

PINHEIRO, V. H. C.; SCHIRRU, R. Genetic Programming Applied to the

Identification of Accidents of a PWR Nuclear Power Plant. Annals of Nuclear Energy,

v. 124, pp. 335-341, 2019.

PINHO, B. E. Uma proposta inicial de um plano para o período de transição do

desligamento permanente da usina nuclear Angra 1 até a condição de safe storage.

Dissertação (Mestrado em Ciências) – Programa de Engenharia Nuclear, Universidade

Federal do Rio de Janeiro, Rio de Janeiro, 2018.

PRETORIUS, A.; BIERMAN, S.; STEEL, S. J. A meta-analysis of research in random

forests for classification. In: INTERNATIONAL CONFERENCE FOR PATTERN

RECOGNITION ASSOCIATION OF SOUTH AFRICA AND ROBOTICS AND

MECHATRONICS. Proceedings... pp. 1-6, 2016.

ROSENBLATT, F. The perceptron: a probabilistic model for information storage and

organization in the brain. Psychological Review, v. 65, n. 6, p. 386, 1958.

ROVERSO, D. On-line early fault detection and diagnosis with the alladin transient

classifier. In: AMERICAN NUCLEAR SOCIETY INTERNATIONAL TOPICAL

MEETING ON NUCLEAR PLANT INSTRUMENTATION, CONTROL AND

HUMAN-MACHINE INTERFACE TECHNOLOGIES. Proceedings... Illinóis: ANS,

pp. 19-22, 2004.

RUFF, L. et al. Deep one-class classification. In: INTERNATIONAL CONFERENCE

ON MACHINE LEARNING. Proceedings… pp. 4393-4402, 2018.

RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learning representations by

back-propagating errors. Nature, v. 323, n. 6088, pp. 533-536, 1986.

RUSSELL, S. J.; NORVIG, P. Artificial intelligence: a modern approach. Prentice

Hall, 2009.

SANTOS, M. C.; PINHEIRO, V. H. C.; DESTERRO, F. S. M.; AVELLAR, R. K.;

SCHIRRU, R.; NICOLAU, A. S.; LIMA, A. M. M. Deep rectifier neural network

applied to the accident identification problem in a PWR nuclear power plant. Annals of

Nuclear Energy, v. 133, pp. 400-408, 2019.

SCHEIRER, W. J.; JAIN, L. P.; BOULT, T. E. Probability models for open set

recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, v.

36, n. 11, pp. 2317–2324, 2014.

SCHMIDHUBER, J. Deep learning in neural networks: An overview. Neural

Networks, v. 61, pp. 85-117, 2015.

SCHÖLKOPF, B.; WILLIAMSON, R.; SMOLA, A.; SHAWE-TAYLOR, J.; PLATT,

J. Support vector method for novelty detection. INTERNATIONAL CONFERENCE

ON NEURAL INFORMATION PROCESSING SYSTEMS. Proceedings… pp. 582-

588, 1999.

SETTLES, B. From theories to queries: active learning in practice. ACTIVE

LEARNING AND EXPERIMENTAL DESIGN WORKSHOP. Proceedings… pp. 1-

18, 2011.

SHOHAM, Y. et al. The AI index 2018 annual report. AI Index Steering Committee –

Human-Centered AI Initiative, Stanford University, Stanford, CA, 2018.

SIEGELMANN, H. T.; SONTAG, E. D. On the computational power of neural nets. In:

WORKSHOP ON COMPUTATIONAL LEARNING THEORY. Proceedings… pp.

440-449, 1992.

SRIVASTAVA, N.; HINTON, G.; KRIZHEVSKY, A.; SUTSKEVER, I.;

SALAKHUTDINOV, R. Dropout: a simple way to prevent neural networks from

overfitting. The Journal of Machine Learning Research, v. 15, n. 1, pp. 1929-1958,

SUTTON, R. S.; BARTO, A. G. Reinforcement learning: an introduction. Cambridge:

MIT Press, 2018.

TSCHANNEN, M.; BACHEM, O.; LUCIC, M. Recent advances in autoencoder-based

representation learning. ArXiv Preprint, arXiv: 1812.05069, 2018.

VAN ROSSUM, G. Python Programming Language. In: USENIX ANNUAL

TECHNICAL CONFERENCE. Proceedings… v. 41, p. 36, 2007.

VARGAS, R.; MOSAVI, A.; RUIZ, R. Deep learning: a review. Advances in

Intelligent Systems and Computing, v. 29, n. 8, pp. 232-244, 2017.

WALT, S. V. D.; COLBERT, S. C.; VAROQUAUX, G. The NumPy array: a structure

for efficient numerical computation. Computing in Science & Engineering, v. 13, n. 2,

pp. 22-30, 2011.

WANG, X.; TANG, Z.; TAMURA, H.; ISHII, M.; SUN, W. D. An improved

backpropagation algorithm to avoid the local minima problem. Neurocomputing, v. 56,

pp. 455-460, 2004.

WERBOS, Paul. Beyond regression: new tools for prediction and analysis in the

behavioral sciences. Tese (Doutorado em Ciências) – Universidade de Harvard,

Massachusetts, 1974.

WERBOS, P. J. Backpropagation through time: what it does and how to do it. In: IEEE.

Proceedings… v. 78, n. 10, pp. 1550-1560, 1990.

ZEILER, M. D.; FERGUS, R. Visualizing and understanding convolutional networks.

In: EUROPEAN CONFERENCE ON COMPUTER VISION. Proceedings… Springer,

Cham, pp. 818-833, 2014.

ZHOU, C.; PAFFENROTH, R. C. Anomaly Detection with Robust Deep Autoencoders.

In: ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE

DISCOVERY AND DATA MINING. Proceedings… pp. 665-674, 2017.

ZHOU, Y.; ARPIT, D.; NWOGU, I.; GOVINDARAJU, V. Is Joint Training Better for

Deep Auto-Encoders, ArXiv Preprint, arXiv: 1405.1380, 2014.

ZONG, B.; SONG, Q.; MIN, M. R.; CHENG, W.; LUMEZANU, C.; CHO, D.; CHEN,

H. Deep autoencoding gaussian mixture model for unsupervised anomaly detection. In:

INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS.

Proceedings… Vancouver, Canadá, 2018.

redes neurais de aprendizado profundo aplicadas a

Documents

comparando algoritmos de aprendizado … · uma forma de se...

prof. frederico brito fernandes unipe@fredbf.com redes...

introdução -...

avaliando t ecnicas de aprendizado profundo para detec˘c...

inf 1771 inteligência artificial - edirlei soares de...

7. aprendizado profundo (deep learning

josé francisco moreira pessanha · arquitetura paralela...

aprendizado construtivo para redes neurais com uma camada...

redes neurais artificiais: do aprendizado natural ao...

o algoritmo de treinamento: máquina de aprendizado extremo...

prof. frederico brito fernandes asper@fredbf.com redes...

redes neurais artificiais (rna): aprendizado

deep learning: redes neurais...

redes neurais. te073 - processamento digital de sinais ii 2...

aprendizado de máquina introdução às redes neurais...

aprendizado profundo com capacidade computacional reduzida

aprendizado nÃo-supervisionado em redes neurais … ·...

parte 2 artificiais · redes neurais artificiais 13/05/2020...

prof. frederico brito fernandes unipe@fredbf.com redes...

sistemas híbridos inteligentes: aprendizado e...