redes neurais de aprendizado profundo aplicadas a
Post on 19-Apr-2022
1 Views
Preview:
TRANSCRIPT
REDES NEURAIS DE APRENDIZADO PROFUNDO APLICADAS A PROBLEMAS
COMPLEXOS DA ENGENHARIA NUCLEAR
Victor Henrique Cabral Pinheiro
Tese de Doutorado apresentada ao Programa de
Pós-graduação em Engenharia Nuclear, COPPE, da
Universidade Federal do Rio de Janeiro, como
parte dos requisitos necessários à obtenção do
título de Doutor em Engenharia Nuclear.
Orientador: Roberto Schirru
Rio de Janeiro
Junho de 2020
REDES NEURAIS DE APRENDIZADO PROFUNDO APLICADAS A PROBLEMAS
COMPLEXOS DA ENGENHARIA NUCLEAR
Victor Henrique Cabral Pinheiro
TESE SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ
COIMBRA DE PÓS-GRADUAÇÃO E PESQUISA DE ENGENHARIA DA
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS
REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE DOUTOR EM
CIÊNCIAS EM ENGENHARIA NUCLEAR.
Orientador: Roberto Schirru
Aprovada por: Prof. Roberto Schirru
Profª. Andressa dos Santos Nicolau
Prof. Claudio Marcio do Nascimento Abreu Pereira
Prof. César Marques Salgado
Dr. Mario Cesar Mello Massa de Campos
RIO DE JANEIRO, RJ - BRASIL
JUNHO DE 2020
iii
Pinheiro, Victor Henrique Cabral
Redes Neurais de Aprendizado Profundo Aplicadas a
Problemas Complexos da Engenharia Nuclear / Victor
Henrique Cabral Pinheiro. – Rio de Janeiro:
UFRJ/COPPE, 2020.
XIII, 102 p.: il.; 29,7 cm.
Orientador: Roberto Schirru
Tese (doutorado) – UFRJ/ COPPE/ Programa de
Engenharia Nuclear, 2020.
Referências Bibliográficas: p. 86-102.
1. Engenharia nuclear. 2. Aprendizado profundo. 3.
Engenharia de fatores humanos. I. Schirru, Roberto. II.
Universidade Federal do Rio de Janeiro, COPPE,
Programa de Engenharia Nuclear. III. Título.
iv
À minha família.
v
AGRADECIMENTOS
Agradeço à minha família querida – principalmente minha mamãe, meu pai e
meu irmão – pelo apoio, pelos momentos de alegria e por terem proporcionado que eu
pudesse estudar e chegar até aqui.
Agradeço ao meu orientador, professor Roberto Schirru, por toda a orientação (o
que pode parecer redundante, mas não é!). Devo agradecimentos pelo excelente suporte
e mentoria, pela paciência, pela disponibilidade, pelos conselhos, pela paciência e ainda
mais uma vez pela paciência. Foi uma experiência excelente ser seu aluno de doutorado,
e através dela acho que amadureci e cresci, portanto, agradeço.
Agradeço ao pessoal do LMP pelo auxílio, por estarem sempre prontos a me
tirar dúvidas e orientarem com boa vontade quando necessário. Destaco aqui (dentre
muitos!) os pesquisadores Andressa Nicolau e Alan de Lima.
Agradeço aos amigos de dentro e de fora da universidade. Aos de dentro, pelo
companheirismo durante o doutorado e por terem tornado essa jornada mais agradável,
e aos de fora, pelo encorajamento e companhia.
Por fim, quero agradecer de maneira geral ao restante do corpo docente e
técnico-administrativo do PEN/COPPE. Tive uma grata surpresa pela maneira atenciosa
e agradável como acolheram a mim e aos demais alunos, e como trabalham com
diligência e dedicação para alcançar e manter o padrão de qualidade apresentado pelo
programa.
vi
Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários
para a obtenção do grau de Doutor em Ciências (D.Sc.)
REDES NEURAIS DE APRENDIZADO PROFUNDO APLICADAS A PROBLEMAS
COMPLEXOS DA ENGENHARIA NUCLEAR
Victor Henrique Cabral Pinheiro
Março/2020
Orientador: Roberto Schirru
Programa: Engenharia Nuclear
Este trabalho descreve, analisa e propõe soluções a dois problemas complexos da
área nuclear, a saber, o Problema de Identificação de Acidentes Nucleares (PIAN) e o
Problema de Inferência de Temperaturas (PIT) em certos pontos internos do prédio de
contenção do reator. Os sistemas elaborados para solução destes problemas tiveram
como núcleo o paradigma de Redes Neurais Profundas (RNPs) – sozinhas ou acopladas
a outras técnicas de aprendizado de máquina e estatística – e foram desenvolvidos
através de pesquisas no estado da arte da literatura científica, testes minuciosos e
aprimoramentos, buscando as arquiteturas de RNPs mais adequadas, capazes de gerar
resultados robustos, confiáveis e exatos para esses dois problemas. No caso do PIAN, os
testes foram realizados com dados de operação simulados para a usina nuclear Angra 2,
e o sistema resultante mais eficiente alcançou 99,88% de respostas “não sei” para
eventos fora do escopo de treinamento e 94,56% de classificações corretas aplicando
redes neurais profundas retificadas (DRNN) e redes auto-associativas. Já para o PIT, o
conjunto de dados para a modelagem de regressão corresponde a aferições reais de
temperaturas na usina Angra 1, e os resultados aplicando a DRNN e redes recorrentes
LSTM apresentaram erro médio de regressão menor que 2 ºC em 89% dos casos.
vii
Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the
requirements for the degree of Doctor of Science (D.Sc.)
DEEP LEARNING NETWORKS APPLIED TO COMPLEX PROBLEMS OF
NUCLEAR ENGINEERING
Victor Henrique Cabral Pinheiro
March/2020
Advisor: Roberto Schirru
Department: Nuclear Engineering
This work describes, analyzes and proposes the solution to two complex
problems of the nuclear area, namely, the nuclear accident identification problem
(NAIP) and the inference of temperatures problem (ITP) in certain spots of the reactor
containment building. The systems to solve these problems had at their core the
paradigm of deep neural networks (DNN) – alone or coupled with other machine
learning and statistical techniques – and were developed through research for the state
of the art in scientific literature, thorough tests and improvements, seeking for the most
adequate DNN architectures, capable of generating robust, reliable and accurate results
for these two problems. For NAIP, the tests were developed with operational data
simulated for Angra 2 NPP, and the resulting most efficient system achieved 99,88% of
correct “don‟t know” answers for events outside of training scope and 94,56% of correct
classifications applying deep rectifier neural networks (DRNN) and autoencoders. For
ITP, the dataset utilized for the regression modeling corresponds to real measurements
of physical variables for Angra 1, with average regression error below 2 ºC in 89% of
the cases applying DRNN and LSTM recurrent networks.
viii
SUMÁRIO
1 - INTRODUÇÃO ........................................................................................................................... 1
1.1 – Contextualização e Motivação ......................................................................................... 1
1.2 – Objetivos .......................................................................................................................... 4
1.3 – Organização ...................................................................................................................... 5
2 - FUNDAMENTAÇÃO TEÓRICA .................................................................................................... 6
2.1 – Breve Histórico ................................................................................................................. 6
2.2 – O Problema do Desaparecimento de Gradiente .............................................................. 9
2.3 – Redes Neurais Profundas Retificadas ............................................................................. 13
2.4 – Redes Neurais Auto-Associativas ................................................................................... 15
2.5 – Redes Neurais Recorrentes (RNRs) ................................................................................ 16
2.5.1 – Problema de aprendizado de sequências e as RNRs ............................................... 16
2.5.2 – Long short-term memory (LSTM) ............................................................................ 20
2.6 – Floresta Aleatória ........................................................................................................... 23
3 - O PROBLEMA DE IDENTIFICAÇÃO DE ACIDENTES NUCLEARES (PIAN) ................................... 25
3.1 – Introdução ao Problema ................................................................................................. 25
3.2 – Modelagem Experimental .............................................................................................. 28
3.2.1 - O conjunto de dados ................................................................................................ 28
3.2.2 – Materiais e métodos ............................................................................................... 30
3.2.3 – O classificador ......................................................................................................... 31
3.2.4 – Inspirações para a resposta “não sei” ..................................................................... 31
3.2.5 – Novas Abordagens Propostas Para a Resposta “Não Sei” ....................................... 33
3.3 – Resultados Experimentais .............................................................................................. 34
3.3.1 – Classificação ............................................................................................................ 34
3.3.2 – Resposta “Não Sei” .................................................................................................. 37
3.4 – Análise dos Resultados ................................................................................................... 53
3.5 – Conclusões para o PIAN .................................................................................................. 55
4 - O PROBLEMA DE INFERÊNCIA DE TEMPERATURAS (PIT) ....................................................... 57
4.1 – Introdução ao Problema ................................................................................................. 57
4.2 – Inferência de Temperaturas ........................................................................................... 62
4.3 – Modelagem e Resultados Experimentais ....................................................................... 63
4.4 – Análise dos Resultados ................................................................................................... 80
4.5 – Conclusões para o PIT..................................................................................................... 82
5 - CONCLUSÕES .......................................................................................................................... 83
5.1 – RNPs Aplicadas ao PIAN ................................................................................................. 83
ix
5.2 – RNPs Aplicadas ao PIT .................................................................................................... 84
5.3 – Conclusões Finais e Trabalhos Futuros........................................................................... 84
REFERÊNCIAS BIBLIOGRÁFICAS ................................................................................................... 86
x
LISTA DE FIGURAS
Figura 2.1 – Modelo de neurônio MP (MCCULLOCH & PITTS, 1943). ................................... 6
Figura 2.2 – Perceptron (HAYKIN, 2007). .................................................................................. 7
Figura 2.3 – Exemplo de rede neural (a) rasa e (b) profunda (GOODFELLOW, 2016). ............ 8
Figura 2.4 – Publicações envolvendo inteligência artificial (PERRAULT, 2019). ..................... 9
Figura 2.5 – Definições básicas para redes neurais (adaptado de KARPATHY, 2019). ........... 10
Figura 2.6 – Função sigmoide logística (a) e tangente hiperbólica (b) e suas derivadas. .......... 13
Figura 2.7 – Análise dos níveis de ativação neuronal (GLOROT & BENGIO, 2010). ............. 13
Figura 2.8 – ReLU. .................................................................................................................... 14
Figura 2.9 – Rede neural auto-associativa (TSCHANNEN, 2018). ........................................... 15
Figura 2.10 – rede neural recorrente (adaptado de GOODFELLOW, 2015). ............................ 18
Figura 2.11 – Célula LSTM (adaptado de OLAH, 2015). ......................................................... 21
Figura 2.12 – Pseudocódigo para florestas aleatórias (ALVARENGA JÚNIOR, 2018). .......... 24
Figura 3.1 – Sistema elaborado por Mól et al. (2002). ............................................................... 32
Figura 3.2 – Matriz de confusão normalizada começando a análise aos 3 segundos. ................ 36
Figura 3.3 – Matriz de confusão normalizada começando a análise com 1 segundo. ................ 36
Figura 3.4 – RMAXZA: Matriz de confusão no conjunto combinado. ..................................... 39
Figura 3.5 – RMAXZA: Resposta do sistema segundo a segundo. ........................................... 39
Figura 3.6 – RMEDZA: Matriz de confusão no conjunto combinado. ...................................... 42
Figura 3.7 – RMEDZA: Resposta do sistema segundo a segundo. ............................................ 42
Figura 3.8 – PSO-RZA: Matriz de confusão no conjunto combinado. ...................................... 45
Figura 3.9 – PSO-RZA: Resposta do sistema segundo a segundo. ............................................ 45
Figura 3.10 – RAAR: Matriz de confusão no conjunto combinado. .......................................... 48
Figura 3.11 – RAAR: Resposta do sistema segundo a segundo. ............................................... 48
Figura 3.12 – A abordagem RAPUC. ........................................................................................ 50
Figura 3.13 – RAPUC: Matriz de confusão no conjunto combinado. ....................................... 52
Figura 3.14 – RAPUC: Resposta do sistema segundo a segundo. ............................................. 52
Figura 4.1 – RE para quatro temperaturas de envelhecimento (EPRI, 2010). ........................... 60
Figura 4.2 – Mapa de calor SICA (algumas variáveis) x SMO. ................................................ 64
Figura 4.3 – Exemplo de resultado de importância de variáveis................................................ 65
Figura 4.4 – Importância de variáveis para o componente “1 2”. .............................................. 67
Figura 4.5 – Importância de variáveis para o componente “3 5”. .............................................. 67
Figura 4.6 – Importância de variáveis para o componente “3 9”. .............................................. 68
Figura 4.7 – Importância de variáveis para o componente “3 50”. ............................................ 68
Figura 4.8 – Importância de variáveis para o componente “4 31”. ............................................ 69
Figura 4.9 – Resultado experimental para o componente “1 2”, abordagem A. ........................ 70
Figura 4.10 – Resultado experimental para o componente “3 5”, abordagem A. ...................... 70
Figura 4.11 – Resultado experimental para o componente “3 9”, abordagem A. ...................... 71
Figura 4.12 – Resultado experimental para o componente “3 50”, abordagem A. .................... 71
Figura 4.13 – Resultado experimental para o componente “4 31”, abordagem A. .................... 72
Figura 4.14 – Resultado experimental para o componente “1 2”, abordagem B. ...................... 72
Figura 4.15 – Resultado experimental para o componente “3 5”, abordagem B. ...................... 73
Figura 4.16 – Resultado experimental para o componente “3 9”, abordagem B. ...................... 73
Figura 4.17 – Resultado experimental para o componente “3 50”, abordagem B. .................... 74
Figura 4.18 – Resultado experimental para o componente “4 31”, abordagem B. .................... 74
Figura 4.19 – Resultado experimental para o componente “1 2”, abordagem C. ...................... 75
Figura 4.20 – Resultado experimental para o componente “3 5”, abordagem C. ...................... 75
Figura 4.21 – Resultado experimental para o componente “3 9”, abordagem C. ...................... 76
Figura 4.22 – Resultado experimental para o componente “3 50”, abordagem C. .................... 76
xi
Figura 4.23 – Resultado experimental para o componente “4 31”, abordagem C. .................... 77
Figura 4.24 – Resultado experimental para o componente “1 2”, abordagem D. ...................... 77
Figura 4.25 – Resultado experimental para o componente “3 5”, abordagem D. ...................... 78
Figura 4.26 – Resultado experimental para o componente “3 9”, abordagem D. ...................... 78
Figura 4.27 – Resultado experimental para o componente “3 50”, abordagem D. .................... 79
Figura 4.28 – Resultado experimental para o componente “4 31”, abordagem D. .................... 79
xii
LISTA DE TABELAS
Tabela 3.1 – Variáveis de estado. ............................................................................................... 28
Tabela 3.2 – Situações de operação da usina. ............................................................................ 29
Tabela 3.3 – Desempenho da rede iniciando 3 segundos após o início do transiente. ............... 35
Tabela 3.4 – Desempenho da rede iniciando no segundo de início do transiente. ..................... 35
Tabela 3.5 – RMAXZA: Revmax para cada situação operacional. ............................................... 38
Tabela 3.6 – RMAXZA: Performance nos três conjuntos. ........................................................ 38
Tabela 3.7 – RMAXZA: Exatidão do sistema (%)..................................................................... 40
Tabela 3.8 – RMEDZA: Revavg para cada situação operacional................................................. 41
Tabela 3.9 – RMEDZA: Performance nos três conjuntos. ......................................................... 41
Tabela 3.10 – RMEDZA: Exatidão do sistema (%). .................................................................. 43
Tabela 3.11 – PSO-RZA: raio para cada situação operacional. ................................................ 44
Tabela 3.12 – PSO-RZA: Performance nos três conjuntos. ....................................................... 44
Tabela 3.13 – PSO-RZA: Exatidão do sistema (%). .................................................................. 46
Tabela 3.14 – RAAR: para cada evento operacional. ................................................... 47
Tabela 3.15 – RAAR: Performance nos três conjuntos. ............................................................. 47
Tabela 3.16 – RAAR: Exatidão do sistema (%). ........................................................................ 49
Tabela 3.17 – RAPUC: para cada evento operacional. ................................................. 51
Tabela 3.18 – RAPUC: Performance nos três conjuntos. .......................................................... 51
Tabela 3.19 – RAPUC: exatidão do sistema (%). ...................................................................... 53
Tabela 3.20 – Exatidão média nos três conjuntos para cada abordagem. .................................. 53
Tabela 4.1 –Principais hiperparâmetros para as RNPs aplicadas ao PIT. .................................. 66
Tabela 4.2 – Configuração dos experimentos do PIT. ............................................................... 69
Tabela 4.3 – Resultados obtidos. ................................................................................................ 80
xiii
ACRÔNIMOS E ABREVIAÇÕES
AE – AutoEncoder;
DL – Deep Learning;
DRNN – Deep Rectifier Neural Network;
EFH – Engenharia de Fatores Humanos;
GPU – Graphics Processing Unit;
LSTM – Long Short-Term Memory;
ML – Machine Learning;
MLP – Multilayer Perceptron;
NRC – Nuclear Regulatory Comission;
PIAN – Problema de Identificação de Acidentes Nucleares;
PIT – Problema de Inferência de Temperaturas;
PSO – Particle Swarm Optimization;
RF – Random Forest;
RNA – Rede Neural Artificial;
RNP – Rede Neural Profunda;
RNR – Rede Neural Recorrente;
SGD – Stochastic Gradient Descent;
UN – Usina Nuclear.
1
CAPÍTULO 1
INTRODUÇÃO
1.1 – Contextualização e Motivação
As usinas nucleares (UNs) são sistemas complexos projetados e operados
baseados em normas e diretrizes rigorosas de segurança. Dadas as possíveis
consequências catastróficas decorrentes de eventos operacionais adversos, uma das
maiores prioridades desses ambientes é tipicamente manter o risco de um acidente tão
baixo quanto seja possível alcançar de maneira razoável. Assim, sistemas redundantes,
complexas análises de segurança, treinamentos exigentes e procedimentos operacionais
detalhados estão presentes de forma ubíqua nas UNs, o que faz com que,
historicamente, elas estejam entre as instalações de geração de energia elétrica mais
seguras do mundo (MARKANDYA & WILKINSON, 2007; KHARECHA &
HANSEN, 2013).
Sob este paradigma de segurança, é natural que a indústria de geração de energia
nuclear esteja particularmente interessada em absorver e implementar inovações no que
concerne à Engenharia de Fatores Humanos (NRC, 1981), testando-as e adaptando-as
para que auxiliem na tarefa desafiadora de aumentar, concomitantemente, o fator de
segurança e o fator de capacidade operacional da usina (MA & JIANG, 2011).
Entretanto, considerando os supracitados riscos da operação, é, outrossim,
compreensível que a mesma indústria seja cautelosa e reticente, adotando uma posição
conservadora ao incorporar apenas os avanços científicos que tenham atingido um grau
considerável de confiabilidade e maturidade tecnológica.
É nesse contexto que se encontra atualmente a inserção nas UNs do novo
paradigma de redes neurais artificiais (RNAs) chamado de aprendizado profundo
(GOODFELLOW et al., 2014): embora técnicas de inteligência artificial (RUSSELL &
NORVIG, 2009) incluindo redes neurais “tradicionais” e modelos estatísticos
sofisticados venham sendo estudados pela comunidade acadêmica há décadas para tratar
de problemas conhecidos nas usinas e aprimorar a eficiência e segurança dos processos
(BARTLETT & UHRIG, 1992; EMBRECHTS & BENEDEK, 2004; KWON & KIM,
1999; MÓL et al., 2010; MOSHKBAR-BAKHSHAYESH & GHOFRANI, 2013;
NICOLAU & SCHIRRU, 2017; PINHEIRO & SCHIRRU, 2019; ROVERSO, 2004), as
2
complexidades envolvidas no treinamento de redes neurais mais profundas (isto é, com
mais camadas ocultas), além de fenômenos como a saturação de neurônios (WANG et
al., 2004), dificultaram e limitaram por décadas a aplicação do aprendizado profundo
em uma miríade de áreas – incluindo a nuclear.
Cabe ressaltar que a RNA, enquanto técnica de aprendizado de máquina (do
inglês, machine learning – ML), não é particularmente nova. Sua concepção inicial
como modelo probabilístico para o armazenamento de informações inspirado no cérebro
humano é historicamente atribuída à McCulloch & Pitts (1943) e Rosenblatt (1957).
Desde então, a ideia de modelar computacionalmente o processo de pensamento
humano tem evoluído de forma conjunta com a tecnologia da computação, neurociência
e até mesmo com a criatividade dos pesquisadores. A despeito de alguns obstáculos
devidos a ceticismo, complicações matemáticas ou falta de poder computacional, as
RNAs têm sido aprimoradas com considerável sucesso como uma das mais poderosas
técnicas de aprendizado de máquina ao longo dos últimos 60 anos.
As redes neurais profundas (RNPs) são RNAs com diversas camadas internas
(também chamadas de camadas ocultas) de neurônios separando as camadas de entrada
e saída da rede. Mais especificamente, como definidas por Bengio & LeCun (2007), as
RNPs possuem “muitos níveis de componentes adaptativos não-lineares”, ao contrário
das tradicionais redes neurais (dali em diante comumente chamadas de redes neurais
“rasas”), com poucas camadas internas. Tal nomenclatura deu origem à área de
aprendizado profundo (do inglês, deep learning – DL) como sendo aquela que envolve,
principalmente, modelos de redes neurais profundas.
As RNPs possuem a habilidade de aprender através de exemplos e de modelar
complexas relações não-lineares entre esses exemplos. Sua vantagem em relação às
redes neurais rasas reside fundamentalmente no fato de que o aprendizado profundo
introduz o conceito de hierarquia de representações de características (GOODFELLOW,
2015), de modo que representações de características complexas são expressas em
termos de representações mais simples, distribuídas e aprendidas pela rede ao longo das
camadas durante o processo de treinamento. Com efeito, isso reflete a forma como é
entendido o funcionamento do cérebro: de forma hierárquica (LEWIS & VAN ESSEN,
2000).
3
Apesar de suas similaridades, há diferenças consideráveis no comportamento de
redes neurais profundas e rasas durante o treinamento. Há um número muito maior de
transformações parametrizadas não lineares que um sinal de entrada encontra conforme
se propaga da camada de entrada para a camada de saída, sendo cada transformação
realizada por uma unidade de processamento (neurônio) que possui parâmetros
treináveis, comumente chamados de pesos. Esse fato dificultou e, por décadas,
impossibilitou que se alcançasse qualquer resultado significativo com redes neurais
contendo mais de cerca de três camadas internas, tanto por uma questão de capacidade
computacional quanto por um problema fundamental – o Problema de Desaparecimento
de Gradiente (GLOROT & BENGIO, 2010) – que será descrito no Capítulo 2, e
consiste basicamente na perda da capacidade de aprendizado por parte das redes durante
a atualização de parâmetros por retropropagação do erro.
Felizmente, a combinação recente de avanços nas arquiteturas, como
computação de reservatório (LUKOŠEVIČIUS & JAEGER, 2009), redes neurais
convolucionais (FUKUSHIMA & WAKE, 1980; LECUN et al., 1989) e recorrentes
(HOCHREITER & SCHMIDHUBER, 1997; JORDAN, 1990), novos algoritmos de
treinamento e funções de ativação, tais como a ReLU (GLOROT & BORDES, 2011) e
ELU (CLEVERT & UNDERTHINER, 2015) possibilitaram a exploração de redes mais
complexas e eficientes. De fato, o aumento no número de publicações científicas
estudando as arquiteturas das assim chamadas redes neurais profundas vem crescendo
rapidamente desde circa 2006 (VARGAS et al., 2017), fornecendo resultados “estado
da arte” em diversas aplicações em diferentes áreas do conhecimento
(SCHMIDHUBER, 2015).
Entretanto, embora não seja difícil encontrar na literatura exemplos de resultados
notáveis utilizando redes neurais profundas nas mais diferentes aplicações, estas ainda
têm sido relativamente pouco estudadas na área de engenharia nuclear, onde os estudos
recentes mencionados mostram que elas potencialmente podem oferecer melhor
performance, menor tempo de treinamento e maior capacidade de generalização do que
outras técnicas de aprendizado de máquina quando aplicadas a problemas complexos da
engenharia nuclear.
4
1.2 – Objetivos
Esta pesquisa foi conduzida com o objetivo de analisar o comportamento de
redes neurais profundas em dois problemas complexos da área nuclear. São eles:
O problema de identificação de acidentes em usinas nucleares – PIAN
(NICOLAU & SCHIRRU, 2013), a partir de séries temporais de variáveis físicas de
um conjunto de acidentes de base de projeto postulados para a usina nuclear Angra
2, obtidas com dados simulados;
O problema de inferência de temperaturas – PIT, através de correlações com
variáveis físicas reais disponíveis nos sistemas de controle integrados na usina
nuclear Angra 1, para auxiliar na avaliação do tempo de vida útil restante de
equipamentos expostos a condições adversas de temperatura dentro do prédio de
contenção na usina.
Ambos os estudos de caso relatados neste trabalho foram realizados com
ineditismo na literatura acadêmica, até onde foram as pesquisas deste autor. De fato, não
foram encontrados trabalhos tratando do problema de inferência de temperaturas (PIT)
utilizando redes neurais profundas para estimativa de vida útil remanescente de
equipamentos em usinas nucleares. A relevância dessa aplicação em específico está em
dar suporte a uma tomada de decisão mais embasada no tocante à substituição ou não
dos equipamentos dentro do prédio de contenção do reator, potencialmente elevando o
nível de confiabilidade operacional da usina durante o período de extensão de vida útil,
ao mesmo tempo em que permitirá otimizar os gastos com manutenção e troca do
maquinário, enquanto que o PIAN é relevante na medida em que fornece ao operador
uma ferramenta de suporte à tomada de decisão capaz de alertá-lo acerca de um possível
transiente antes mesmo deste tomar consciência da possibilidade de ocorrência do
evento, aumentando assim o nível de segurança da planta. De forma geral, as
metodologias aplicadas são ainda contribuições relevantes na medida em que podem ser
facilmente estendidas e adaptadas a outros conjuntos de dados e situações similares nas
mais diversas indústrias e operações.
Já no que se refere à aplicação desse paradigma de redes para o PIAN, esta levou
à publicação de dois artigos por este autor (PINHEIRO et al., 2019; SANTOS et al.,
2019) e, quando da publicação destes, naturalmente também era pioneira, embora isso
esteja, felizmente, começando a mudar, com artigos aplicando o aprendizado profundo
5
nas usinas nucleares sendo publicados com mais constância. Seu valor está em atuar
como um sistema de engenharia de fatores humanos (EFH) para dar suporte à tomada de
decisão de operadores nas usinas nucleares para regularização da situação na hipótese
de um evento adverso, aumentando o fator de segurança operacional e eficiência das
mesmas e minimizando o risco de acidentes graves, como será mais bem descrito nos
capítulos subsequentes. Aqui, novamente, o sistema proposto é extensível a outras
indústrias e processos.
A relevância dessas pesquisas e estudos de caso talvez resida, entretanto,
principalmente em demonstrar o potencial que as redes neurais profundas possuem em
fornecer melhores resultados para os problemas e desafios clássicos da área de geração
de energia nuclear, além de mostrar caminhos plausíveis para o tratamento de
problemas complexos da área nuclear até então sem solução. Espera-se que os
resultados deste trabalho influenciem e possam motivar mais trabalhos e pesquisas
utilizando essa abordagem.
1.3 – Organização
No Capítulo 1 foi feita uma introdução sobre o cenário atual da aplicação de
redes neurais profundas à área da engenharia nuclear, seu potencial e importância.
Foram ainda apresentadas a motivação, inovação e relevância do trabalho e introduzida
qual será a abordagem aplicada: estudos de caso da performance de redes neurais
profundas a dois problemas complexos da área nuclear.
No Capítulo 2 será apresentada a fundamentação teórica das redes neurais
profundas, com foco nas arquiteturas desenvolvidas e aplicadas aos problemas
abordados neste trabalho.
O Capítulo 3 apresenta o primeiro estudo de caso, o PIAN.
O Capítulo 4 apresenta o segundo estudo de caso, o PIT.
O Capítulo 5 apresenta as conclusões gerais e sugestões para trabalhos futuros.
6
CAPÍTULO 2
FUNDAMENTAÇÃO TEÓRICA
2.1 – Breve Histórico
O desenvolvimento de unidades de processamento inspiradas nos neurônios
biológicos é historicamente atribuído inicialmente à McCulloch & Pitts (1943), com seu
modelo de neurônio artificial (conhecido atualmente como neurônio MP) que fora
baseado principalmente em estudos em neurologia da década de 30. Ilustrado na Figura
2.1, trata-se de um núcleo de processamento simples, que recebe entradas binárias
(vindas dos neurônios 1 e 2) e é capaz de fornecer uma saída também binária (saindo do
neurônio 3), desde que seja atingido um limiar de ativação neuronal. Tal modelo era
capaz de representar (ou melhor, mapear) algumas funções lógicas lineares.
Figura 2.1 – Modelo de neurônio MP (MCCULLOCH & PITTS, 1943).
Dezesseis anos depois, é postulada aquela que ficou conhecida como regra de
Hebb (1949), a respeito de como funciona o processo de aprendizagem do ponto de
vista neurobiológico: através do fortalecimento de conexões neuronais entre
determinados neurônios com a repetição de estímulos. Embora tal estudo tenha sido
feito no campo da neuropsicologia, o paradigma de neurônio artificial viria a ser
alterado para ao menos permitir esse novo conceito biológico, de forma tal a culminar,
em 1958, no modelo de neurônio artificial chamado perceptron (ROSENBLATT, 1958),
ilustrado na Figura 2.2. Sua principal diferença em relação ao neurônio MP é a presença
de pesos, “ ”, que representam a força das conexões entre cada entrada e o neurônio
de saída, permitindo o “aprendizado” por parte desse modelo de neurônio através do
ajuste desses pesos levando em consideração exemplos de treinamento conhecidos.
7
Figura 2.2 – Perceptron (HAYKIN, 2007).
Entretanto, a despeito do grande otimismo de Rosenblatt quanto ao futuro dos
perceptrons, Minsky (1969) publica, no livro Perceptrons, uma forte crítica ao modelo
de neurônio artificial e à, até então, recente1 abordagem conexionista para a inteligência
artificial. Em particular, Minsky argumenta que o perceptron ainda não era capaz de
representar funções não lineares (ou, mais exatamente, não linearmente separáveis) tais
como a função XOR, indicando que, para tal, seria necessária a concatenação de várias
camadas de perceptrons. Porém, até então não havia um algoritmo de aprendizado capaz
de fazer o ajuste de pesos para este caso. Esse fato, aliado aos avanços na abordagem
simbólica para a inteligência artificial (sistemas especialistas, algoritmos
evolucionários, árvores de decisão, etc.) levaram ao período chamado de “primeiro
inverno” para as redes neurais, com poucas aplicações e pesquisas na área.
Apenas 17 anos depois a abordagem conexionista voltou a prosperar, com
Rumelhart et al. (1986), ao revisitarem, expandirem e tornarem acessível a ideia de
retropropagação de erros – a qual fora proposta por Werbos (1974), mas sem muita
apreciação por parte da academia – para ajustes de pesos naquelas que passaram a ser
chamadas de redes neurais perceptron de múltiplas camadas (do inglês, multilayer
perceptrons – MLP). Seguiram-se a isso resultados teóricos importantes, como
Cybenko (1989), que enunciou o teorema da aproximação universal para redes neurais2.
O que se tinha, até então, eram redes neurais que funcionavam bem com uma ou
poucas camadas internas com quantidade razoável de neurônios, dadas as limitações
computacionais anteriores à democratização das unidades de processamento gráfico (do
1 Atribui-se o “nascimento” da inteligência artificial enquanto ciência formal à conferência de Dartmouth,
em 1956. 2 Enuncia que redes neurais, ainda que com uma única camada, com quantidade finita suficientemente
grande de neurônios podem, em teoria, aproximar funções arbitrariamente complexas.
8
inglês, Graphics Processing Units – GPU), e um estudo teórico robusto que embasava
as promessas de resultados notáveis que as redes neurais com uma camada poderiam
atingir. Por que, então, buscar redes neurais com várias camadas? Surpreendentemente,
ainda não há uma resposta definitiva para isso, porém o consenso geral entre os
cientistas é de que redes neurais mais rasas (isto é, com menos camadas internas de
neurônios), representada na Figura 2.3a, necessitam de uma quantidade
exponencialmente maior de neurônios para aproximar (mapear) a mesma função que
uma mais profunda (Figura 2.3b). Isso ocorre porque as redes neurais profundas
aprendem de forma hierárquica, com as camadas mais próximas da entrada se
especializando em aprender características mais simples do conjunto de dados de
treinamento que vão sendo combinadas em representações mais abstratas e de nível do
problema, o que foi confirmado apenas recentemente com estudos envolvendo a
interpretabilidade do aprendizado de máquina, como Zeiler & Fergus (2014).
Figura 2.3 – Exemplo de rede neural (a) rasa e (b) profunda (GOODFELLOW, 2016).
O fato, entretanto, é que não se tinha ainda uma forma eficiente de treinar essas
redes neurais mais profundas. O espaço da função de erro, que se quer minimizar, é
muito ruidoso nesses casos, com muitos mínimos locais. Além disso, foi relatado por
Hochreiter (1991, 1998) o problema de desaparecimento de gradiente, que aparece e se
intensifica com o aumento de profundidade das redes. Tais fatores, juntamente com a
falta de capacidade computacional, levaram a uma limitação no escopo de problemas
que as redes neurais eram capazes de resolver de forma eficiente, e consequentemente
ao “segundo inverno” para as redes neurais.
9
A formalização do conceito de aprendizado profundo (BENGIO & LECUN,
2007), formas de contornar as dificuldades relatadas, especialmente o desenvolvimento
de uma função de ativação que permitiu contornar o problema de desaparecimento de
gradiente (GLOROT, 2010), além do avanço das GPUs, tornaram possível e eficiente o
treinamento de redes neurais mais profundas, mas foi apenas por volta de 2012 que a
onda maciça de publicações envolvendo aprendizado profundo e suas aplicações
ocorreu, principalmente devido àquele que ficou conhecido como o “momento
ImageNet”, quando uma arquitetura de rede neural profunda (KRIZHEVSKY, 2012)
venceu por larga margem a competição de classificação de imagens “ImageNet”,
chamando a atenção de grandes empresas e concentrando investimentos na pesquisa e
desenvolvimento de sistemas envolvendo aprendizado profundo. A Figura 2.43 retrata a
propagação de artigos envolvendo inteligência artificial publicados em um repositório
ao longo da última década, fazendo com que o aprendizado profundo tenha produzido
resultados “estado da arte” em aplicações como processamento de imagens, visão
computacional, reconhecimento de fala, tradução automática, arte, imagiologia médica,
processamento de informação médica, robótica e controle, bioinformática,
processamento de linguagem natural, cibersegurança e muitos outros (ALOM et al.,
2019; SCHMIDHUBER, 2015).
Figura 2.4 – Publicações envolvendo inteligência artificial (PERRAULT, 2019).
2.2 – O Problema do Desaparecimento de Gradiente
3 Nos rótulos da figura, respectivamente, lê-se: inteligência artificial, computação e linguagem, visão
computacional e reconhecimento de padrões, aprendizado de máquina, computação neural e evolucionária
e, por fim, robótica.
10
O principal impedimento, do ponto de vista teórico, para que as redes profundas
pudessem ser treinadas com os algoritmos clássicos de retropropagação de gradiente
(HAYKIN, 2007) é o chamado problema de desaparecimento de gradiente. De fato, ele
é tão importante que ficou conhecido como o “problema fundamental do deep learning”
(SCHMIDHUBER, 2015). É importante notar que, embora tenha sido documentado
desde o início da década de 90 na literatura (BENGIO et al., 1994; HOCHREITER,
1991), o desaparecimento de gradiente só foi contornado de maneira eficiente para redes
neurais progressivas4 (do inglês, feedforward – FF) quando da introdução das funções
de ativação retificadas (GLOROT et al., 2011). Mas antes de explica-lo, são importantes
algumas definições básicas referentes às redes neurais, ilustradas na Figura 2.5:
Figura 2.5 – Definições básicas para redes neurais (adaptado de KARPATHY, 2019).
∑ pré-ativação neuronal;
( ) ativação neuronal; resultado da aplicação da função de ativação não-linear
à pré-ativação. Em particular, na Figura 2.5b, , uma função sigmoide logística;
saída da rede, equivalente, portanto, à ;
valor conhecido de saída, também chamado de alvo (do inglês, target);
viés (do inglês, bias). Funciona como o coeficiente linear da função afim de pré-
ativação, e nas redes neurais modernas tem, entre outras, as funções de aumentar a
flexibilidade do modelo e influenciar nas ativações neuronais.
: função de erro (do inglês, “loss function”); compara à de forma a medir a
performance da rede durante o treinamento.
4 Isto é, cujos sinais se propagam pelos neurônios em apenas um sentido, tipicamente da entrada para a
saída, ao contrário de redes com conexões de retroalimentação, definidas mais à frente.
11
Com essa notação tem-se, por exemplo, para o primeiro neurônio na segunda
camada interna (Figura 2.5a):
∑
( )
O algoritmo de retropropagação para o treinamento das redes baseado no método
do gradiente descendente (do inglês, stochastic gradient descent – SGD), também
conhecido como regra delta, consiste, basicamente, em:
Fornecer um exemplo (do inglês, sample) de treinamento (entradas) para a rede, que
calculará sua saída correspondente, dados os pesos (e vieses) atuais, inicializados
aleatoriamente;
Calcular o erro entre a saída da rede ( ) e o valor conhecido ( ) para tal exemplo;
Retropropagar o erro para cada um dos pesos da rede, segundo a seguinte
expressão5:
O problema de desaparecimento de gradiente usualmente aparece durante o
treinamento de RNPs utilizando métodos baseados em gradiente para o aprendizado das
redes: à medida que os valores de pré-ativação neuronal tornam-se muito grandes (em
valor absoluto), o gradiente computado pela derivada do erro nessas camadas torna-se
pequeno (fenômeno conhecido como “saturação de neurônio”). Consequentemente, o
gradiente, utilizado para ajustar os pesos da rede, tende a ficar cada vez mais próximo
de zero conforme o erro vai sendo retropropagado através da regra da cadeia. Assim, as
primeiras camadas internas da rede terão gradiente desprezível, e seu impacto no ajuste
dos pesos será ínfimo, tornando o processo de aprendizado tão lento a ponto de ser
impraticável (ver Figura 2.7).
5 Na prática, embora o erro seja calculado exemplo a exemplo, o ajuste dos pesos da rede não é
tipicamente realizado nessa freqüência, como no SGD, mas sim realizado em bateladas (do inglês,
batches), por razões computacionais, de eficiência e de estabilidade de treinamento, sendo o tamanho da
batelada é um dos hiperparâmetros a definir. Isso dá origem aos termos “batch gradient descent" (quando
o tamanho do batelada é o tamanho do conjunto de dados de treino) e “mini batch gradient descent”,
quando o conjunto de dados é dividido em grupos (mais comum).
12
De fato, calculando explicitamente as taxas de variação do erro em relação a
cada um dos pesos destacados na Figura 2.5a, tem-se, adotando a função simples de erro
quadrático ( )
e desconsiderando os termos referentes aos vieses, para
simplificar a notação (sem prejuízo da argumentação):
( ) ( )
( ) ( )
( )
( ) ( ) ,
( ) ( )
( )
( ) -
Assim, as RNPs que, seguindo o exemplo das redes neurais rasas, eram
tradicionalmente ativadas com funções sigmoides (HAYKIN, 2007) são bastante
afetadas pelo desaparecimento de gradiente conforme se desenvolvem em profundidade,
pois estas saturam muito rapidamente. As funções sigmoide logística e tangente
hiperbólica, por exemplo, definidas como ( )
(Figura 2.6a) e ( )
( ) (Figura 2.6b), possuem limites assintóticos entre 0 e 1 e -1 e 1,
respectivamente, conforme suas entradas se aproximam de 4 ou -4, como pode ser
observado na Figura 2.6. Nessas regiões, suas derivadas se aproximam de zero e o
gradiente tende a desaparecer.
13
Figura 2.6 – Função sigmoide logística (a) e tangente hiperbólica (b) e suas derivadas.
Glorot & Bengio (2010) realizaram um estudo aprofundado a respeito de redes
neurais profundas com funções de ativação sigmoides e mostraram que, de fato, a
ativação de neurônios nas camadas mais profundas da rede se aproxima de zero (Figura
2.7, mostrando que a partir da camada 4 o valor da ativação fica próximo de zero muito
rapidamente). Quando isso ocorre, se está efetivamente zerando o aprendizado dos
pontos ligados àquele neurônio saturado, fazendo-as apresentar um desempenho ruim,
com treinamento lento que converge tipicamente para mínimos locais.
Figura 2.7 – Análise dos níveis de ativação neuronal (GLOROT & BENGIO, 2010).
2.3 – Redes Neurais Profundas Retificadas
GLOROT et al. (2011), então, propuseram um novo tipo de arquitetura,
chamada de rede neural profunda retificada (do inglês, deep rectifier neural network –
14
DRNN), que utiliza uma função de ativação retificada chamada de ReLU (rectified
linear unit), definida como ( ) ( ), para ativar os neurônios das camadas
internas. Como se pode observar na Figura 2.8, tal função não sofre com o problema de
desaparecimento de gradiente por apresentar comportamento linear no domínio positivo,
de maneira que o gradiente fluirá bem para os neurônios ativos durante a
retropropagação.
Figura 2.8 – ReLU.
Adicionalmente, segundo os autores, tal função de ativação introduz uma
esparsividade que é mais biologicamente plausível, ao emular melhor o funcionamento
do cérebro. Os autores argumentam que estudos indicam que os neurônios biológicos
codificam informação de maneira esparsa e distribuída, com percentual de neurônios
ativos ao mesmo tempo entre 1 e 4%. A ReLU, nesse sentido, por construção inativa
cerca de 50% dos neurônios a cada fase do treinamento (aqueles cuja pré-ativação será
negativa ou nula), ao passo que funções sigmoides geram uma representação densa dos
pesos, com quase 100% deles continuamente ativos ao mesmo tempo.
As DRNN, portanto, são redes neurais profundas progressivas ativadas nas
camadas internas por funções ReLU. Naturalmente, devido ao triunfo dessa função de
ativação, diversas outras funções retificadas similares foram propostas na literatura,
como ELU, SELU, Leaky-ReLU, GELU, ISRU, Swish, entre outras (NWANKPA,
2018). Embora algumas forneçam resultados interessantes em alguns problemas
específicos, a maior parte das aplicações científicas e comerciais ainda utiliza a ReLU,
pois esta tem fornecido bons resultados de maneira robusta e consistente.
15
2.4 – Redes Neurais Auto-Associativas
As redes neurais auto-associativas (do inglês, autoencoders – AE) são redes
projetadas e treinadas para aprenderem a copiar os seus sinais de entrada (KRAMER,
1992). A arquitetura de uma rede neural autoencoder rasa tradicional (também chamada
de “vanilla autoencoder”) é composta por uma camada de entrada, uma camada interna
e uma camada de saída. O advento do paradigma de redes neurais profundas levou à
implementação de autoencoders profundos com várias camadas, nos quais as camadas
de entrada e saída possuem a mesma quantidade de neurônios, enquanto que as camadas
internas possuem tipicamente menos neurônios, formando uma representação codificada
dos dados (representada por na Figura 2.9). Como tal, as redes neurais autoencoder
fazem parte da classe de aprendizado de máquina não supervisionado, definido como
aquele capaz de descobrir padrões ou características nos dados sem o fornecimento de
classes (labels) pré-definidas, diferenciando-se das aplicações de aprendizado
supervisionado, nas quais tanto os dados de entrada quanto os esperados de saída
(targets) são fornecidos à rede para o treinamento6.
Figura 2.9 – Rede neural auto-associativa (TSCHANNEN, 2018).
O propósito inicial dessa arquitetura era realizar compressão de dados ou
redução da dimensionalidade no espaço de características em aplicações de
processamento de informação (BOURLARD & KAMP, 1988). No seu processo de
aprendizado, a AE inicialmente comprime a entrada em um espaço de menor dimensão
para obter sua codificação, a qual é posteriormente decodificada através da reconstrução
para a dimensão original. Esse segundo processo é feito através do cálculo das
diferenças entre a entrada original e seus valores reconstruídos (KRAMER, 1992),
6 Há ainda uma série de outras formulações e terminologias, como aprendizado autossupervisionado,
aprendizado semissupervisionado, meta-aprendizado, etc, as quais fogem ao escopo deste trabalho.
16
chamado de erro de reconstrução, a partir do qual os pesos da rede são ajustados
utilizando algum algoritmo de treinamento que diminua esse erro.
Após o treinamento, portanto, a AE tenderá a fornecer erros de reconstrução
muito grandes para entradas que difiram daquelas utilizadas no treinamento, devido ao
fato de que a rede não será capaz de decodificá-las a partir de sua projeção em menor
dimensão (isto é, após ter se especializado em codificar e decodificar os dados de treino,
informações diferentes destes tenderão a ser consideradas dados espúrios pela rede).
Isso torna essa arquitetura de redes particularmente adequada para tarefas como
detecção de novelties, a qual constitui, juntamente com a detecção de outliers
(AGGARWAL, 2015) uma parte da área de detecção de anomalias e consiste em
identificar se um sinal de entrada é suficientemente diferente daqueles utilizados para o
treinamento de algum modelo (AMARBAYASGALAN et al., 2018).
A variante profunda dos autoencoders, chamada de deep autoencoder
(AGGARWAL, 2018), possui o mesmo objetivo que a rede AE tradicional, porém conta
com vários estágios de codificação e decodificação do sinal de entrada empilhados
sequencialmente (ZHOU et al., 2014). Assim, ela tem a capacidade de discriminar,
captar e representar de forma hierárquica e eficiente características complexas dos
dados brutos de entrada (ZHOU & PAFFENROTH, 2017). A DAE tem sido utilizada,
por conta disso, com sucesso em aplicações modernas de detecção de anomalias
(AMARBAYASGALAN et al., 2018; GUTOSKI et al., 2017; ZONG et al., 2018).
2.5 – Redes Neurais Recorrentes (RNRs)
As redes neurais recorrentes (GOLLER & KUCHLER, 1996) são arquiteturas
particularmente adequadas para lidar com problemas de aprendizado de sequências.
2.5.1 – Problema de aprendizado de sequências e as RNRs
Redes neurais progressivas permitem, por construção, apenas que os sinais se
propaguem através de suas camadas em uma direção (ver Figura 2.5), e, portanto,
implicitamente assumem que há independência entre cada um dos exemplos de
treinamento e teste. Dessa forma, ao ser finalizado o processamento de cada exemplo, o
estado, isto é, o conhecimento adquirido a respeito daquele exemplo em particular, é
perdido (embora ele ainda esteja, filosoficamente, guardado indiretamente na forma da
transformação dos pesos da rede durante o treinamento). Em casos em que os exemplos
17
são, de fato, independentes entre si, isto não representa um problema, mas caso
contrário – como é típico na modelagem de séries temporais, palavras, frases ou frames
de um vídeo – existe uma relação sequencial entre cada um dos dados, e tais problemas
são caracterizados, portanto, como aprendizado de sequências (LIPTON et al., 2015).
Há duas formas principais de fornecer às redes neurais a capacidade de
incorporar informações sobre o contexto sequencial: coletando os inputs na forma de
“janelas deslizantes” sequenciais de tamanho fixo ou adicionando conexões de
retroalimentação ao paradigma de rede neural progressiva para modelar o fluxo
sequencial diretamente. As redes neurais recorrentes (RNR) nascem7, portanto, dessa
segunda abordagem, ao adicionar tais conexões de retroalimentação (feedback) em um
grau arbitrário de complexidade. Tratam-se de modelos conexionistas Turing-completos
(SIEGELMANN & SONTAG, 1992) por construção temporalmente profundos com a
habilidade de transmitir informação dinamicamente ao longo dos passos da sequência,
formando uma espécie de “memória”. Além disso, tais redes, ao processarem cada
exemplo de maneira sequencial, adicionam a flexibilidade (bastante desejada nesse tipo
de aplicação) de lidar com sequências de tamanho variável, permitindo com que seja
definida, com certo grau de liberdade, quanta informação a rede deve receber antes de
fornecer uma saída, algo que não seria possível com a modelagem de janela deslizante
para as redes neurais progressivas (com entradas de tamanho fixo).
A figura 2.10 ilustra uma rede neural recorrente e seu “desdobramento” ao longo
dos passos da sequência8. O estado interno (muitas vezes denotado como ) é o
responsável pela acumulação e, portanto, memória dos pontos anteriores na sequência.
7 Historicamente, na verdade, podem ser consideradas uma evolução das redes de Hopfield (1982), as
quais, por sua vez, foram possivelmente inspiradas por Little (1974), mantendo inclusive algumas das
suas terminologias (como o conceito de “estados”) até hoje. 8 Na nomenclatura de redes neurais recorrentes, usam-se os termos passos de tempo e elementos da
sequência de forma intercambiável.
18
Figura 2.10 – rede neural recorrente (adaptado de GOODFELLOW, 2015).
As redes neurais recorrentes tradicionais, entretanto, por serem treinadas com
variações dos métodos de otimização por gradiente, como a retropropagação no tempo
(WERBOS, 1990), também sofrem do problema de desaparecimento de gradiente, tendo
sido mostrado que elas não guardam adequadamente informação sobre passos anteriores
da sequência da ordem de mais de uma dezena (HOCHREITER et al., 2001). Além
disso, não possuem mecanismos que as permitam discriminar seletivamente quais
aspectos da sequência devem ser guardados, esquecidos e transmitidos ao longo de seu
processamento. Esses fatores, principalmente, limitaram bastante a sua aplicabilidade e
motivaram a busca por uma arquitetura de rede neural robusta e mais eficiente.
De fato, a retropropagação no tempo consiste, tal como numa rede neural FF, em
inicializar cada um dos parâmetros (U, V e W, seguindo a notação da Figura 2.10)
aleatoriamente, fornecer exemplos de dados de entrada ( ) para os quais conhece-se a
saída correta ( ) e ajustar os parâmetros de maneira a minimizar o erro ( ) entre a saída
fornecida pela rede ( ) e de acordo com o gradiente descendente:
19
Sendo, neste caso:
( )
( )
com e (ou e ), na aplicação comum de sequências temporais) sendo o
passo sequencial atual e anterior, respectivamente. Fazendo ainda, por exemplo,
( ) ( ( ) )
onde:
* +
tem-se para, por exemplo, o quarto passo da sequência:
( )
( )
O termo
leva a multiplicações sucessivas (pois depende de , que
depende de , etc.) da derivada da função de ativação. Supondo-a sigmoide logística,
esse valor está limitado (Figura 2.6a) entre e
:
(
)
∏
levando, Q.E.D., ao problema do desaparecimento de gradiente9. Ao longo dos anos, os
pesquisadores buscaram solucionar ou contornar esse problema e aproveitar o potencial
das RNRs de várias formas, como:
Funções de ativação alternativas, como a ReLU e suas variantes;
Clipagem de gradiente;
Pré-treinamento não-supervisionado;
9 A rigor, as RNRs também estão sujeitas, da mesma forma, ao problema de explosão de gradiente
(fazendo com que o treinamento divirja), além do desaparecimento de gradiente, que pode advir das
multiplicações sucessivas do peso da conexão recorrente no caso e , respectivamente.
Porém, a explosão de gradiente é mais simples de evitar, utilizando clipagem de gradiente.
20
Busca de pesos por métodos alternativos como os algoritmos evolucionários;
Algoritmos de força bruta (do inglês, brute force algorithms), contando com poder
computacional para transmitir a informação;
etc.
Mas foi na utilização de arquiteturas alternativas que contornam o problema,
como as redes de estado de eco (JAEGER, 2001) e as redes de longa memória curta (do
inglês, long short-term memory – LSTM), propostas por Hochreiter & Schmidhuber
(1997) que as RNRs triunfaram.
2.5.2 – Long short-term memory (LSTM)
As redes neurais Long Short-Term Memory (HOCHREITER &
SCHMIDHUBER, 1997) são arquiteturas de redes neurais recorrentes que buscam
melhorar o fluxo do erro durante o treinamento das RNR tradicionais, afastando-as do
problema de desaparecimento do gradiente e tornando possível à rede guardar a
informação de centenas de passos anteriores na sequência de forma seletiva.
Uma camada LSTM consiste de um ou mais blocos conectados de forma
recorrente, conhecidos como blocos de memória, ou células LSTM (Figura 2.11). Cada
bloco contém, tipicamente, três unidades multiplicativas, chamadas de portões de
entrada, saída e esquecimento, que controlam seletivamente, respectivamente, as
operações de escrita, leitura e exclusão de informações no estado das células ( ),
mantendo-o relativamente protegido durante o processo de atualização dos pesos. Mais
especificamente, a entrada para a célula é multiplicada pela ativação do seu portão de
entrada, a saída da célula é multiplicada pela ativação do portão de saída e os valores
anteriores armazenados no estado da célula são multiplicados pela ativação do portão de
esquecimento. Matematicamente, e utilizando a notação da Figura 2.11, a célula LSTM
pode ser representada como segue, sendo o estado interno da célula e seu estado
oculto que, em última instância, é dado como saída:
21
Figura 2.11 – Célula LSTM (adaptado de OLAH, 2015).
o portão de esquecimento seletivamente “esquece-se” de informações irrelevantes na
sequência:
( , - )
o portão de entrada identifica a nova informação a ser armazenada, e consiste na etapa
sigmoide logística, que decide o que deve ser atualizado, e na etapa tanh, que elabora
um vetor com possíveis valores a adicionar ao estado da célula:
( , - )
( , - )
na etapa de atualização do estado da célula, é aplicada a operação de esquecimento ao
estado anterior da célula, e são adicionados os possíveis valores, parametrizados pelo
quanto decidiu-se atualizar:
finalmente, o portão de saída fornece uma versão “filtrada” do estado da célula:
( , - )
( )
Ao discretizar, dessa forma, as funções de cada parte da célula, há apenas
multiplicações matriciais elemento a elemento (produtos de Hadamard) combinadas por
uma soma na atualização do estado da célula. Dessa forma, ao retropropagar o erro, o
fluxo do gradiente não tende a ser interrompido. De fato, lembrando que, nas RNN
22
“tradicionais”, aplicações sucessivas de
são precisamente o que leva ao problema
de desaparecimento de gradiente, resta saber como a LSTM evita que esse termo vá a
zero. Reescrevendo o termo referente ao estado da célula LSTM:
( , -) ( , -) ( , -)
tem-se que o fluxo de gradiente pelo estado da célula nas LSTM é:
( , -)
( ( , -) ( , -))
ou seja:
( , -)
Assim, o gradiente comporta-se de maneira similar ao termo do portão de
esquecimento. Isto é, tenderá a ser aproximadamente um tantas vezes quantas a rede
“decidir” que uma parte da informação deve ser lembrada.
Em última instância, isso significa que o gradiente não irá a zero rapidamente,
como ocorre nas RNN tradicionais, tendo sido reportados resultados experimentais em
que a LSTM consegue guardar informação de mil pontos anteriores na sequência
(HOCHREITER & SCHMIDHUBER, 1997).
A LSTM, juntamente com a arquitetura de redes neurais convolucionais (do
inglês, convolutional neural networks – CNN), propostas por LeCun et al. (1989) tem
sido responsável por boa parte do sucesso na aplicação de modelos de aprendizado
profundo nas mais diversas áreas, atingindo resultados estado da arte em campos como:
análise proteica, reconhecimento de escrita manual, detecção de voz, reconhecimento
ótico de caracteres, tradução automática, identificação de idiomas, análise de
sentimento, modelagens de séries temporais em geral, entre outros (SCHMIDHUBER,
2015).
23
2.6 – Floresta Aleatória
Como será descrito mais a frente, a técnica de aprendizado de máquina floresta
aleatória (do inglês, random forests – RF), proposta por Breiman (2001), embora não
pertença à classe de redes neurais, mas sim de geração de agregados de árvores de
decisão (do inglês, decision tree ensembles), foi utilizada (Seção 4.3) como parte de um
sistema para “filtrar” as variáveis físicas mais relevantes, dentro de um escopo de cerca
de 150 variáveis, para serem alimentadas às RNPs na modelagem de regressão no
problema de inferência de temperaturas, num processo conhecido como importância de
variáveis (do inglês, feature importance – FI) por permutação, descrito em Altmann et
al. (2010).
As florestas aleatórias tratam-se de um modelo relativamente barato
computacionalmente e altamente interpretável (quando comparado às redes neurais,
cujas principais desvantagens são o custo computacional e apresentarem características
de modelos “caixas-pretas”), fazem parte da classe de algoritmos supervisionados de
aprendizado de máquina e consistem no “ensacamento” (do inglês, bagging) de árvores
de decisão. Tais algoritmos objetivam obter árvores que se ajustem bem aos dados, ao
mesmo tempo em que sejam tão pouco correlacionadas (i.e. com baixa covariância)
entre si quanto possível, o que é feito em geral selecionando amostras aleatoriamente
com reposição (do inglês, bootstrapping) do conjunto de dados. A ideia é que os valores
de predição de cada uma das árvores sejam combinados de alguma forma e seus desvios
individuais em relação ao valor esperado, por serem pouco correlacionados devido ao
bagging, tendam a se anular, fornecendo uma resposta mais acurada do que as respostas
de cada árvore individual.
Formalmente, para o caso de florestas aleatórias aplicadas à classificação10
:
“Uma floresta aleatória é um classificador que consiste em uma coleção de
classificadores individuais em formato de árvores de decisão * ( ) +
onde os * + são vetores aleatórios independentes identicamente distribuídos no
espaço, e cada um „vota‟ para eleger qual a classe mais popular para a entrada .”
(BREIMAN, 2001, em tradução livre).
10
A aplicação de florestas aleatórias para regressão é análoga, variando basicamente a forma como são
interpretadas e calculadas as funções de erro e demais métricas. Ver Denil et al. (2014) para mais
detalhes.
24
A Figura 2.12 ilustra o pseudocódigo para florestas aleatórias simples. Ao longo
dos anos, o modelo de RF alcançou sucesso considerável em uma grande variedade de
aplicações e inspirou diversas modificações e técnicas mais avançadas de agrupamento
de árvores de decisão (PRETORIUS et al., 2017).
Figura 2.12 – Pseudocódigo para florestas aleatórias (ALVARENGA JÚNIOR, 2018).
25
CAPÍTULO 3
O PROBLEMA DE IDENTIFICAÇÃO DE ACIDENTES NUCLEARES (PIAN)
3.1 – Introdução ao Problema
As usinas nucleares são projetadas e operadas baseando-se em padrões e
diretrizes estritamente definidos. A análise de segurança de uma usina nuclear busca
tornar tão baixa a probabilidade de um acidente radiológico quanto seja razoável atingir,
a despeito do grande risco inerente ao inventário de radiação no núcleo do reator.
Portanto, princípios de redundância, diversos sistemas de segurança e de defesa em
profundidade são aplicados desde a etapa de concepção e projeto, de modo a garantir
um elevado nível de confiabilidade e previsibilidade (O‟HARA et al., 1994).
O problema de identificação de acidentes nucleares (PIAN) é um problema
complexo da área nuclear de grande relevância para a segurança da planta, que vem
sendo estudado ao longo dos anos (MA & JIANG, 2011). Na ocorrência de um
transiente, é possível observar a evolução temporal das variáveis físicas envolvidas
através das leituras dos instrumentos da sala de controle, a começar pela operação em
estado estacionário. Tal evolução no tempo de cada uma das possivelmente dezenas de
variáveis envolvidas fornece uma curva específica – um padrão – único (em teoria) com
respeito àquele tipo de acidente/transiente (JEONG et al., 1996), tornando a sua análise
útil para identificar o evento que está ocorrendo. O PIAN pode, assim, ser encarado
como um problema de reconhecimento de padrões, onde sintomas relevantes compostos
por um grupo de variáveis da planta são representativos do acidente.
Um sistema de diagnóstico automatizado capaz de identificar o evento
operacional de forma rápida e robusta é uma ferramenta valiosa de suporte à tomada de
decisão aos aos operadores da sala de controle, na medida em que permite a eles
atuarem mais rapidamente para retornar a usina à operação normal, ou proceder com o
seu desligamento preventivo, conforme protocolo.
Como já sugerido, diversos métodos estatísticos e técnicas de inteligência
artificial foram testados na literatura científica com vistas a resolver o PIAN (ver MA &
JIANG, 2011, para uma revisão bibliográfica, além de KWON & KIM, 1999; MOL et
al., 2002; EVSUKOFF & GENTIL, 2005; NICOLAU & SCHIRRU, 2017; PENG et al.,
2018; PINHEIRO, 2018). Dentre estas abordagens, as redes neurais têm sido
26
exploradas, sejam sozinhas ou combinadas em sistemas híbridos, como ferramentas
para identificar automaticamente os padrões de saída dos instrumentos durante o
transiente ou acidente, os quais serão diferentes dos observados na operação normal.
De fato, a evolução no desempenho das redes neurais para o PIAN acompanha
diretamente a notável evolução das próprias redes neurais ao longo das décadas: desde
as primeiras publicações no assunto, como BARTLETT & UHRIG (1992), até outros
trabalhos envolvendo arquiteturas mais recentes (EMBRECHTS & BENEDEK, 2004;
ROVERSO, 2004), as redes neurais avançaram de técnicas que não eram capazes de
identificar os transientes rápido o suficiente até uma alternativa poderosa que pode lidar
com cenários numerosos de acidentes em tempo real ou mesmo em uma janela de tempo
de quase-equilíbrio (MOSHKBAR & GHOFRANI, 2013). Entretanto, a dificuldade em
identificar transientes com evolução rápida e modelar dados com dependências
temporais são problemas tradicionais e recorrentes das aplicações de redes neurais ao
PIAN.
Paralelamente, dada a característica de “mundo aberto”11
desse e da vasta
maioria dos problemas práticos de classificação de padrões (SCHEIRER, 2014), é
importante que o classificador seja capaz de considerar todos os outros objetos fora do
escopo de interesse como potenciais negativos, isto é, não pertencentes a nenhuma das
classes conhecidas, ao invés de atribuí-los à classe mais similar conhecida (treinada).
Além disso, dado que as usinas nucleares são sistemas críticos do ponto de vista de
segurança, é igualmente importante que a rede forneça respostas assertivas apenas
quando ela tiver um grau suficiente de confiança naquela classificação, de maneira a
não fornecer informações conflitantes ou, pior, equivocadas aos operadores, podendo
influenciá-los a conduzir a planta a um estado mais grave que o atual, com
consequências possivelmente catastróficas. A solução para tais complicadores é equipar
o sistema com a capacidade de fornecer uma resposta “não sei” (KARMAKAR & PAL,
2018) para eventos fora do escopo da modelagem ou para os quais a rede não seja capaz
de fornecer uma resposta assertiva. Alguns exemplos notáveis de trabalhos que buscam
atingir esse objetivo, com redes neurais ou outros classificadores, são:
11
Problemas de classificação de mundo aberto são aqueles em que há apenas algumas classes que o
sistema é capaz de reconhecer em um grande espaço de todas as classes conhecidas, já que não é
necessário (ou possível), neste caso, treinar o sistema com todos os possíveis transientes operacionais.
27
1. Ha (1997) com rejeição seletiva por classe como uma alternativa à rejeição simples
para reduzir erros de classificação em situações nas quais os inputs não puderem ser
atribuídos a uma das classes conhecidas de maneira confiável;
2. Mol et al. (2002), que consiste em uma arquitetura de RNA com saltos (do “inglês,
jump type ANN”) combinada a um modelo de rede auto-associativa. Boa parte da
abordagem realizada com redes neurais profundas apresentado neste trabalho teve
como inspiração esse artigo;
3. Chakraborty & Pal (2002) desenvolveram um esquema de treinamento de redes
neurais que consiste em treinar “sub-redes” para cada classe, de maneira que estas
não respondam a pontos fora do escopo dos dados de treinamento;
4. Jain et al. (2014) calculam o teorema do valor extremo para cada classe e estima a
máxima verossimilhança de parâmetros de uma distribuição de Weibull;
5. Scheirer et al. (2014) introduziram um modelo de reconhecimento em problemas de
“mundo aberto” chamado de redução compacta de probabilidades (do inglês,
compact abating probability – CAP) onde a probabilidade de pertencimento a uma
classe diminui conforme o candidato distancia-se dos dados conhecidos em direção
ao espaço aberto;
6. Bendale & Boult (2015) propõem um algoritmo de não-outlier mais próximo (do
inglês, nearest non-outlier – NON) que adiciona categorias de forma incremental
enquanto detecta outlier e gere o risco de espaço aberto;
7. Nicolau & Schirru (2017) aplicaram o algoritmo evolucionário de inspiração
quântica (do inglês, quantum evolutionary algorithm – QEA) combinada com a
teoria de vizinho mais próximo dos diagramas de Voronoi para clusterizar áreas de
influência para cada evento conhecido, fornecendo a resposta “não sei” para aqueles
fora dessa área.
Nesse contexto, a motivação dessa aplicação foi explorar combinações de
arquiteturas, procedimentos de treinamento e funções de ativação centralizados em
redes neurais profundas para atuarem como base a um sistema robusto capaz de
diagnosticar de forma rápida e acurada acidentes nucleares e fornecer ainda a resposta
“não sei”. O diferencial deste estudo reside, portanto, em abordar o problema utilizando
modelos de aprendizado profundo otimizados com as arquiteturas de RNPs. O sistema
foi desenvolvido e testado utilizando dados de operação simulados para a usina nuclear
de reator de água pressurizada (PWR) Angra 2, localizada na região sudeste do Brasil.
28
3.2 – Modelagem Experimental
3.2.1 - O conjunto de dados
Neste estudo de caso foi utilizado um conjunto de dados, obtidos por Alvarenga
(1997) em um simulador de referência para a usina Angra 2, composto por assinaturas
temporais de 61 segundos envolvendo 16 variáveis físicas, listadas na Tabela 3.1, para
13 cenários de operação (12 acidentes postulados mais a operação normal, enumerados
na Tabela 3.2). O objetivo é, novamente, aplicar técnicas de redes neurais profundas de
maneira a obter um sistema eficiente e robusto ao ruído que seja capaz de identificar, o
quanto antes possível, a qual situação operacional cada evolução temporal das variáveis
de estado corresponde, além de fornecer a resposta “não sei” para eventos que
porventura estejam fora do escopo de treinamento ou para os quais a rede não seja capaz
de fornecer uma resposta confiável.
Tabela 3.1 – Variáveis de estado.
Código Variável Unidade
1 Vazão percentual no núcleo %
2 Temperatura na perna quente ºC
3 Temperatura na perna fria ºC
4 Vazão no núcleo kg/s
5 Nível percentual no gerador de vapor – faixa larga %
6 Nível percentual no gerador de vapor – faixa estreita %
7 Pressão no gerador de vapor MPa
8 Vazão de água de alimentação kg/s
9 Vazão de vapor kg/s
10 Vazão no circuito primário kg/s
11 Pressão no sistema primário MPa
12 Potência térmica percentual %
13 Potência nuclear percentual %
14 Margem de subresfriamento ºC
15 Nível percentual do pressurizador %
16 Temperatura média no primário ºC
29
Tabela 3.2 – Situações de operação da usina.
Código Situação Descrição simplificada
1 BLACKOUT Perda de alimentação elétrica externa
2 BLACKSEM Perda de alimentação elétrica sem desligamento do reator
3 LOCA Perda de refrigerante do sistema primário
4 MEFWISO Isolamento da alimentação principal e auxiliar
5 MFWBRSEM Ruptura da alimentação principal sem desligamento do reator
6 MFWISO Isolamento da alimentação principal
7 MSTMISEM Isolamento da linha de vapor principal sem desligamento do reator
8 MSTMISO Isolamento da linha de vapor principal
9 NORMAL Condição normal de potência
10 SGTR Ruptura de tubos do gerador de vapor
11 STMLIBR Ruptura da linha de vapor principal
12 TRIPREA Desligamento da turbina sem desligamento do reator
13 TRIP Desligamento da turbina e do reator
De forma a aumentar a robustez do sistema e ao mesmo tempo fornecer à RNP a
quantidade adequada de exemplos de treinamento, foi feito aumento de dados (do
inglês, data augmentation) nas séries temporais originais de forma a simular, para cada
variável, as incertezas dos instrumentos de medição (tipicamente consideradas 1% nas
usinas nucleares) ao sobrepor aos dados originais um ruído branco com distribuição
normal e 1% de desvio padrão. Para as avaliações de performance do classificador, esse
procedimento resultou em 4368 séries para treinamento, 2184 para validação e 1456
para o teste12
da rede, seguindo a formulação aproximada 50-30-20, respectivamente.
Naturalmente, quando uma situação de operação anormal ocorre, ela se inicia
com um transiente no qual as variáveis físicas envolvidas no evento ainda não se
desenvolveram por completo até seus valores no regime estacionário. Isso significa que
quanto mais tempo um sistema de diagnóstico automático tem para absorver os dados e
identificar o evento, mais confiável será sua resposta. Por outro lado, sistemas mais
12
Neste trabalho, treinamento refere-se aos dados reservados para o treino das redes e atualização dos
parâmetros através do gradiente descendente, tal como descrito no Capítulo 2. Validação refere-se aos
dados utilizados para definição de critérios de parada e considerações acerca do ajuste da rede aos dados,
e teste diz respeito aos dados reservados para auferir a capacidade de generalização da rede e desempenho
geral do treinamento.
30
rápidos são obviamente desejáveis, especialmente em situações críticas do ponto de
vista de segurança, como nas usinas nucleares. O sistema ideal é, portanto, aquele que
apresenta um meio-termo e relação balanceada entre tempo e precisão, de forma a
permitir uma implementação segura. Pensando nisso, as análises envolvendo o
classificador foram realizadas tanto considerando que o início da aquisição dos dados
pelo sistema ocorre 3 segundos após o início do transiente (para a análise da resposta
“não sei” é considerado este caso apenas) quanto com ela ocorrendo no segundo de
início do mesmo (cenário mais desafiador).
Já a modelagem experimental para a geração de resposta “não sei” consistiu em
reproduzir diversas situações de eventos desconhecidos da seguinte maneira:
inicialmente, um dos 13 cenários operacionais é selecionado para representar o evento
desconhecido. Então, três conjuntos são criados para avaliar a performance de cada um
dos métodos propostos (que serão descritos mais adiante), e uma versão do classificador
é treinada sem esse evento escolhido. Tais conjuntos são montados da seguinte maneira:
1) Conjunto desconhecido: esse conjunto contém 1881 exemplos do evento
desconhecido selecionado;
2) Conjunto conhecido: esse conjunto contém 1881 exemplos de cada evento que é
parte do escopo de treinamento do classificador. No total, formam-se 22572
exemplos;
3) Conjunto combinado: esse conjunto combina o conjunto desconhecido ao
conhecido, somando 24453 exemplos.
Ao seguir esse padrão, foi possível avaliar cada metodologia “não sei” proposta
para cada situação hipotética de evento desconhecido dentre os 13 cenários operacionais
da Tabela 3.2. Isto é, cada metodologia é testada para o caso de blackout desconhecido,
depois BLACKSEM desconhecido, e assim por diante.
3.2.2 – Materiais e métodos
O tempo de treinamento é um fator relevante para as RNPs. Portanto, foi
utilizada uma unidade de processamento gráfico (GPU) modelo NVIDIA® GeForce®
GTX 1070 para acelerar o treinamento dos modelos através da computação paralela. A
linguagem de programação utilizada para conduzir a pesquisa foi o Python (VAN
ROSSUM, 2007), adotando as versões habilitadas para computação paralela – baseadas
na linguagem CUDA (NICKOLLS et al., 2008) – de algumas de suas bibliotecas
31
(frameworks) de código aberto especializadas em aprendizado de máquina: TensorFlow
(ABADI et al., 2016) e Keras (CHOLLET, 2016), além das bibliotecas auxiliares
NumPy (WALT et al., 2011), Pandas (MCKINNEY, 2010), Scikit-learn (PEDREGOSA
et al., 2011) e Matplotlib (HUNTER, 2007).
3.2.3 – O classificador
Para a definição do modelo de rede neural utilizado para classificar os eventos
operacionais, diversos testes foram realizados buscando os hiperparâmetros (número de
camadas, épocas, neurônios em cada camada, funções de ativação, taxa de aprendizado,
otimizadores, etc.) que forneceriam a melhor performance. Assim, chegou-se ao modelo
de rede neural profunda retificada (DRNN, descrito na Seção 2.3) composta por três
camadas internas com mil neurônios cada ativados por ReLU nas camadas internas e de
saída. As camadas de entrada e saída possuem, respectivamente, dezesseis e um
neurônio.
3.2.4 – Inspirações para a resposta “não sei”
Já para capacitar o sistema a fornecer a resposta “não sei” de maneira confiável e
eficiente, e ao mesmo tempo que não afetasse o desempenho do classificador, diversas
abordagens foram testadas, bastante influenciadas pelo trabalho de Mól et al. (2002), os
quais desenvolveram um sistema baseado na arquitetura de rede neural com saltos
(classificador) acoplada a uma rede auto-associativa (Figura 3.1). O classificador recebe
como entradas as variáveis físicas de operação e fornece como saída um evento
candidato que deve ser validado pelo sistema. Foram definidos dois critérios para
validar a saída do classificador, de forma que o sistema apenas fornecerá uma resposta
assertiva a respeito do evento caso os dois critérios sejam satisfeitos simultaneamente,
caso contrário, retornará a resposta “não sei”. Estes critérios são o critério de
identificação e validação da saída da rede (CIVR) e o critério de validação de variáveis
(CVV):
CIVR: O primeiro critério elaborado para gerar a resposta “não sei” baseou-se no
raio máximo da zona de alcance (RMAXZA) para cada classe (evento operacional).
O sistema atribui à cada transiente um valor discreto (seu “target”: 1, 2, ..., n) de
forma que, após o treinamento, os valores de saída para cada evento operacional
oscilarão em torno do valor definido. O RMAXZA para cada transiente é, então,
definido como o maior desvio entre o valor esperado e a saída fornecida pela rede
32
para o respectivo transiente (Equação 3.1, onde indica o evento operacional,
seu valor esperado e a saída fornecida pela rede (não confundir com e ,
descritos na Seção 2.2, referentes ao processo de treinamento da rede). O evento
será considerado válido neste estágio apenas se, durante a etapa de inferência13
, o
raio obtido não for maior que RMAXZA.
(
) ( )
CVV: consiste em validar todas as variáveis de estado utilizadas como entradas para
a rede classificadora, utilizando para isso uma rede auto-associativa rasa (descrita na
Seção 2.4) treinada com todos os eventos operacionais de forma que, após o
treinamento, ela seja capaz de reconstruir as variáveis de estado para cada evento
com erro de reconstrução mínimo para cada variável. Mais especificamente, durante
o treinamento, obtém-se o erro máximo de reconstrução ( ) para cada variável,
definido como o maior desvio entre o valor esperado para a variável e o valor
apresentado como saída da rede auto-associativa. Durante a etapa de inferência, uma
variável será considerada válida apenas se a diferença entre o valor da variável e a
saída fornecida pela rede auto-associativa for menor que ; o evento candidato
será, então, considerado válido se todas as variáveis forem consideradas válidas.
Figura 13.1 – Sistema elaborado por Mól et al. (2002).
13
Etapa de inferência refere-se à fase pós-treinamento da rede, quando o modelo é utilizado para
inferir/predizer os dados recebidos de acordo com o que foi aprendido durante o treinamento, seja em fase
de produção ou de testes.
33
3.2.5 – Novas Abordagens Propostas Para a Resposta “Não Sei”
Baseado nos critérios descritos na seção anterior, foram propostas e testadas
algumas abordagens alternativas para a geração da resposta “não sei” no sistema, que
serão descritas a seguir. Vale ressaltar que as duas primeiras foram inspiradas no CIVR
e a terceira no CVV.
3.2.5.1 – Raio médio da zona de alcance (RMEDZA)
Considerando que o RMAXZA pode sofrer muita influência devido à presença
de um simples outlier nos dados, foi avaliada a alternativa que considera o raio médio
da zona de alcance, calculado como:
∑
( )
onde i é o número de exemplos de treinamento. A ideia é suavizar a influência de ruído
e eventos aleatórios que podem ter sido capturados na aquisição dos dados.
3.2.5.2 – Raio da zona de alcance baseado em PSO (PSO-RZA)
O algoritmo de otimização por enxame de partículas (do inglês, particle swarm
optimization – PSO), descrito em detalhes em Kennedy et al. (2001), foi testado como
uma ferramenta de busca meta-heurística para determinar o vetor de raios de alcance
que levaria à melhor performance do sistema, i.e., identificação correta de eventos e
respostas “não sei” corretas no conjunto de testes. A parametrização do algoritmo foi
feita partindo-se de boas práticas documentadas na literatura (KENNEDY, 2007;
PEDERSEN & CHIPPERFIELD, 2010) e realizando testes empíricos, chegando aos
hiperparâmetros listados abaixo:
Parâmetro cognitivo ( ): 1,8;
Parâmetro social ( ): 2,2;
Coeficientes de inércia ( ): 0,2;
Espaço de busca: [0,01; 0,5];
Número de partículas ( ): 50;
Número máximo de iterações ( ): 50.
34
3.2.5.3 – Rede auto-associativa profunda de única classe (RAPUC)
Como alternativa ao modelo original de rede auto-associativa rasa treinada com
todas as classes, presente no CVV original, o uso de uma rede auto-associativa profunda
de classe única (RAPUC) foi avaliado. Esse modelo consiste em uma série de redes
auto-associativas profundas (tais quais as descritas na Seção 2.4) onde cada uma é
treinada com apenas um evento operacional específico. Essa variante de classe única,
acredita-se, permitirá à rede especializar-se e diminuir ainda mais o erro de reconstrução
para as entradas que representam o evento fornecido àquela RAPUC em particular após
o treinamento, ao mesmo tempo em que os erros de reconstrução serão ainda maiores
para entradas diferentes daquelas utilizadas no treinamento, o que é desejável em uma
aplicação crítica do ponto de vista de segurança. De fato, essa variante de classe única
foi proposta na literatura com outras técnicas similares, como máquinas de suporte
vetorial (SCHÖLKOPF et al., 1999; LI et al., 2003; ERFANI et al., 2016), para
detecção de anomalias, sendo também recentemente aplicada ao aprendizado profundo
(CHALAPATHY et al., 2018; RUFF et al., 2018).
3.3 – Resultados Experimentais
3.3.1 – Classificação
Os resultados obtidos aplicando a DRNN para o PIAN com os dados de teste
descritos na Seção 3.2 revelaram exatidão de cerca de 98% na correta classificação das
situações operacionais. De fato, a rede mostrou-se robusta e capaz de fornecer
resultados quase equivalentes tanto quando a análise começa no exato segundo de início
do transiente quanto 3 segundos após o início do mesmo, como se pode observar
analisando o desempenho dos modelos nas Tabelas 3.3 e 3.4 com suas respectivas
matrizes de confusão normalizadas presentes nas Figuras 3.2 e 3.3. É importante
observar que o número de exemplos (amostras) varia entre as duas tabelas apenas pelo
fato de haver mais medições no segundo caso, pois o sistema começa a receber os dados
alguns segundos antes.
35
Tabela 3.3 – Desempenho da rede iniciando 3 segundos após o início do transiente.
Conjunto de treino Conjunto de teste Conjunto de validação
Quantidade de amostras 4368 1456 2184
Erro médio absoluto 0,1089 0,0531 0,0453
Erro médio quadrático 0,2235 0,1103 0,0951
Exatidão 96,97% 98,21% 99,03%
Quantidade de épocas 500
Tempo de treinamento 4,68 min
Tabela 3.4 – Desempenho da rede iniciando no exato segundo de início do transiente.
Conjunto de treino Conjunto de teste Conjunto de validação
Quantidade de amostras 4524 1508 2262
Erro médio absoluto 0,1519 0,08485 0,0832
Erro médio quadrático 0,4822 0,1861 0,1895
Exatidão 95,44% 97,87% 97,99%
Quantidade de épocas 500
Tempo de treinamento 4,42 min
36
Figura 3.2 – Matriz de confusão normalizada começando a análise aos 3 segundos.
Figura 3.3 – Matriz de confusão normalizada começando a análise com 1 segundo.
37
3.3.2 – Resposta “Não Sei”
Já no que diz respeito à geração da resposta “não sei”, os resultados serão
apresentados separadamente para cada uma das abordagens na ordem em que foram
descritos na Seção 3.2, a começar pelos testes adaptando a DRNN ao sistema
desenvolvido por Mól et al. (2002). Como indicado na Seção 3.2.1, todos os resultados
apresentados doravante referem-se a testes considerando o início da análise 3 segundos
após o início do transiente.
3.3.2.1 – RMAXZA
Este experimento utiliza a abordagem original desenvolvida por Mól et al.
(2002), porém com a DRNN como classificador. Considerando o LOCA como evento
desconhecido, a Tabela 3.5 mostra os , calculados através da Equação 3.1, bem
como a Tabela 3.6 mostra o desempenho do sistema com essa abordagem nos três
conjuntos. A matriz de confusão normalizada para a situação de LOCA desconhecido
encontra-se na Figura 3.4. Para o conjunto conhecido, o sistema apresenta quase 100%
de exatidão. Porém, no conjunto desconhecido, apenas 60% das amostras foram
corretamente classificadas como desconhecidas (forneceram a resposta “não sei”), e
pode-se perceber que o sistema classificou erradamente os demais 40% como
STMLIBR (39%) e SGTR (1%), o que é confirmado analisando a Figura 3.5, que
mostra a resposta do sistema segundo a segundo.
A Tabela 3.7 mostra, ainda, o desempenho do sistema (medido como exatidão)
para cada cenário de evento desconhecido. Aqui, a coluna “nt blackout”, por exemplo,
significa que, nesse experimento, todas as situações operacionais são conhecidas, exceto
pelo blackout. A diagonal principal destacada significa, portanto, a exatidão do sistema
em corretamente classificar sua respectiva situação operacional como um evento
desconhecido, enquanto as demais células mostram a exatidão do sistema para os
eventos conhecidos. Finalmente, as duas últimas linhas mostram, respectivamente, a
exatidão média no conjunto combinado para o grupo e a exatidão média apenas para os
eventos conhecidos do grupo.
38
Tabela 3.5 – RMAXZA: Revmax para cada situação operacional.
Evento Codificação Revmax
BLACKOUT 1 0.0488
BLACKSEM 2 0.0258
LOCA 3 0.8851
MEFWISO 4 0.0683
MFWBRSEM 5 0.0300
MFWISO 6 0.0322
MSTMISEM 7 0.0430
MSTMISO 8 0.0447
NORMAL 9 0.1506
SGTR 10 0.1090
STMLIBR 11 0.0665
TRIPREA 12 0.0439
TRIP 13 0.2029
Tabela 3.6 – RMAXZA: Performance nos três conjuntos.
Conjunto desconhecido Conjunto conhecido Conjunto combinado
Exatidão 60,39% 99,18% 96,19%
39
Figura 3.4 – RMAXZA: Matriz de confusão no conjunto combinado.
Figura 3.5 – RMAXZA: Resposta do sistema segundo a segundo.
40
Tabela 3.7 – RMAXZA: Exatidão do sistema (%).
NT
blackout
NT
blacksem
NT
loca
NT
mefwiso
NT
mfwbrsem
NT
mfwiso
NT
mstmisem
NT
mstmiso
NT
normal
NT
sgtr
NT
stmlibr
NT
triprea
NT
triptur
blackout 38.22 99.68 99.47 99.68 100.00 99.79 98.94 99.73 99.89 99.95 99.26 99.68 100.00
blacksem 99.42 88.46 99.36 99.42 99.63 99.26 98.62 98.72 99.95 99.79 98.67 99.84 99.04
loca 98.09 97.40 60.39 98.41 98.62 98.41 98.72 98.46 97.98 98.67 99.20 97.50 98.25
mefwiso 99.10 99.57 98.99 3.08 99.73 99.31 99.79 99.26 98.25 99.52 99.26 98.94 99.84
mfwbrsem 99.89 100.00 99.57 99.31 79.90 99.63 99.89 99.42 99.52 99.89 99.73 99.89 99.89
mfwiso 98.94 96.92 99.95 99.52 98.99 2.71 99.47 99.47 98.83 99.73 98.62 98.56 98.99
mstmisem 99.79 99.15 99.42 100.00 99.89 99.63 20.84 99.31 98.41 99.26 99.04 99.84 99.95
mstmiso 98.94 98.56 99.04 98.94 98.94 97.18 98.94 6.54 97.66 98.62 99.20 99.89 98.94
normal 99.15 99.10 98.72 99.52 99.36 98.99 98.72 99.20 4.31% 98.78 99.47 98.67 99.79
sgtr 98.94 97.34 98.41 98.67 99.52 98.78 99.10 99.73 99.04 74.38 98.03 99.42 99.73
stmlibr 95.80 97.13 99.20 97.77 96.86 98.51 97.24 96.70 97.34 97.34 91.49 96.81 98.25
triprea 99.57 98.83 98.30 99.84 99.84 99.73 99.42 99.63 99.52 99.20 99.79 7.39 99.73
triptur 99.47 100.00 99.68 99.73 99.95 99.20 99.84 98.99 98.30 99.73 99.95 100.00 51.04
Média 94.25 97.86 96.19 91.84 97.79 91.62 93.04 91.94 91.46 97.30 98.59 92.03 95.65
Média dos
Conhecidos 98.92 98.64 99.18 99.23 99.28 99.03 99.06 99.05 98.72 99.21 99.18 99.09 99.37
3.3.2.2 – RMEDZA
O raio médio da zona de alcance é o primeiro método proposto para substituir o
CIVR original. A Tabela 3.8 mostra o , calculado através da Equação 3.2, para
cada cenário operacional que compõe o escopo de treinamento.
Como esperado, os valores de raio obtidos aqui são menores que os produzidos
pelo método do raio máximo. Esses raios menores impactam a performance do sistema,
como mostrado na Tabela 3.9, para o LOCA como “não sei”. Por exemplo, no conjunto
desconhecido, o sistema apresentou exatidão de 94,26%, muito maior que os 60%
conseguidos com o RMAXZA. O percentual de classificações erradas foi de apenas 6%,
como mostram as Figuras 3.6 e 3.7, tendo novamente o sistema classificado
erradamente como STMLIBR. Entretanto, no conjunto conhecido, o sistema apresentou
exatidão de 92,56%, menor que os 99,18% conseguidos anteriormente.
41
Os resultados mostram que, ao diminuir o raio dos eventos utilizando a
metodologia de raio médio, o potencial do sistema em detectar eventos desconhecidos
aumenta, mas, em contraste, isso restringe a habilidade do sistema em classificar
eventos conhecidos. O mesmo padrão foi repetido ao analisar os demais cenários
desconhecidos, como mostra a Tabela 3.10: todos os cenários apresentaram aumento na
capacidade de detecção de eventos desconhecidos e piora na capacidade de detecção dos
conhecidos, como esperado.
Tabela 3.8 – RMEDZA: Revavg para cada situação operacional.
Evento Codificação Revmed
BLACKOUT 1 0.0126
BLACKSEM 2 0.0051
LOCA 3 0.0010
MEFWISO 4 0.0114
MFWBRSEM 5 0.0140
MFWISO 6 0.0115
MSTMISEM 7 0.0215
MSTMISO 8 0.0086
NORMAL 9 0.0294
SGTR 10 0.0094
STMLIBR 11 0.0120
TRIPREA 12 0.0142
TRIP 13 0.0429
Tabela 3.9 – RMEDZA: Performance nos três conjuntos.
Conjunto desconhecido Conjunto conhecido Conjunto combinado
Exatidão 94,26% 92,56% 92,69%
42
Figura 3.6 – RMEDZA: Matriz de confusão no conjunto combinado.
Figura 3.7 – RMEDZA: Resposta do sistema segundo a segundo.
43
Tabela 3.10 – RMEDZA: Exatidão do sistema (%).
NT
blackout
NT
blacksem
NT
loca
NT
mefwiso
NT
mfwbrsem
NT
mfwiso
NT
mstmisem
NT
mstmiso
NT
normal
NT
sgtr
NT
stmlibr
NT
triprea
NT
triptur
blackout 65.23 94.63 94.58 97.24 97.13 91.44 100.00 100.00 96.86 96.86 98.62 100.00 99.68
blacksem 94.47 89.79 96.97 99.47 85.38 100.00 100.00 90.43 91.76 96.12 96.23 98.25 99.52
loca 98.46 89.53 94.26 82.99 88.73 88.73 97.61 88.78 90.91 96.38 89.15 97.02 94.68
mefwiso 82.40 97.08 99.15 3.08 95.75 87.24 89.15 97.66 91.12 97.34 98.25 94.68 100.00
mfwbrsem 100.00 100.00 78.31 96.38 91.49 99.95 97.08 88.30 91.92 91.55 90.06 97.29 97.50
mfwiso 99.04 97.87 81.39 99.68 99.15 22.86 99.84 91.65 99.26 97.18 93.62 87.67 99.63
mstmisem 99.15 85.17 97.24 100.00 85.59 88.78 28.92 97.13 98.72 94.10 94.84 88.14 95.91
mstmiso 97.29 98.88 99.10 97.24 99.36 92.56 92.29 6.54 85.86 98.51 88.68 100.00 98.88
normal 97.34 94.15 90.54 93.41 98.09 91.87 97.82 98.09 7.71% 99.20 93.78 91.39 92.88
sgtr 97.24 95.11 98.41 96.97 95.96 96.60 96.12 91.44 85.5% 85.11 96.38 97.34 96.97
stmlibr 90.48 95.53 87.03 86.55 92.03 92.72 91.97 96.33 97.08 85.38 97.87 94.05 95.91
triprea 99.42 89.47 89.37 89.42 94.63 94.21 86.98 99.84 90.91 99.84 95.43 4.31 93.94
triptur 86.23 100.00 98.67 100.00 85.59 92.77 92.24 86.39 89.79 98.94 100.00 100.00 91.02
Média 92.83 94.40 92.69 87.88 92.99 87.67 90.00 87.12 85.96 95.12 94.84 88.47 96.65
Média dos
Conhecidos 95.13 94.79 92.56 94.95 93.12 93.07 95.09 93.84 92.48 95.95 94.59 95.49 97.12
3.3.2.3 – PSO-RZA
A terceira abordagem envolvendo o CIVR envolveu a busca meta-heurística
pelo conjunto de raios de alcance através do PSO, cujo objetivo é minimizar os erros de
classificação do sistema. Após os testes, chegou-se à Tabela 3.11, que lista os raios
obtidos, e à Tabela 3.12, mostrando a performance resultante no caso LOCA como “não
sei” (com a matriz de confusão e resposta segundo a segundo correspondentes nas
Figuras 3.8 e 3.9, respectivamente). Por último, a exatidão do sistema para múltiplos
casos desconhecidos nessa abordagem é mostrada na Tabela 3.13. Nota-se uma
performance, de forma geral, pior que as duas abordagens apresentadas anteriormente
no conjunto desconhecido.
44
Tabela 3.11 – PSO-RZA: raio para cada situação operacional.
Evento Codificação Rpso
BLACKOUT 1 0.0565
BLACKSEM 2 0.0997
LOCA 3 0.1218
MEFWISO 4 0.0773
MFWBRSEM 5 0.0626
MFWISO 6 0.0853
MSTMISEM 7 0.0370
MSTMISO 8 0.0609
NORMAL 9 0.0520
SGTR 10 0.1080
STMLIBR 11 0.1358
TRIPREA 12 0.1011
TRIP 13 0.0845
Tabela 3.12 – PSO-RZA: Performance nos três conjuntos.
Conjunto desconhecido Conjunto conhecido Conjunto combinado
Exatidão 54,92% 98,64% 95,28%
45
Figura 3.8 – PSO-RZA: Matriz de confusão no conjunto combinado.
Figura 3.9 – PSO-RZA: Resposta do sistema segundo a segundo.
46
Tabela 3.13 – PSO-RZA: Exatidão do sistema (%).
NT
blackout
NT
blacksem
NT
loca
NT
mefwiso
NT
mfwbrsem
NT
mfwiso
NT
mstmisem
NT
mstmiso
NT
normal
NT
sgtr
NT
stmlibr
NT
triprea
NT
triptur
blackout 80.65 100.00 100.00 96.86 99.95 99.79 1.44 100.00 100.00 100.00 99.79 90.38 95.37
blacksem 100.00 79.69 100.00 100.00 99.84 97.61 100.00 100.00 99.95 100.00 99.89 100.00 100.00
loca 92.08 97.40 54.92 93.99 97.29 90.06 98.25 98.03 95.91 98.09 99.73 94.36 97.61
mefwiso 98.72 99.95 99.68 2.66 99.73 100.00 78.42 99.31 94.58 97.71 96.65 96.54 23.18
mfwbrsem 14.41 100.00 100.00 94.79 86.71 99.95 100.00 99.79 24.83 100.00 99.89 98.72 100.00
mfwiso 91.55 98.56 100.00 100.00 100.00 0.16 29.56 99.73 32.48 99.79 98.88 98.56 99.79
mstmisem 96.76 99.79 94.26 2.13 96.86 99.63 16.37 96.97 7.97 98.72 97.98 100.00 98.83
mstmiso 94.52 99.47 95.80 92.08 95.96 99.20 95.85 6.01 97.66 97.87 99.47 100.00 91.71
normal 69.22 99.63 97.18 92.29 89.47 94.74 69.27 1.01 9.84 77.09 97.29 94.10 90.43
sgtr 98.46 98.88 99.31 97.40 98.67 99.04 98.19 98.67 96.12 82.62 94.90 95.69 89.63
stmlibr 97.02 97.50 99.31 97.61 96.54 98.35 97.08 96.92 85.17 97.66 90.64 95.59 95.69
triprea 97.45 99.89 99.52 92.08 92.13 99.36 99.68 100.00 99.79 5.10 99.15 0.21 99.63
triptur 95.27 100.00 98.67 75.01 99.79 99.73 100.00 99.95 89.79 100.00 100.00 99.26 78.10
Média 86.62 97.75 95.28 79.76 96.38 90.59 75.70 84.34 71.85 88.82 98.02 89.49 89.23
Média dos
Conhecidos 87.12 99.26 98.64 86.19 97.19 98.12 80.64 90.86 77.02 89.34 98.64 96.93 90.16
3.3.2.4 – Rede auto-associativa rasa (RAAR)
Quanto às abordagens que buscam solucionar o problema de fornecer a resposta
“não sei” baseando-se no CVV, a combinação da rede auto-associativa original com o
classificador DRNN foi testada inicialmente. Dessa forma, os para as 16
variáveis em cada situação operacional que compõe o escopo de treinamento foram
determinadas e estão mostradas na Tabela 3.14.
A Tabela 3.15, por sua vez, mostra a exatidão do sistema no caso LOCA como
“não sei”, onde é possível detectar que o método obteve uma performance pior do que a
do raio médio, conseguindo 86% de classificações corretas, enquanto os demais foram
classificados erradamente como SGTR (7%) e STMLIBR (7%), como ilustrado na
Figura 3.10 e reforçado pela resposta do sistema segundo a segundo (Figura 3.11). Na
Tabela 3.16 está listada a performance do sistema utilizando a RAAR para os múltiplos
cenários desconhecidos.
47
Tabela 3.14 – RAAR: para cada evento operacional.
blackout blacksem loca mefwiso mfwbrsem mfwiso mstmisem mstmiso normal sgtr stmlibr triprea triptur
1 0.091 0.101 0.032 0.031 0.032 0.031 0.031 0.041 0.028 0.032 0.030 0.040 0.027
2 0.037 0.068 0.037 0.067 0.015 0.062 0.022 0.049 0.012 0.012 0.009 0.040 0.028
3 0.019 0.031 0.104 0.031 0.074 0.020 0.086 0.029 0.038 0.032 0.052 0.076 0.033
4 0.018 0.044 0.035 0.015 0.100 0.013 0.019 0.016 0.010 0.069 0.016 0.012 0.014
5 0.084 0.072 0.056 0.055 0.061 0.060 0.059 0.067 0.045 0.041 0.055 0.088 0.057
6 0.034 0.028 0.081 0.044 0.085 0.039 0.054 0.044 0.059 0.061 0.049 0.059 0.058
7 0.034 0.062 0.290 0.041 0.116 0.035 0.063 0.046 0.048 0.070 0.109 0.054 0.039
8 0.016 0.032 0.106 0.087 0.044 0.029 0.048 0.054 0.034 0.033 0.037 0.067 0.073
9 0.012 0.084 0.020 0.036 0.068 0.036 0.011 0.028 0.009 0.008 0.009 0.020 0.098
10 0.090 0.112 0.029 0.035 0.034 0.030 0.031 0.034 0.035 0.030 0.035 0.032 0.027
11 0.035 0.101 0.237 0.055 0.018 0.095 0.014 0.061 0.019 0.058 0.051 0.097 0.032
12 0.024 0.104 0.053 0.021 0.024 0.019 0.023 0.021 0.020 0.016 0.016 0.024 0.019
13 0.023 0.104 0.056 0.022 0.017 0.019 0.018 0.022 0.020 0.016 0.013 0.026 0.020
14 0.041 0.072 0.157 0.038 0.034 0.055 0.025 0.079 0.025 0.027 0.021 0.050 0.023
15 0.024 0.076 0.260 0.042 0.030 0.039 0.091 0.044 0.010 0.053 0.011 0.051 0.027
16 0.059 0.101 0.056 0.068 0.040 0.046 0.043 0.068 0.036 0.030 0.043 0.062 0.041
Tabela 3.15 – RAAR: Performance nos três conjuntos.
Conjunto desconhecido Conjunto conhecido Conjunto combinado
Exatidão 86,55% 95,57% 94,87%
48
Figura 3.10 – RAAR: Matriz de confusão no conjunto combinado.
Figura 3.11 – RAAR: Resposta do sistema segundo a segundo.
49
Tabela 3.16 – RAAR: Exatidão do sistema (%).
NT
blackout
NT
blacksem
NT
loca
NT
mefwiso
NT
mfwbrsem
NT
mfwiso
NT
mstmisem
NT
mstmiso
NT
normal
NT
sgtr
NT
stmlibr
NT
triprea
NT
triptur
blackout 100.00 96.33 95.37 97.34 96.12 97.40 97.02 97.24 97.34 96.92 97.55 97.13 97.24
blacksem 93.20 100.00 96.07 92.82 96.07 92.93 92.08 92.13 92.13 92.13 92.77 92.24 92.56
loca 93.62 92.08 86.55 93.41 95.22 93.30 93.14 93.30 92.34 93.04 94.58 93.14 92.34
mefwiso 95.11 94.52 95.00 23.13 96.12 95.11 95.27 93.78 95.16 95.22 95.16 95.06 95.43
mfwbrsem 96.81 96.70 96.17 96.65 97.02 96.65 96.70 96.86 96.70 96.97 96.65 96.97 96.86
mfwiso 96.65 96.12 95.85 95.43 97.02 7.92 95.85 96.44 96.38 95.85 96.60 94.95 96.12
mstmisem 97.71 97.82 95.96 97.40 94.58 97.40 53.64 97.50 97.34 96.28 97.08 97.34 97.45
mstmiso 95.96 96.33 96.60 96.01 95.64 96.28 96.33 32.59 95.22 95.91 96.28 96.49 96.12
normal 91.23 93.51 96.38 92.24 93.46 91.76 92.34 91.55 81.29 91.71 92.61 92.08 91.97
sgtr 94.90 95.69 95.85 95.16 95.85 95.11 94.95 95.22 95.75 69.01 94.42 94.68 95.16
stmlibr 93.62 94.10 93.73 94.05 92.08 94.31 93.99 93.99 93.62 94.63 65.02 93.51 93.94
triprea 96.07 95.96 94.95 95.69 95.22 95.80 95.59 95.59 95.75 95.85 95.59 1.06 95.53
triptur 94.79 95.06 94.84 94.47 94.79 94.31 94.79 94.36 93.78 93.46 93.99 93.99 16.96
Média 95.36 95.71 94.87 89.52 95.32 88.33 91.67 90.04 94.06 92.84 92.95 87.59 89.05
Média dos
Conhecidos 94.97 95.35 95.57 95.06 95.18 95.03 94.84 94.83 95.13 94.83 95.27 94.80 95.06
3.3.2.5 – RAPUC
Essa abordagem substitui a RAAR por múltiplas redes auto-associativas de
única classe (RAPUCs), uma para cada situação operacional. Cada RAPUC é treinado
estritamente com dados do seu evento correspondente, e o erro máximo de reconstrução
de cada variável de estado para cada cenário operacional é determinado. Após a
conclusão desse processo o sistema realizará as seguintes etapas durante a operação:
1) A DRNN recebe as variáveis de entrada e as classifica como um evento candidato;
2) A RAPUC correspondente, previamente treinada com exemplos da situação
operacional em questão, receberá as entradas e as processará;
3) O valor absoluto da diferença entre as variáveis de entrada e as saídas geradas pela
RAPUC (erro de reconstrução) será determinado. De forma similar ao CVV
original, uma entrada de variáveis será considerada válida se seus erros de
reconstrução não forem maiores que para aquela respectiva variável.
4) Se todas as variáveis de entrada forem válidas, o sistema retornará o evento
identificado pela DRNN como saída. Caso contrário, o sistema retornará “não sei”.
O sistema descrito está ilustrado na Figura 3.12. Os RAPUCs utilizados são
progressivos e compostos por 7 camadas contendo 16, 20, 10, 5, 10, 20 e 16 neurônios
(já incluindo as camadas de entrada e saída correspondentes às 16 variáveis físicas
50
consideradas). O segmento de codificação da rede é composto pelas camadas {20, 10,
5} enquanto que o trecho responsável pela decodificação é composto pelas camadas
{10, 20, 16}. Além disso, os neurônios das camadas internas são ativados pela função
SELU (KLAMBAUER et al. 2017), outro tipo de função retificada14
. Como de
costume, a Tabela 3.17 lista os erros máximos de reconstrução obtidos para o caso
LOCA como “não sei”, enquanto que a Tabela 3.18 e as Figuras 3.13 e 3.14
apresentam, respectivamente, a performance, a matriz de confusão normalizada e a
resposta do sistema segundo a segundo para essa situação, onde (a) mostra a resposta
quando o sistema recebe um LOCA e (b) quando ele recebe um blackout, para ilustrar
melhor este caso. Na Tabela 3.19, por fim, a performance do sistema nos múltiplos
cenários desconhecidos é mostrada.
Quando equipada com a abordagem RAPUC, o sistema resultante DRNN-
RAPUC foi capaz de fornecer corretamente a resposta “não sei” para eventos fora do
escopo de treinamento 99,88% das vezes, ao mesmo tempo em que guardou uma
capacidade de classificar corretamente os eventos conhecidos 94,56% das vezes, com
um resultado no conjunto combinado de 94,97%.
Figura 3.12 – A abordagem RAPUC.
14
Para mais informações acerca do impacto de número de camadas e funções de ativação em redes auto-
associativas, ver Kuchaiev et al. (2017)
51
Tabela 3.17 – RAPUC: para cada evento operacional.
blackout blacksem loca mefwiso mfwbrsem mfwiso mstmisem mstmiso normal sgtr stmlibr triprea triptur
1 0.0546 0.0349 0.0314 0.0286 0.0367 0.0336 0.0385 0.0351 0.0352 0.0365 0.0296 0.0412 0.0359
2 0.0366 0.0464 0.0319 0.0363 0.0369 0.0624 0.0424 0.1184 0.0363 0.0412 0.0441 0.0980 0.0359
3 0.0499 0.0502 0.1089 0.1031 0.1042 0.0854 0.0822 0.0492 0.0363 0.0402 0.0963 0.0943 0.0838
4 0.0114 0.0191 0.0066 0.0261 0.0273 0.0155 0.0229 0.0110 0.0076 0.0124 0.0063 0.0069 0.0231
5 0.0594 0.0568 0.0554 0.0455 0.0809 0.0789 0.0899 0.0794 0.0470 0.0488 0.0622 0.1073 0.0561
6 0.0485 0.0704 0.0684 0.0645 0.1383 0.1466 0.0487 0.0425 0.0473 0.0632 0.0656 0.0923 0.1015
7 0.0442 0.0547 0.3568 0.1001 0.3912 0.2740 0.0753 0.0597 0.0437 0.0863 0.3620 0.2976 0.1009
8 0.0142 0.0078 0.0048 0.0312 0.1209 0.0086 0.0756 0.0797 0.0154 0.0174 0.0248 0.0879 0.0813
9 0.0784 0.0856 0.0054 0.0493 0.1592 0.0762 0.0232 0.0157 0.0094 0.0062 0.0049 0.0956 0.1638
10 0.0465 0.0328 0.0289 0.0319 0.0322 0.0394 0.0322 0.0342 0.0371 0.0284 0.0354 0.0439 0.0311
11 0.0448 0.0750 0.0572 0.0740 0.2221 0.3185 0.0611 0.0493 0.0364 0.0564 0.0902 0.2054 0.2785
12 0.0251 0.1229 0.0282 0.0227 0.0271 0.0257 0.0283 0.0247 0.0252 0.0222 0.0272 0.0281 0.0287
13 0.0233 0.1280 0.0231 0.0208 0.0300 0.0273 0.0329 0.0267 0.0241 0.0279 0.0241 0.0283 0.0244
14 0.0501 0.0623 0.0596 0.0706 0.0510 0.1057 0.0422 0.1356 0.0501 0.0410 0.0593 0.0674 0.0600
15 0.0686 0.0576 0.0334 0.0851 0.0658 0.0803 0.0701 0.0828 0.0570 0.0699 0.0750 0.1020 0.0594
16 0.0489 0.0585 0.0597 0.0681 0.0631 0.0570 0.0463 0.0612 0.0335 0.0314 0.0650 0.0620 0.0580
Tabela 3.18 – RAPUC: Performance nos três conjuntos.
Conjunto desconhecido Conjunto conhecido Conjunto combinado
Exatidão 100% 94,58% 94,99%
52
Figura 3.13 – RAPUC: Matriz de confusão no conjunto combinado.
Figura 3.14 – RAPUC: Resposta do sistema segundo a segundo para (a) LOCA como
don‟t know e (b) blackout como evento conhecido.
53
Tabela 3.19 – RAPUC: exatidão do sistema (%).
NT
blackout
NT
blacksem
NT
loca
NT
mefwiso
NT
mfwbrsem
NT
mfwiso
NT
mstmisem
NT
mstmiso
NT
normal
NT
sgtr
NT
stmlibr
NT
triprea
NT
triptur
blackout 100.00 96.65 95.64 96.01 95.53 96.01 96.07 96.01 96.01 96.33 95.80 95.85 96.12
blacksem 95.11 100.00 92.88 93.89 94.79 93.89 93.78 93.89 93.89 95.16 93.78 94.31 93.94
loca 93.89 91.12 100.00 93.30 93.09 93.41 93.67 93.57 93.62 93.89 94.68 93.67 93.35
mefwiso 90.64 89.69 88.30 100.00 97.02 90.38 89.42 90.38 89.58 90.22 90.11 86.60 91.12
mfwbrsem 96.07 95.53 96.23 95.91 100.00 95.91 95.96 95.91 95.37 95.59 95.91 96.23 95.91
mfwiso 94.58 95.96 94.68 94.63 97.50 98.56 95.16 94.58 94.58 93.20 94.68 96.28 94.79
mstmisem 96.01 96.28 95.32 95.85 95.85 95.85 100.00 95.85 95.75 95.64 95.80 95.64 95.48
mstmiso 95.80 95.75 95.59 95.37 95.85 95.69 95.53 100.00 95.27 95.37 95.69 95.48 94.52
normal 94.31 93.57 94.42 94.63 94.21 94.26 94.52 94.15 100.00 94.31 94.47 93.35 94.63
sgtr 94.52 95.00 94.68 93.99 94.47 93.94 93.67 93.94 94.05 100.00 92.56 95.22 92.93
stmlibr 93.46 94.42 96.23 94.31 93.20 94.58 94.05 93.41 93.30 94.58 99.89 93.73 93.99
triprea 95.85 96.28 96.38 95.85 97.08 95.96 96.23 95.96 95.91 97.02 96.01 100.00 96.12
triptur 94.42 94.31 94.58 94.63 95.00 94.63 94.95 94.63 95.00 94.4% 94.36 94.42 100.00
Média 94.97 94.97 94.99 95.26 95.66 94.85 94.85 94.79 94.79 95.06 94.90 94.68 94.84
Média dos
conhecidos 94.56 94.55 94.58 94.87 95.30 94.54 94.42 94.36 94.36 94.64 94.49 94.23 94.41
3.4 – Análise dos Resultados
A Tabela 3.20 resume o desempenho médio do sistema no conjunto completo de
dados para cada abordagem, para efeito de comparação. Note que, nesse trabalho, ao
contrário de em Mól et al. (2002), métodos inspirados pelo CIVR não incluem uma
etapa CVV seguinte, e métodos baseados em CVV não incluem uma etapa CIVR
anterior, o que, com efeito, já configura uma considerável simplificação comparando
com o estudo de 2002.
Tabela 3.20 – Exatidão média nos três conjuntos para cada abordagem.
Conjunto desconhecido Conjunto conhecido Conjunto combinado
RMAXZA 40,67% 99,07% 94,58%
RMEDZA 52,94% 94,47% 91,28%
PSO-RZA 42,96% 83,15% 80,06%
RAAR 56,48% 95,07% 92,10%
RAPUC 99,88% 94,56% 94,97%
54
Observando os resultados, há muitos pontos a discutir, como se segue:
Para a abordagem RMAXZA, embora o sistema tenha apresentado excelente
desempenho no conjunto conhecido (99,07%), para o conjunto desconhecido o
sistema obtém um resultado ruim de 40,67%. Investigando mais a fundo, fica claro
que essa grande quantidade de classificações erradas se deve ao fato de que um
simples outlier (em um conjunto de dados de milhares) pode gerar um raio máximo
grande o bastante para divergir as classificações em direção a um evento conhecido.
Como sugerido na Seção 3.2.5.1, a expressão de cálculo para o RMEDZA ajuda a
suavizar a influência dos outliers no conjunto de dados, o que é refletido em uma
leve melhora nos números para essa alternativa. Entretanto, ela ainda assim foi
capaz de apenas romper a barreira de classificar corretamente metade dos pontos de
teste no conjunto desconhecido. Como o ponto focal desse trabalho foi aumentar a
classificação correta para os dados “não sei”, essas duas abordagens podem ser
consideradas as piores;
O PSO-RZA representa uma nova forma de encontrar os raios de zona de alcance
para as situações operacionais, porém, sua performance se mostrou na média das
duas abordagens anteriores, baseadas em CIVR, e como tal, continuou retornando
uma considerável quantidade de classificações erradas para o primeiro (e mais
relevante) conjunto. Embora teoricamente o uso de uma técnica de busca meta-
heurística para encontrar os raios ótimos de um conjunto de eventos pareça
poderosa, o fato de que o PSO não necessariamente tem informação a respeito do
conjunto desconhecido embutida em sua função objetivo (já que, por construção, a
rede não é treinada com ele) significa que o algoritmo terá capacidade limitada de
explorar o espaço de busca em direção à região que otimiza a classificação para esse
conjunto. Além disso, esses três grupos de resultados indicam uma dificuldade das
abordagens baseadas em raios do CIVR. Usualmente, uma boa performance no
conjunto desconhecido significará uma concessão na performance no conjunto
conhecido, e vice-versa. Isso deve ser levado em consideração, especialmente
quando se busca implementar essas abordagens em uma operação crítica do ponto
de vista de segurança;
Os resultados apresentados pela RAAR são similares aos obtidos pelo RMEDZA,
alcançando exatidão próxima a ele no conjunto conhecido e levemente melhor no
conjunto desconhecido. A maior quantidade de eventos operacionais, quando
55
comparado ao trabalho de Mól et al. (2002), que os dividiu em dois grupos, parece
ser demais para uma rede auto-associativa rasa lidar e angariar informação
discriminatória suficiente durante o treinamento.
A clara melhora no desempenho do sistema “não sei” apresentada pela abordagem
RAPUC no conjunto desconhecido, quando comparada a qualquer uma das
propostas anteriores, é bastante significativa, mas o que é particularmente notável é
o fato de esta ter performado bem nos três conjuntos, acumulando exatidões de
99,88%, 94,56% e 94,97% nos conjuntos desconhecido, conhecido e combinado,
respectivamente. Como já foi sugerido anteriormente, um grupo de autoencoders de
classe única especializados em discriminar apenas se um fluxo de dados pertence ou
não a uma classe em particular deve ser mais adequado na tarefa de fornecer
respostas “não sei” (o que corrobora resultados recentes reportados na literatura de
classificação, como Gutoski et al., 2017; Ruff et al., 2018). Tais resultados
notabilizam o sistema DRNN-RAPUC como uma evolução geral do sistema
proposto por Mól et al. (2002): sem a necessidade de separar os eventos mais
similares em diferentes grupos – ou mesmo de uma etapa CIVR anterior15
– a
abordagem foi capaz de identificar e corretamente classificar como “não sei” os
eventos de maneira mais acurada, rápida e confiável um conjunto de dados maior e
mais complexo que o trabalho supracitado.
3.5 – Conclusões para o PIAN
Este capítulo apresentou um estudo de caso envolvendo sistemas baseados em
redes neurais profundas ao problema de identificação de acidentes em usinas nucleares.
Diversas técnicas, largamente influenciadas pelo trabalho de Mól et al. (2002), foram
combinadas e desenvolvidas, bem como formas alternativas de calcular, ou buscar
meta-heuristicamente, os raios de influência para cada evento operacional, tendo sido as
modelagens e resultados experimentais aqui apresentados.
Destas, o uso de uma rede neural profunda retificada combinada a uma
arquitetura auto-associativa profunda, sistema DRNN-RAPUC mostrou-se a abordagem
de maior êxito, rendendo uma exatidão média de 99,88% em termos de classificações
“não sei” corretas, ao mesmo tempo em que classificou corretamente 94,56% dos
15
De fato, a combinação do RAPUC com as técnicas CIVR também foi testada, mas não resultou em
melhora significativa.
56
eventos, quando alimentada com dados contendo a evolução temporal de 16 variáveis
físicas correspondendo a 13 situações operacionais simuladas para a UN Angra 2.
Esses resultados para o conjunto desconhecido colocam o sistema proposto,
através de sua performance, robustez e confiabilidade, como uma complementação
adequada e muito necessária ao classificador, núcleo do sistema, sendo uma evolução
em relação a trabalhos anteriores (como o próprio Mól et al., 2002 e Peng et al. 2018),
seja em termos de abrangência, exatidão e complexidade do sistema testado.
Combinados, esses resultados evidenciam um sistema robusto que pode ser considerado
para aplicação como ferramenta de suporte ao operador da usina, dada a baixíssima
margem para falhas que tais sistemas podem ter nessa aplicação. Adicionalmente, a
despeito dos resultados excepcionais do DRNN-RAPUC, cada uma das abordagens
alcançou algum grau de sucesso e são, a priori, factíveis de serem aplicadas à outras
operações industriais, dependendo das particularidades dos seus conjuntos de dados.
Estudos posteriores aplicando o sistema à simulações com operadores, visando
explorar o impacto cognitivo e a viabilidade prática do sistema, desenvolver mais o
sistema habilitando-o a fornecer previsão (do inglês, forecasting) de possíveis eventos
futuros utilizando redes neurais recorrentes, além da geração de dados espúrios (do
inglês, novelty generation) através de, possivelmente, redes generativas adversariais (do
inglês, generative adversarial networks – GAN), propostas por Goodfellow et al.
(2014) para melhorar a performance de algoritmos de busca meta-heurística pelos raios
de alcance, além de elaboração e análise de diagramas de Pareto para avaliação de
dominância no espaço dos objetivos entre as abordagens propostas para a resposta “não
sei” podem fornecer contribuições valiosas ao sistema proposto e ficam como algumas
sugestões para trabalhos futuros.
57
CAPÍTULO 4
O PROBLEMA DE INFERÊNCIA DE TEMPERATURAS (PIT)
4.1 – Introdução ao Problema
Garantir que os sistemas de segurança e equipamentos são capazes de realizar
suas atividades-fim, tanto na operação normal quanto durante eventos adversos, como
terremotos ou acidentes postulados, é fundamental à operação segura de usinas
nucleares comerciais e à segurança e saúde públicas. O ato de certificar que tais
sistemas e equipamentos podem desempenhar suas funções como requerido e manter
sua condição funcional ao longo de todo o período de operação quando expostos às
condições operacionais dos eventos de base de projeto16
(do inglês, Design Basis Events
– DBE) é chamado de qualificação de equipamentos ou qualificação ambiental de
equipamentos (QA), e é responsabilidade do licenciado a operar a planta. A QA engloba
tanto equipamentos mecânicos quanto elétricos, mas, como os equipamentos elétricos
são mais sensíveis a condições adversas, mais ênfase tem sido dada à importância da
qualificação ambiental para equipamentos elétricos (EPRI, 2010).
O programa de qualificação ambiental de equipamentos busca, portanto, garantir
que os componentes da usina tenham condições de operar em situações normais e de
acidente (DBE), mitigando suas consequências e impedindo a liberação de material
radioativo para o meio ambiente.
Todo equipamento possui uma limitação de tempo de operação, que leva em
consideração o envelhecimento e degradação devidos à exposição à temperatura,
radiação e outros fatores nas condições normais e transientes operacionais. Quando seu
tempo é atingido, este deve ser substituído ou devem ser estudados meios que
possibilitem sua extensão de uso.
Em particular, e especialmente após o acidente nuclear de Three Mile Island em
1979, no qual alguns equipamentos instalados dentro do prédio de contenção do reator
falharam devido às condições adversas severas após o acidente, a Comissão Reguladora
Nuclear (do inglês, Nuclear Regulatory Comission – NRC) emitiu uma série de normas
e regulamentações no que concerne à qualificação de equipamentos de usinas nucleares,
16
Isto é: a operação normal além dos acidentes e transientes que fazem parte dos acidentes de base de
projeto (no caso de uma usina nuclear).
58
principalmente os localizados dentro do prédio de contenção. Dentre os diversos pontos
preconizados por essas normas17
, são de particular importância para este trabalho:
Na Generic Letter 82-09 (NRC, 1982), afirma-se que a vida qualificada18
de
diversas classes de equipamentos não precisariam ser avaliadas desde que a
degradação e envelhecimento dos mesmos ao longo da vida em operação fosse
mitigada através de programas de manutenção preventiva, sendo a troca ou
recondicionamento realizados conforme a susceptibilidade conhecida à degradação
ou conforme os resultados das inspeções.
Entretanto, conforme avançou-se no entendimento das limitações e incertezas
envolvidas no processo de envelhecimento acelerado de equipamentos expostos à
condições adversas, determinou-se, através do regulamento “10 CFR 50.49” (CFR,
1983) e do guia regulatório “Regulatory Guide 1.89” (NRC, 1984) que os
equipamentos devem ser substituídos ao fim de sua vida qualificada a não ser que
metodologias de qualificação contínua (do inglês, ongoing qualification) constatem
que o item possui vida operacional adicional. De fato, o guia regulatório afirma que:
“Testes e inspeções periódicas são aceitáveis para estimar as incertezas acerca da
degradação devida ao envelhecimento que poderia afetar a capacidade funcional do
equipamento. O resultado de tais programas serão aceitáveis como qualificação
contínua para modificar a vida qualificada de equipamentos e deve ser incorporado
aos cronogramas de manutenção e recondicionamento.” (NRC, 1984).
Dentre os agentes estressores aos quais os equipamentos das usinas nucleares estão
expostos, a temperatura (juntamente com a radiação ionizante e pressão) é um dos
que possui maior influência no processo de degradação e envelhecimento
acelerados. Variações de temperatura consideravelmente além da temperatura
ambiente afetam as propriedades físicas, mecânicas, elétricas e químicas dos
materiais, mas mesmo quando a variação é pequena, o efeito pode ser significativo
ao longo dos anos de operação, degradando os equipamentos indiretamente através
de um processo conhecido como envelhecimento térmico, além de afetar a vedação
de juntas, gaxetas, o-rings e outros componentes de precisão mecânicos e elétricos
17
Ver IEEE (1993) para uma compilação das normas referentes à qualificação ambiental. 18
Definida como o período de tempo a partir do início da operação sob eventos de base de projeto durante
o qual foi demonstrado que o equipamento satisfaz os critérios de projeto nas condições de serviço
especificadas (IEEE, 1971).
59
por conta da dilatação térmica. Por conta disso, é particularmente importante
considerar a temperatura à qual os equipamentos estiveram expostos e seus efeitos
para qualquer estimativa de qualificação contínua (EPRI, 2010).
O modelo térmico de envelhecimento de Arrhenius (DAVID & MONTANARI,
1992) é tipicamente aplicado para estimar os efeitos da temperatura na degradação dos
equipamentos em geral e em usinas nucleares, e pode ser expresso em modo
conveniente para a avaliação da vida qualificada por:
.
/[
] ( )
onde:
: energia de ativação ( , sendo );
: constante de Boltzmann ( );
: tempo de envelhecimento acelerado ( );
: tempo de serviço simulado ( );
: temperatura de envelhecimento (K);
: temperatura de serviço (K).
O parâmetro refere-se ao tempo à temperatura de serviço (temperatura
ambiente somada ao aquecimento interno inerente ao funcionamento do equipamento)
requerida para atingir um certo nível de degradação, assumindo que a taxa de
degradação seja controlada por uma reação química caracterizada por uma energia de
ativação . Se esse nível de degradação for assumido como aquele além do qual a
funcionalidade do equipamento não é garantida (isto é, o critério de fim de vida útil),
então torna-se a vida qualificada térmica à . A forma da equação de Arrhenius
relaciona o tempo de serviço a uma duração menor na eventualidade de o
equipamento ficar exposto à temperatura maior, levando ao envelhecimento térmico
acelerado. De fato, pode-se perceber na Figura 4.1, que mostra a retenção de
alongamento19
(do inglês, Retention of Elongation – RE) para diferentes temperaturas,
que dependendo do material que constitui o equipamento e da faixa de temperaturas,
19
Medida de degradação em materiais que tendem a contrair-se com o aquecimento, como borrachas e
resinas (MATHEW et al., 2013).
60
uma variação de pouco mais de 10 graus na temperatura à qual o equipamento está
exposto pode ser traduzida em milhares de horas de vida qualificada, efeito que se
acentua consideravelmente conforme se aproxima das temperaturas próximas à
temperatura ambiente, como se nota no gráfico.
Figura 4.1 – RE para quatro temperaturas de envelhecimento (EPRI, 2010).
A usina nuclear Angra 1 teve sua primeira criticidade em 1982 e iniciou sua
operação comercial em 1985. Por ter obtido a licença para construção e ter sido
construída antes do desenvolvimento da “Generic Letter 82-09”, citada anteriormente, e
outras normatizações tornadas regra em 1983, a usina não teve um plano de qualificação
ambiental no início de sua operação (o qual atualmente encontra-se em sua fase final).
No ano de 2024 Angra 1 chega ao final do seu período previsto de operação – 40
anos. Dada sua importância na matriz energética brasileira, está sendo proposto, em
lugar do descomissionamento (PINHO, 2018), um programa de extensão de vida útil
por 20 anos adicionais (ELLER, 2018). Um dos documentos importantes para avaliação
da extensão de vida útil é o Programa de Qualificação Ambiental de Equipamentos
Elétricos20
(PQAEE) importantes para a segurança nas condições de serviços
postuladas, pois a partir dele é possível identificar quais dos
20
Eletronuclear, 2018.
61
equipamentos/sistemas/componentes importantes para a segurança da planta estão em
plenas condições de funcionamento e podem continuar na usina.
Em particular, os sistemas, componentes e estruturas presentes no interior do
prédio de contenção do reator são qualificados para condições severas de operação (ver
Muzitano et al., 2017, para mais detalhes envolvendo o procedimento de qualificação).
Diante de um cenário de extensão de vida útil, onde se tem como objetivo operar a usina
além do seu tempo de base de projeto, é necessário o estudo de viabilidade de
qualificação contínua para garantir que os componentes podem continuar operando e/ou
determinar quais devem ser substituídos para que se possa receber o licenciamento para
operação de longo prazo (CARDOZO, 2019).
Para realizar o mapeamento das condições ambientais em que operam os
equipamentos que fazem parte do PQAEE em condições normais de operação, foi feito,
pela operadora da usina, um planejamento para instalação de conjuntos de monitoração
dos parâmetros de dose de radiação21
e temperatura – chamados de SMOs – em diversos
pontos internos do prédio da contenção onde estão localizados os equipamentos de
segurança que fazem parte da listagem do programa. Essa monitoração será feita por
todos os ciclos de operação até próximo ao final da vida útil da planta, de forma que se
tenha um mapeamento das temperaturas e doses de radiação nas áreas onde os
componentes do PQAEE estão instalados e seja possível verificar as condições às quais
eles estiveram expostos. De posse desses dados, será possível aplicar as metodologias
de qualificação contínua22
e determinar a vida qualificada dos equipamentos já em
operação, permitindo auferir quais equipamentos deverão ser substituídos ou
recondicionados e quais podem continuar operando, tornando assim a operação durante
a extensão de vida útil mais eficiente, econômica e segura.
Entretanto, tal ação de instalação dos medidores começou a ser realizada a partir
de 2015, não havendo medições da exposição à temperatura diretamente nos
equipamentos específicos do PQAEE, dentro do prédio de contenção da usina, nos anos
anteriores a isso, dificultando que o estudo de envelhecimento e degradação devido a
21
É importante esclarecer que, embora os SMOs meçam parâmetros de dose de radiação e temperatura,
este trabalho está voltado para a determinação e considerações acerca dos efeitos da temperatura como
agente estressor, apenas. 22
Para isso, a Eletronuclear dispõe do software EQMS (EPRI, 2003), que utiliza a teoria de Arrhenius,
descrita anteriormente.
62
este agente estressor seja feito para períodos de operação anteriores, ou seja, desde o
início de operação da usina.
Por outro lado, a UN Angra 1 dispõe do Sistema Integrado De Computadores de
Angra 1 (SICA), cujo projeto inicial encontra-se descrito em Martinez23
et al. (1986), o
qual, dentre outras funções, monitora continuamente diversas variáveis físicas de
operação da usina – inclusive em pontos no interior do prédio de contenção – que ficam,
posteriormente, armazenadas em bancos de dados na planta.
Baseado no exposto, o objetivo deste estudo de caso é aplicar o aprendizado
profundo de redes neurais artificiais para inferir, a partir de modelos treinados com os
dados reais provenientes dos SMOs e do SICA, os valores de temperatura em diferentes
pontos do interior do prédio de contenção no período compreendido entre o início de
operação da usina e a instalação dos SMOs. Cabe ressaltar que esta aplicação é pioneira,
até onde foram as pesquisas deste autor.
4.2 – Inferência de Temperaturas
Conforme sugerido na Seção 4.1, o PIT consiste em simular medidores (SMOs)
virtuais no passado que permitam estimar os valores de temperatura aos quais os
equipamentos do PQAEE estiveram expostos durante o histórico de operação da usina
(mais especificamente, entre 1982 e a instalação dos SMOs físicos, em 2015). Para tal,
os dados de temperatura obtidos através dos SMOs físicos recentemente instalados em
diferentes pontos do interior do prédio de contenção servirão como base para uma
modelagem de regressão não-linear que os correlacionará às medições de temperatura
disponíveis no banco de dados do histórico do SICA.
Em particular, duas arquiteturas de RNPs foram testadas para atuarem como o
regressor nessa modelagem: a DRNN (Seção 2.3), devido ao sucesso da sua aplicação
ao PIAN (Capítulo 3) e a LSTM (Seção 2.5.2), já que, conforme descrito no Capítulo 2,
trata-se de uma variante de rede neural recorrente adequada, a priori, para modelar
sequências como séries temporais.
A pesquisa envolvendo a inferência de temperaturas dos SMOs consistiu de três
grandes etapas sequenciais (pipeline):
23
À época, Angra-1 Parameters Display System (SSPA).
63
Pré-tratamento dos dados, tanto do SICA quanto do SMOs, buscando remover dados
espúrios, preencher ou remover trechos de dados faltantes e formatá-los;
Mineração nos dados (do inglês, data mining), através de análises de correlação e
feature importance (Seção 2.6), buscando encontrar as variáveis monitoradas pelo
SICA (dentre cerca de 150 em total) que melhor se relacionam com cada um dos
SMOs posicionados no interior do prédio de contenção;
Testes experimentais com as arquiteturas de redes neurais profundas, cujas entradas
serão uma ou mais variáveis do SICA, buscando o modelo que, treinado em
períodos onde há dados de temperatura medidos pelos SMOs (2015-2018), forneça
melhor desempenho e capacidade de generalização no mapeamento de temperaturas
que seriam medidas por SMOs nas mesmas posições, caso os mesmos estivessem
presentes nos anos anteriores às suas instalações.
4.3 – Modelagem e Resultados Experimentais
Diversas abordagens foram testadas no que concerne à separação de dados para
treino, validação e teste das redes, sendo que a mais robusta e razoável (considerando
que os SMOs instalados em um dado ponto variam de ano para ano em alguns casos,
alterando a sua numeração e o fato de que há oscilações, ainda que leves, nas condições
de operação ano após ano) e que será apresentada no restante dessa seção consiste na
concatenação de todos os dados disponíveis para cada componente com posterior
separação para validação e teste dos períodos mais antigos na proporção (definida
empiricamente) de 65% treino, 15% validação, 20% teste, e seguindo as boas práticas
no aprendizado de máquina que determinam que o conjunto de validação e teste devem
representar da melhor forma possível o que a rede receberá para processar na fase de
inferência, de forma a maximizar a sua capacidade de generalização (SCHMIDHUBER,
2015).
A etapa de mineração dos dados iniciou-se com a geração de mapas de calor de
correlação (do inglês, heatmaps), como o mostrado na Figura 4.2, onde regiões com
vermelho mais intenso representam correlação direta mais forte entre as variáveis. Eles
permitiram constatar que há, de fato, grandes diferenças de correlação entre variáveis
monitoradas pelo SICA e os SMOs.
64
Figura 4.2 – Mapa de calor SICA (algumas variáveis) x SMO.
Aprofundando a pesquisa, e especialmente devido ao grande número de
variáveis candidatas presentes no SICA, gerando mapas de calor difíceis de analisar,
decidiu-se utilizar a técnica de importância de variáveis (do inglês, feature importance –
FI) por permutação (ALTMANN et al., 2010) acoplada à floresta aleatória24
(Seção 2.6)
para obter quais variáveis do SICA seriam mais adequadas para uma modelagem de
regressão com os SMOs. A Figura 4.3 ilustra um exemplo do resultado dessa análise
para um SMO qualquer, onde as barras significam a piora na métrica de desempenho
(neste caso, o coeficiente estatístico de determinação, ) que se verifica ao
descorrelacionar aquela variável das demais. Por exemplo, na figura, descorrelacionar a
variável TI5701 acarreta uma piora de 0,65 no coeficiente de determinação para o
24
As florestas aleatórias para cada um dos SMOs foram construídas seguindo o procedimento descrito na
Seção 2.6, seguindo os procedimentos e hiperparâmetros descritos em Breiman (2001) no que concerne à
composição de florestas aleatórias para regressão.
65
classificador, destacando-a como uma das mais importantes. É possível notar que três
variáveis do SICA (nomeadamente, para esse caso, TI5701, TI5702 e TI181) são
responsáveis por cerca de 89% do desempenho da floresta aleatória para este SMO,
fenômeno esse que, incidentalmente, repetiu-se em quase todos os casos.
Figura 4.3 – Exemplo de resultado de importância de variáveis.
De posse dessa informação, o próximo passo foi realizar testes experimentais
com tais variáveis mais relevantes, verificando a capacidade de generalização dos
modelos de aprendizado profundo na inferência das medições de temperatura em
períodos nos quais os SMOs não estavam presentes. As configurações das RNPs foram
determinadas através de vários testes com diferentes combinações de hiperparâmetros,
chegando à Tabela 2125
, onde estão listados os principais.
25
Na tabela, “dropout” (SRIVASTAVA et al., 2014) e decaimento de peso (NG, 2000) referem-se a
técnicas de regularização para evitar que a rede ajuste-se sobremaneira (do inglês, overfit) aos dados de
treinamento. Já a normalização de batch (IOFFE & SZEGEDY, 2015) é utilizada para acelerar o
treinamento das redes. Na DRNN, tais métodos também foram testados mas não levaram a melhora
substancial nos resultados.
importância
66
Tabela 4.1 –Principais hiperparâmetros para as RNPs aplicadas ao PIT.
Hiperparâmetro DRNN LSTM
Camadas internas 7 2
Número de neurônios/unidades
LSTM por camada 100 10
Funções de ativação nas
camadas internas ReLU
tanh e sigmoide
logística
Decaimento de peso – L1: 0,01 e L2: 0,01
Dropout – 0,2
Normalização de batch – momento: 0,99
No total, há 90 componentes com SMOs associados dentro do prédio de
contenção para os quais deseja-se saber a assinatura temporal da temperatura ao longo
dos anos de operação. Destes, até onde se dispunha de dados de operação no momento
da conclusão deste trabalho, 80 apresentavam medições válidas para realizar o estudo. A
modelagem experimental consistiu em treinar uma rede neural para regressão não-linear
para cada um dos componentes, cada uma com uma ou mais variáveis do SICA como
variáveis independentes, tendo como alvo a temperatura do SMO. Mais
especificamente, os testes experimentais foram feitos considerando cada uma de quatro
abordagens, variando a quantidade de variáveis regressoras (SICA) – sempre tomadas
em ordem decrescente de importância – e a arquitetura das redes, tal qual descrito na
Tabela 22.
No restante dessa seção serão apresentados os resultados detalhados
correspondentes a cinco dos componentes, identificados dentro do prédio de contenção
como “1 2”, “3 5”, “3 9”, “3 50” e “4 31”, cujas análises de importância de variáveis
encontram-se nas Figuras 4.4-4.8, por serem representativos do todo no tocante à
comparação direta entre as abordagens, análise e discussão dos resultados. Para efeito
de completude, cabe ressaltar e adiantar que 71 dos 80 componentes (89%)
apresentaram erro médio absoluto abaixo de 2 °C, como será abordado em mais
detalhes e discutido na Seção 4.5.
67
Figura 4.4 – Importância de variáveis para o componente “1 2”.
Figura 4.5 – Importância de variáveis para o componente “3 5”.
importância
importância
68
Figura 4.6 – Importância de variáveis para o componente “3 9”.
Figura 4.7 – Importância de variáveis para o componente “3 50”.
importância
importância
69
Figura 4.8 – Importância de variáveis para o componente “4 31”.
Quando da elaboração deste trabalho, estavam disponíveis os dados operacionais
para treinamento, validação e testes das redes referentes aos períodos de operação 2015-
2016 (código 1P21), 2016-2017 (1P22) e 2017-2018 (1P23). Porém, cabe ressaltar que,
como tratam-se de dados experimentais reais, nem todas as posições dispunham de
SMOs acoplados a elas com medições válidas em todos esses anos. Sendo assim, as
Figuras 4.9-4.28, em seus títulos, especificam qual a arquitetura de rede utilizada e os
períodos considerados para treino e teste das redes, seguindo a Tabela 4.2 que classifica
as abordagens. Os gráficos estão codificados por cor e representam as variáveis do
SICA consideradas, SMOs e o resultado da regressão das redes (predição). Os números
destacados em cada gráfico referem-se ao erro médio absoluto (do inglês, Mean
Absolute Error – MAE) entre a saída fornecida pela rede e o alvo (SMO), sendo tomada
como a métrica de performance nessa aplicação. Cada uma das redes LSTM foram
treinadas em por volta de 50 minutos até estabilização do erro26
, enquanto as DRNN
treinavam bem mais rapidamente: cerca de dois minutos por rede.
Tabela 4.2 – Configuração dos experimentos do PIT.
Abordagem Variáveis regressoras Arquitetura
A 1 DRNN
B 3 DRNN
C 1 LSTM
D 3 LSTM
26
Em GPU NVIDIA® GeForce® GTX 1070 Ti. Os demais materiais são tais como descrito na Seção 3.2.2.
importância
70
Figura 4.9 – Resultado experimental para o componente “1 2”, abordagem A.
Figura 4.10 – Resultado experimental para o componente “3 5”, abordagem A.
71
Figura 4.11 – Resultado experimental para o componente “3 9”, abordagem A.
Figura 4.12 – Resultado experimental para o componente “3 50”, abordagem A.
72
Figura 4.13 – Resultado experimental para o componente “4 31”, abordagem A.
Figura 4.14 – Resultado experimental para o componente “1 2”, abordagem B.
73
Figura 4.15 – Resultado experimental para o componente “3 5”, abordagem B.
Figura 4.16 – Resultado experimental para o componente “3 9”, abordagem B.
74
Figura 4.17 – Resultado experimental para o componente “3 50”, abordagem B.
Figura 4.18 – Resultado experimental para o componente “4 31”, abordagem B.
75
Figura 4.19 – Resultado experimental para o componente “1 2”, abordagem C.
Figura 4.20 – Resultado experimental para o componente “3 5”, abordagem C.
76
Figura 4.21 – Resultado experimental para o componente “3 9”, abordagem C.
Figura 4.22 – Resultado experimental para o componente “3 50”, abordagem C.
77
Figura 4.23 – Resultado experimental para o componente “4 31”, abordagem C.
Figura 4.24 – Resultado experimental para o componente “1 2”, abordagem D.
78
Figura 4.25 – Resultado experimental para o componente “3 5”, abordagem D.
Figura 4.26 – Resultado experimental para o componente “3 9”, abordagem D.
79
Figura 4.27 – Resultado experimental para o componente “3 50”, abordagem D.
Figura 4.28 – Resultado experimental para o componente “4 31”, abordagem D.
80
4.4 – Análise dos Resultados
A Tabela 4.3 resume os erros médios absolutos obtidos no conjunto de teste para
cada uma das abordagens nos 5 componentes listados na Seção anterior. É possível
observar que os melhores resultados foram alcançados para a abordagem A, isto é, uma
variável regressora com a arquitetura de rede DRNN.
Tabela 4.3 – Resultados obtidos.
Abordagem Componente MAE no teste (ºC)
A
1 2 0,284
3 5 7,299
3 9 1,625
3 50 0,519
4 31 1,392
B
1 2 0,332
3 5 5,62
3 9 1,282
3 50 0,496
4 31 1,689
C
1 2 0,460
3 5 7,061
3 9 1,583
3 50 0,691
4 31 1,991
D
1 2 1,154
3 5 4,096
3 9 1,582
3 50 0,630
4 31 2,104
Ao comparar diretamente as abordagens com uma e três variáveis regressoras,
nota-se que, quando os dados de medição são “bem comportados”, ou seja, mais
estáveis, o uso de apenas uma variável permite à rede especializar-se melhor na tarefa
de regressão com o SMO, muito embora as outras duas variáveis consideradas também
81
apresentem importância significativa. Porém, casos mais complexos (mais oscilações,
ruídos, etc.) parecem ser melhor tratados com a utilização das três variáveis mais
importantes. De forma geral, vale testar as duas opções (ou mesmo duas variáveis ou
outras combinações), caso a caso.
No tocante às arquiteturas, embora próximas em alguns casos, a DRNN
apresentou desempenho superior à LSTM (embora próximo, em muitos casos)
consistentemente dentre os 80 casos analisados. Este fato, pode-se supor, é causado pela
presença de ruídos nos dados (o que é inerente a dados reais de operação) e flutuações
nas condições operacionais que, observando os gráficos, aparecem de um ano para o
outro, alterando a relação entre as variáveis do SICA e os SMO. De fato, é sabido que as
RNRs são modelos mais adequados para dados mais “limpos”, tendo sido reportado na
literatura que treinar redes neurais recorrentes com dados altamente ruidosos pode
fornecer resultados aquém do esperado, ao fazê-las desprezarem dependências
sequenciais de longo prazo no aprendizado, o que leva a rede a sobreajustar-se aos
dados de treinamento mais comuns ou à média entre estes, fornecendo tais respostas
triviais como sua saída (BENGIO, 1996; GILES et al. 2001). Tal resultado experimental
faz sentido intuitivamente, na medida em que a característica – em geral desejável – das
RNRs de carregar informações sobre passos anteriores da sequência em sua memória e
utilizá-las para inferir o próximo passo (Seção 2.5.1) fornece mais desinformação do
que informação, no caso de séries com muito ruído, interferindo em seu desempenho.
Analisando cada um dos casos listados, nota-se que, para os componentes “1 2”,
“3 50” e “4 31”, a rede foi capaz de encontrar, mediante treinamento, a relação não
linear entre a(s) variável(is) do SICA e o SMO, mesmo quando os dados apresentam
oscilação periódica considerável, como no “4 31”.
Já no caso do componente “3 5”, fica evidente que os dados do SMO apresentam
alguma falha sistemática de medição (pois, se assim não fosse, oscilações similares
seriam também observadas no SICA). Assim, como é de se esperar, a rede não é capaz
de modelar em seu treinamento a correspondência entre as variáveis medidas pelos dois
sistemas, não sendo capaz, portanto, de generalizar para o conjunto de teste. Por fim, o
resultado apresentado para o componente “3 9” ilustra uma situação que corrobora essa
hipótese: embora a rede tenha sido capaz de aprender a relacionar as variáveis durante o
treinamento, algum evento fortuito levou a uma oscilação espúria do SMO durante boa
82
parte do conjunto de teste que novamente não foi acompanhada pelo SICA. Isso levou,
consequentemente, a uma variação considerável entre a temperatura predita pela rede e
o SMO nesse trecho e, por conseguinte, a incremento substancial no MAE.
4.5 – Conclusões para o PIT
Interpretando os resultados apresentados e discutidos na Seção 4.3 e na Seção
4.4 é possível afirmar que, para a abordagem A, dos 80 componentes para os quais se
dispunha de SMOs para a modelagem, 71 (89%) apresentaram erro médio absoluto
inferior a 2 ºC. Dentre os restantes, para os quais os erros no conjunto de teste foram
superiores à referida marca, as análises dos resultados indicaram que isso se deve mais a
problemas nos dados do que de modelagem/arquitetura das redes, o que é natural em
aplicações com dados reais de operação.
Dentre as arquiteturas testadas, a DRNN mostrou-se mais eficiente, tendo sido
capaz de fornecer resultados mais acurados (embora próximos aos da LSTM), com o
benefício adicional de ser treinada em muito menos tempo e com configurações mais
simples que a LSTM, embora requeira muito mais camadas e mais neurônios que esta
última levando, por consequência, a modelos com mais conexões que ocuparão mais
espaço computacional para serem armazenados (em média, 7 MB por rede contra 70 kB
para a LSTM). Mesmo com todos esses pontos favoráveis à DRNN, a LSTM também
apresentou desempenho notável e é uma opção que deve ser considerada em aplicações
similares com dados não tão ruidosos.
Isto posto, os resultados apresentados permitem concluir que as RNPs são, de
fato, uma alternativa viável para a aplicação ao PIT. Além disso, tal como no PIAN,
vale mencionar que essa aplicação é facilmente extensível a outras indústrias e
processos, considerando as especificidades dos conjuntos de dados em questão.
Finalmente, o treinamento com mais anos de operação, a pesquisa de
arquiteturas e métodos estatísticos para pré-tratamento e mineração de dados, além da
utilização de redes auto-associativas nas variáveis do SICA, como forma de verificar até
que ano as condições de operação continuariam válidas no passado para a inferência,
obtendo uma espécie de mecanismo “não sei” para o sistema proposto, ficam como
sugestões para trabalhos futuros.
83
CAPÍTULO 5
CONCLUSÕES
Resumidamente, nesta tese foram apresentados dois trabalhos inovadores (até
onde foram as pesquisas deste autor) que aplicam o paradigma de redes neurais
profundas a dois problemas complexos da área nuclear envolvendo séries temporais: o
problema de identificação de acidentes nucleares (PIAN) e o problema de inferência de
temperaturas (PIT).
5.1 – RNPs Aplicadas ao PIAN
A metodologia utilizada no PIAN (Capítulo 3) consistiu em elaborar um modelo
de rede neural profunda retificada para servir como classificador e núcleo de um sistema
capaz de, alimentado com as assinaturas temporais de diferentes variáveis
correspondentes a certos acidentes postulados para a UN Angra 2, fornecer o
diagnóstico acerca do evento operacional corrente na usina. No conjunto de 13
acidentes considerado, contendo alguns acidentes com evoluções temporais bastante
similares entre si, o classificador foi capaz de fornecer taxas de acerto de 97,87% no
cenário mais desafiador testado (assumindo o início da classificação no exato segundo
de início do transiente), cabendo destacar que os erros de classificação correspondem,
em maioria, aos instantes iniciais do transiente.
Prosseguiu-se, então, nas pesquisas de métodos para habilitar o sistema a
fornecer a resposta “não sei”, crucial do ponto de vista de segurança e confiabilidade
para sistemas de diagnóstico nessa aplicação. Diversas abordagens foram testadas e
comparadas, sendo a mais eficiente delas conseguida mediante o acoplamento de redes
neurais auto-associativas profundas de classe única ao classificador, resultando em um
sistema capaz de fornecer a resposta “não sei” corretamente para eventos fora do escopo
de treinamento 99,88% das vezes, ao mesmo tempo em que guardou a capacidade de
diagnosticar o evento correto em 94,56% dos casos.
O sistema resultante – facilmente extensível a outras indústrias e operações –
avança o estado da arte apresentado em trabalhos anteriores no qual o sistema se baseou
(MÓL et al., 2002) e superam demais trabalhos similares aplicando redes neurais ao
problema, como Peng et al. (2018), seja em taxa de acerto, abrangência e complexidade
84
do conjunto de dados considerado, como mencionado em Santos et al. (2019) e Pinheiro
et al. (2019).
5.2 – RNPs Aplicadas ao PIT
O PIT (Capítulo 4) foi um problema que surgiu na medida em que, como parte
dos requisitos para autorização da extensão de vida útil da UN Angra 1, dados a respeito
das temperaturas às quais diferentes equipamentos dispostos dentro do prédio de
contenção do reator durante o histórico de operação da usina estiveram expostos
precisavam ser conhecidos com o objetivo de estimar seus envelhecimentos acelerados
devido a esse agente estressor e avaliar, em última instância, suas qualificações
contínuas (EPRI, 2010; MUZITANO et al., 2017). O problema advém do fato de que as
instalações de medidores de temperatura (SMOs) para tal fim começaram a ser
realizadas nos pontos de interesse apenas a partir de 2015, não havendo dados anteriores
fisicamente medidos anteriormente a isso.
A abordagem aqui proposta consistiu, portanto, de utilizar arquiteturas de RNPs
para, através de uma modelagem de regressão, estabelecer a correlação entre as
variáveis físicas disponíveis no histórico de operação da usina medidas através do
sistema integrado de computadores de Angra 1 (SICA) e aquelas medidas pelos SMOs.
Dessa forma, após treinada, a RNP atua como um SMO virtual do passado quando
alimentada com as variáveis regressoras pertinentes, permitindo inferir a temperatura
que seria medida pelo SMO naquela posição caso ele estivesse lá presente.
Após o pré-tratamento, mineração dos dados e otimização dos modelos, as RNPs
estudadas se mostraram capazes de fornecer resultados satisfatórios na grande maioria
dos casos, chegando a alcançar menos de 2 ºC de diferença média absoluta no conjunto
de teste para cerca de 89% dos componentes testados e acima dessa marca nos demais,
provando o valor da abordagem que, a propósito, pode ser também facilmente aplicada
a problemas e conjuntos de dados com características similares.
5.3 – Conclusões Finais e Trabalhos Futuros
De forma geral, os resultados obtidos para o PIAN e PIT evidenciam o grande
potencial latente que as RNPs, tendo sido definidas, estudadas e modernizadas como tal,
possuem no que diz respeito ao atingimento de novos estados da arte em problemas
85
complexos já parcialmente solucionados da área nuclear e, quiçá, na resolução de
problemas ainda em aberto.
Nesse sentido, e revisitando a argumentação apresentada ao final da Seção 1.3,
os estudos de caso apresentados nesta tese, embora relevantes e com resultados
satisfatórios, propõem-se a ser e apresentam-se como ponto de partida, fonte de
referência e exploração incipiente das futuras pesquisas a serem realizadas com esse
paradigma de aprendizado de máquina. Aplicá-lo aos demais desafios e procedimentos
da área nuclear, como o problema de recarga do reator, robótica de enxames para
exploração de ambientes radioativos e geração de salas de controle mais interativas e
inteligentes, potencialmente explorando metodologias não mencionadas aqui, como o
aprendizado por reforço (SUTTON & BARTO, 2018), aprendizado semi-
supervisionado (CHAPELLE et al., 2006) e aprendizado ativo (SETTLES, 2011)
configuram-se como apenas alguns exemplos e ficam aqui como sugestões para
trabalhos futuros.
86
REFERÊNCIAS BIBLIOGRÁFICAS
ABADI, M. et al. TensorFlow: A system for large-scale machine learning. In: USENIX
SYMPOSIUM ON OPERATING SYSTEMS DESIGN AND IMPLEMENTATION.
Proceedings… pp. 265-283, 2016.
AGGARWAL, C. C. Data mining. Springer, Cham, 2015.
AGGARWAL, C. C. Neural networks and deep learning. Springer, 2018.
ALOM, M. Z. et al. A state-of-the-art survey on deep learning theory and architectures.
Electronics, v. 8, n. 3, p. 292, 2019.
ALTMANN, A.; TOLOŞI, L.; SANDER, O.; LENGAUER, T. Permutation importance:
a corrected feature importance measure. Bioinformatics, v. 26, n. 10, pp. 1340-1347,
2010.
ALVARENGA, M. A. B. Diagnóstico do desligamento de um reator nuclear através
de técnicas avançadas de inteligência artificial. Tese (Doutorado em Ciências) –
Programa de Engenharia Nuclear, Universidade Federal do Rio de Janeiro, Rio de
Janeiro, 1997.
ALVARENGA JÚNIOR, W. J. Métodos de otimização hiperparamétrica: um
estudo comparativo utilizando árvores de decisão e florestas aleatórias na
classificação binária. Dissertação (Mestrado em Ciências) – Programa de Engenharia
Elétrica, Universidade Federal de Minas Gerais, Minas Gerais, 2018.
87
AMARBAYASGALAN, T.; JARGALSAIKHAN, B.; RYU, K. H. Unsupervised
novelty detection using deep autoencoders with density-based clustering. Applied
Sciences, v. 8, n. 9, p. 1468, 2018.
BARTLETT, E. B.; UHRIG, R. E. Power Plant Status Diagnostics Using Artificial
Neural Network. Nuclear Technology, v. 97, pp. 272-281, 1992.
BENDALE, A.; BOULT, T. Towards open world recognition. In: IEEE
CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION.
Proceedings… pp. 1893-1902, 2015.
BENGIO, Y. Neural networks for speech and sequence recognition. Nova Iorque:
Van Nostrand Reinhold, 1996.
BENGIO, Y.; LECUN, Y. Scaling learning algorithms towards AI. Large-scale Kernel
Machines, v. 34, n. 5, pp. 1-41, 2007.
BENGIO, Y.; SIMARD, P.; FRASCONI, P. Learning long-term dependencies with
gradient descent is difficult. IEEE Transactions on Neural Networks, v. 5, n. 2, 1994.
BOURLARD, H.; KAMP, Y. Auto-association by multilayer perceptrons and singular
value decomposition. Biological Cybernetics, v. 59, pp. 291-294, 1988.
BREIMAN, L. Random forests. Machine Learning, v. 45, n. 1, pp. 5-32, 2001.
CARDOZO, F. H. P. Simulação de detectores de radiação no interior do prédio de
contenção da usina nuclear Angra 1. Trabalho de conclusão de curso (Engenharia
88
Nuclear) – Escola Politécnica, Universidade Federal do Rio de Janeiro, Rio de Janeiro,
2019.
CHAKRABORTY, D.; PAL, N. R. Making a multilayered perceptron network say "
don't know" when it should. In: INTERNATIONAL CONFERENCE ON NEURAL
INFORMATION PROCESSING. Proceedings… v. 1, pp. 45-49, 2002.
CHALAPATHY, R.; MENON, A. K.; CHAWLA, S. Anomaly detection using one-
class neural networks. ArXiv Preprint, arXiv: 1802.06360, 2018.
CHAPELLE, O.; SCHOLKOPF, B.; ZIEN, A. Semi-supervised learning. Londres:
MIT Press, 2006. 508 p.
CHOLLET, F. Keras. Versão 2.2.4. [S.l.]: 2018. Disponível em:
<https://github.com/fchollet/keras>.
CFR – CODE OF FEDERAL REGULATIONS. Environmental qualification of
electrical equipment important to safety for nuclear power plants. 2000.
CLEVERT, D. A.; UNTERTHINER, T.; HOCHREITER, S. Fast and accurate deep
network learning by exponential linear units (elus). ArXiv Preprint, arXiv:
1511.07289, 2015.
CYBENKO, G. Approximation by superpositions of a sigmoidal function.
Mathematics of Control, Signals and Systems, v. 2, n. 4, pp. 303-314, 1989.
89
DAVID, P. K.; MONTANARI, G. C. Compensation effect in thermal aging
investigated according to Eyring and Arrhenius models. European Transactions on
Electrical Power, v. 2, n .3, pp. 187-194, 1992.
DENIL, M.; MATHESON, D.; DE FREITAS, N. Narrowing the gap: random forests in
theory and in practice. In: INTERNATIONAL CONFERENCE ON MACHINE
LEARNING. Proceedings… pp. 665-673, 2014.
ELETRONUCLEAR – ELETROBRAS TERMONUCLEAR S.A. Critérios para
desenvolvimento do programa de qualificação ambiental de equipamentos elétricos
de Angra 1 (IN-A1-0108). Rio de Janeiro, Brasil, 2018. 43 p.
ELLER, I. B. Uma metodologia para avaliação regulatória de extensão de vida de
usinas nucleares. Dissertação (Mestrado em Ciências) – Instituto de Engenharia
Nuclear, Rio de Janeiro, 2018.
EMBRECHTS, M. J.; BENEDEK, S. Hybrid identification of nuclear power plant
transients with artificial neural networks. IEEE Transactions on Industrial
Electronics, v. 51, n. 3, pp. 686-693, 2004.
EPRI – ELECTRIC POWER RESEARCH INSTITUTE. Environmental qualification
management system implementation guide. Palo Alto, CA, 2003. 50 p.
EPRI – ELECTRIC POWER RESEARCH INSTITUTE. Plant support engineering:
nuclear power plant equipment qualification reference manual, revision 1. Palo
Alto, CA, 2010. 666 p.
90
ERFANI, S. M.; RAJASEGARAR, S.; KARUNASEKERA, S.; LECKIE, C. High-
dimensional and large-scale anomaly detection using a linear one-class SVM with deep
learning. Pattern Recognition, v. 58, pp. 121-134. 2016.
EVSUKOFF, A.; GENTIL, S. Recurrent neuro-fuzzy system for fault detection and
isolation in nuclear reactors. Advanced Engineering Informatics, v. 19, n. 1, pp. 55-
66, 2005.
FUKUSHIMA, K.; WAKE, N. Handwritten alphanumeric character recognition by the
neocognitron. IEEE Transactions on Neural Networks, v. 2, n. 3, pp. 355-365, 1991.
GILES, C. L.; LAWRENCE, S.; TSOI, A. C.. Noisy time series prediction using
recurrent neural networks and grammatical inference. Machine Learning, v. 44, pp.
161-183, 2001.
GLOROT, X.; BENGIO, Y. Understanding the difficulty of training deep feedforward
neural networks. In: INTERNATIONAL CONFERENCE ON ARTIFICIAL
INTELLIGENCE AND STATISTICS. Proceedings… v. 9, pp. 249–256, 2010.
GLOROT, X.; BORDES, A.; BENGIO, Y. Deep Sparse Rectifier Neural Networks. In:
INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND
STATISTICS. Proceedings… v. 15, pp. 315-323, 2011.
GOLLER, C.; KUCHLER, A. Learning task-dependent distributed representations by
backpropagation through structure. In: INTERNATIONAL CONFERENCE ON
NEURAL NETWORKS. Proceedings... pp. 347-352, 1996.
GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep learning. Cambridge: MIT
Press, 2016.
91
GOODFELLOW, I. et al. Generative adversarial nets. In: ADVANCES IN NEURAL
INFORMATION PROCESSING SYSTEMS. Proceedings… pp. 2672-2680, 2014.
GUTOSKI, M.; RIBEIRO, M.; AQUINO, N. M. R.; LAZZARETTI, A. E.; LOPES, H.
S. A clustering-based deep autoencoder for one-class image classification. In: IEEE
LATIN AMERICAN CONFERENCE ON COMPUTATIONAL INTELLIGENCE.
Proceedings… pp. 1-6, 2017.
HA, T. M. The optimum class-selective rejection rule. IEEE Transactions on Pattern
Analysis and Machine Intelligence, v. 19, n. 6, pp. 608-615, 1997.
HAYKIN, S. Redes neurais: princípios e prática. 2. ed. Bookman Editora, 2007.
HEBB, D. O. The organization of behavior. Editora Wiley, 1949.
HOCHREITER, Sepp. Untersuchungen zu dynamischen neuronalen netzen.
Dissertação (Mestrado em Ciências) – Universidade Técnica de Munique, Munique,
1991.
HOCHREITER, S. The vanishing gradient problem during learning recurrent neural
nets and problem solutions. International Journal of Uncertainty, Fuzziness and
Knowledge-Based Systems, v. 6, n. 02, pp. 107-116, 1998.
HOCHREITER, S.; BENGIO, Y.; FRASCONI, P.; SCHMIDHUBER, J. Gradient flow
in recurrent nets: the difficulty of learning long-term dependencies In: KREMER, S. C.;
KOLEN, J. F. (Eds.). A field guide to dynamical recurrent neural networks. 2001.
92
HOCHREITER, S.; SCHMIDHUBER, J. Long short-term memory. Neural
Computation. v. 9, n. 8, pp. 1735-1780, 1997.
HOPFIELD, J. J. Neural networks and physical systems with emergent collective
computational abilities. In: National academy of sciences. Proceedings…v. 79, n. 8, pp.
2554-2558, 1982.
HUNTER, J. D. Matplotlib: A 2D graphics environment. Computing in Science &
Engineering, v. 9, n. 3, pp. 90-95, 2007.
IAEA – INTERNATIONAL ATOMIC ENERGY AGENCY. Equipment qualification
in operational nuclear power plants : upgrading, preserving and reviewing. Viena,
126 p. 1998.
IEEE – Institute of Electrical and Electronics Engineers. Standard for qualifying class
1E electric equipment for nuclear power generating stations (Std 323). 1971.
IEEE – Institute of Electrical and Electronics Engineers. Nuclear EQ sourcebook: - a
compilation of documents for nuclear equipment qualification and supplement.
1993.
IOFFE, S.; SZEGEDY, C. Batch normalization: accelerating deep network training by
reducing internal covariate shift. ArXiv Preprint, arXiv: 1502.03167, 2015.
JAEGER, H. The “echo state” approach to analyzing and training recurrent neural
networks - with an erratum note. In: German national research center for
information technology GMD technical report, v. 148, n. 34, p. 13, 2001.
93
JAIN, L. P.; SCHEIRER, W. J.; BOULT, T. E. Multi-class open set recognition using
probability of inclusion. In: EUROPEAN CONFERENCE ON COMPUTER VISION,
Proceedings... pp. 393-409, 2014.
JEONG, E.; FURUTA, K.; KONDO, S. Identification of transient in nuclear power
plant using adaptive template matching with neural network. In: INTERNATIONAL
TOPICAL MEETING ON NUCLEAR PLANT INSTRUMENTATION, CONTROL
AND HUMAN-MACHINE INTERFACE TECHNOLOGIES. Proceedings… pp. 243-
250, 1996.
JORDAN, M. I. Attractor dynamics and parallelism in a connectionist sequential
machine. In: Artificial neural networks: concept learning, pp. 112-127, 1990.
KARPATHY, A. CS231n Convolutional Neural Networks for Visual Recognition
[on-line]. Universidade de Stanford. Mai. 2019 [citado em 28 Jan. 2020]. Disponível
em: <http://cs231n.github.io/convolutional-networks/>.
KARMAKAR, B.; PAL, N. R. How to make a neural network say „„don‟t know”.
Information Sciences, v. 430, pp. 444–466, 2018.
KENNEDY, J. Some issues and practices for particle swarms. In: IEEE SWARM
INTELLIGENCE SYMPOSIUM. Proceedings… pp. 162-169, 2007.
KENNEDY, J.; EBERHART, R. C.; SHI, Y. Swarm intelligence. Elsevier, 2001.
KHARECHA, P. A.; HANSEN, J. E. Prevented mortality and greenhouse gas emissions
from historical and projected nuclear power. Environmental Science & Technology, v.
47, n. 9, pp. 4889-4895, 2013.
94
KLAMBAUER, G.; UNTERTHINER, T.; MAYR, A.; HOCHREITER, S. Self-
normalizing neural networks. ArXiv Preprint, arXiv: 1706.02515, 2017.
KRAMER, M. A. Autoassociative neural networks. Computers & Chemical
Engineering, v. 16, pp. 313-328, 1992.
KRIZHEVSKY, A.; SUTSKEVER, I.; HINTON, G. E. Imagenet classification with
deep convolutional neural networks. ADVANCES IN NEURAL INFORMATION
PROCESSING SYSTEMS. Proceedings… pp. 1097-1105, 2012.
KUCHAIEV, O.; GINSBURG, B. Training deep autoencoders for collaborative
filtering. ArXiv Preprint, arXiv: 1708.01715, 2017.
KWON, K. C.; KIM, J. H. Accident identification in nuclear power plants using hidden
Markov models. Engineering Applications of Artificial Intelligence, v. 12, pp. 491-
501, 1999.
LECUN, Y.; BOSER, B.; DENKER, J. S.; HENDERSON, D.; HOWARD, R. E.;
HUBBARD, W.; JACKEL, L. D. Backpropagation applied to handwritten zip code
recognition. Neural Computation, v. 1, n. 4, pp. 541-551, 1989.
LEWIS, J. W.; VAN ESSEN, D. C. Mapping of architectonic subdivisions in the
macaque monkey, with emphasis on parieto‐occipital cortex. Journal of Comparative
Neurology, v. 428, n. 1, pp. 79-111, 2000.
LI, K. L., HUANG, H. K., TIAN, S. F., XU, W. Improving one-class SVM for anomaly
detection. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND
CYBERNETICS. Proceedings… pp. 3077–3081, 2003.
95
LIPTON, Z. C.; BERKOWITZ, J.; ELKAN, C. A critical review of recurrent neural
networks for sequence learning. ArXiv Preprint, arXiv: 1506.00019, 2015.
LITTLE, W. A. The existence of persistent states in the brain. In: From high-
temperature superconductivity to microminiature refrigeration. Springer, Boston,
MA, pp. 145-164, 1974.
LUKOŠEVIČIUS, M.; JAEGER, H. Reservoir computing approaches to recurrent
neural network training. Computer Science Review, v. 3, n. 3, p. 127-149, 2009.
MA, J.; JIANG, J. Applications of fault detection and diagnosis methods in nuclear
power plants: a review. Progress in Nuclear Energy, v. 53, n. 3, pp. 255-266, 2011.
MARKANDYA, A.; WILKINSON, P. Electricity generation and health. The Lancet,
v. 370, n. 9591, pp. 979-990, 2007.
MARTINEZ, A. S.; DE OLIVEIRA, L. F. S.; SCHIRRU, R.; THOME, F.; DA SILVA,
R. A. A new concept of safety parameter display system. NUCLEAR ENGINEERING
IN LATIN AMERICA. Proceedings… 1986.
MATHEW, S.; VARGHESE, S.; JOSEPH, R. Degradation behaviour of natural rubber
layered silicate nanocomposites. Progress in Rubber Plastics and Recycling
Technology, v. 29, n. 1, pp. 1-20, 2013.
MCCULLOCH, W. S.; PITTS, W. A logical calculus of the ideas immanent in nervous
activity. The Bulletin of Mathematical Biophysics, v. 5, n. 4, p. 115-133, 1943.
96
MCKINNEY, W. Data structures for statistical computing in Python. In: PYTHON IN
SCIENCE CONFERENCE. Proceedings… pp. 51-56, 2010.
MINSKY, M.; PAPERT, S. Perceptrons. MIT Press, 1969.
MÓL, A. C. A.; MARTINEZ, A. S.; SCHIRRU, R. A. New approach for transient
identification with "Don‟t Know" response using neural networks. In: RUAN, D. (Ed.).
Power plant surveillance and diagnostics: applied research and diagnostics. Berlin:
Springer, pp. 253-272, 2010.
MOSHKBAR-BAKHSHAYESH, K.; GHOFRANI, M. B. Transient identification in
nuclear power plants: a review. Progress in Nuclear Energy, v. 67, pp. 23-32, 2013.
MUZITANO, G. F.; JUSTINO, M. C.; SILVA, M. C. Environmental qualification
program of electric equipment for Angra 1. In: INTERNATIONAL NUCLEAR
ATLANTIC CONFERENCE. Proceedings… Brasil, 2017.
NICKOLLS, J.; BUCK, I.; GARLAND, M.; SKADRON, K. Scalable parallel
programming with CUDA. Queue, v. 6, n. 2, pp. 40-53, 2008.
NICOLAU, A. S.; SCHIRRU, R. Study of Confinements in the QDPSO applied to
Nuclear Accident Identification Problems. International Journal of Applied
Mathematics and Informatics, n. 144, 2013.
NICOLAU, A. S.; SCHIRRU, R. A new methodology for diagnosis system with “Don‟t
Know” response for Nuclear Power Plants. Annals of Nuclear Energy, v. 100, pp. 91-
97, 2017.
97
NRC – NUCLEAR REGULATORY COMISSION. Standard Review Plan for the
Review of Safety Analysis Reports for Nuclear Power Plants. 1981.
NRC – NUCLEAR REGULATORY COMISSION. Environmental qualification of
safety-related electrical equipment (Generic Letter 82-09). 1982.
NRC – NUCLEAR REGULATORY COMISSION. Regulatory guide 1.89:
environmental qualification of certain electric equipment important to safety for
nuclear power plants. 1984.
NG, A. Y. Feature selection, L1 vs. L2 regularization, and rotational invariance. In:
INTERNATIONAL CONFERENCE ON MACHINE LEARNING. Proceedings… p.
78, 2004.
NWANKPA, C.; IJOMAH, W.; GACHAGAN, A.; MARSHALL, S. Activation
functions: comparison of trends in practice and research for deep learning. ArXiv
Preprint, arXiv: 1811.03378, 2018.
O‟HARA, J.; HIGGINS, J.; STUBLER, W.; GOODMAN, C.; ECKINRODE, R.;
BONGARRA, J.; GALLETTI, G. Human factors engineering review program model
(NUREG-0711 rev. 1). US Nuclear Regulatory Commission, Washington, DC, 1994.
OLAH, C. Understanding LSTM Networks [on-line]. 27 Ago. 2015 [citado em 28
Jan. 2020]. Disponível em: <https://colah.github.io/posts/2015-08-Understanding-
LSTMs/>.
PEDERSEN, M. E. H.; CHIPPERFIELD, A. J. Simplifying particle swarm
optimization. Applied Soft Computing, v. 10, n. 2, pp. 618-628, 2010.
98
PEDREGOSA, F. et al. Scikit-learn: machine learning in Python. Journal of Machine
Learning Research, v. 12, pp. 2825-2830, 2011.
PENG, B.S.; XIA, H.; LIU, Y.K.; YANG, B.; GUO, D.; ZHU, S.M. Research on
intelligent fault diagnosis method for nuclear power plant based on correlation analysis
and deep belief network. Progress in Nuclear Energy, v. 108, pp. 419-427, 2018.
PERRAULT, R. et al. The AI Index 2019 Annual Report. AI Index Steering
Committee – Human-Centered AI Institute, Stanford University, Stanford, CA,
2019.
PINHEIRO, V. H. C. Programação genética aplicada à identificação de acidentes de
uma usina nuclear PWR. Dissertação (Mestrado em Ciências) – Programa de
Engenharia Nuclear, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2018.
PINHEIRO, V. H. C.; SANTOS, M. C.; DESTERRO, F. S. M.; SCHIRRU, R.;
PEREIRA, C. M. D. N. A. Nuclear Power Plant accident identification system with
“don‟t know” response capability: Novel deep learning-based approaches. Annals of
Nuclear Energy, v. 137, p. 107, 2019.
PINHEIRO, V. H. C.; SCHIRRU, R. Genetic Programming Applied to the
Identification of Accidents of a PWR Nuclear Power Plant. Annals of Nuclear Energy,
v. 124, pp. 335-341, 2019.
PINHO, B. E. Uma proposta inicial de um plano para o período de transição do
desligamento permanente da usina nuclear Angra 1 até a condição de safe storage.
Dissertação (Mestrado em Ciências) – Programa de Engenharia Nuclear, Universidade
Federal do Rio de Janeiro, Rio de Janeiro, 2018.
99
PRETORIUS, A.; BIERMAN, S.; STEEL, S. J. A meta-analysis of research in random
forests for classification. In: INTERNATIONAL CONFERENCE FOR PATTERN
RECOGNITION ASSOCIATION OF SOUTH AFRICA AND ROBOTICS AND
MECHATRONICS. Proceedings... pp. 1-6, 2016.
ROSENBLATT, F. The perceptron: a probabilistic model for information storage and
organization in the brain. Psychological Review, v. 65, n. 6, p. 386, 1958.
ROVERSO, D. On-line early fault detection and diagnosis with the alladin transient
classifier. In: AMERICAN NUCLEAR SOCIETY INTERNATIONAL TOPICAL
MEETING ON NUCLEAR PLANT INSTRUMENTATION, CONTROL AND
HUMAN-MACHINE INTERFACE TECHNOLOGIES. Proceedings... Illinóis: ANS,
pp. 19-22, 2004.
RUFF, L. et al. Deep one-class classification. In: INTERNATIONAL CONFERENCE
ON MACHINE LEARNING. Proceedings… pp. 4393-4402, 2018.
RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learning representations by
back-propagating errors. Nature, v. 323, n. 6088, pp. 533-536, 1986.
RUSSELL, S. J.; NORVIG, P. Artificial intelligence: a modern approach. Prentice
Hall, 2009.
SANTOS, M. C.; PINHEIRO, V. H. C.; DESTERRO, F. S. M.; AVELLAR, R. K.;
SCHIRRU, R.; NICOLAU, A. S.; LIMA, A. M. M. Deep rectifier neural network
applied to the accident identification problem in a PWR nuclear power plant. Annals of
Nuclear Energy, v. 133, pp. 400-408, 2019.
100
SCHEIRER, W. J.; JAIN, L. P.; BOULT, T. E. Probability models for open set
recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, v.
36, n. 11, pp. 2317–2324, 2014.
SCHMIDHUBER, J. Deep learning in neural networks: An overview. Neural
Networks, v. 61, pp. 85-117, 2015.
SCHÖLKOPF, B.; WILLIAMSON, R.; SMOLA, A.; SHAWE-TAYLOR, J.; PLATT,
J. Support vector method for novelty detection. INTERNATIONAL CONFERENCE
ON NEURAL INFORMATION PROCESSING SYSTEMS. Proceedings… pp. 582-
588, 1999.
SETTLES, B. From theories to queries: active learning in practice. ACTIVE
LEARNING AND EXPERIMENTAL DESIGN WORKSHOP. Proceedings… pp. 1-
18, 2011.
SHOHAM, Y. et al. The AI index 2018 annual report. AI Index Steering Committee –
Human-Centered AI Initiative, Stanford University, Stanford, CA, 2018.
SIEGELMANN, H. T.; SONTAG, E. D. On the computational power of neural nets. In:
WORKSHOP ON COMPUTATIONAL LEARNING THEORY. Proceedings… pp.
440-449, 1992.
SRIVASTAVA, N.; HINTON, G.; KRIZHEVSKY, A.; SUTSKEVER, I.;
SALAKHUTDINOV, R. Dropout: a simple way to prevent neural networks from
overfitting. The Journal of Machine Learning Research, v. 15, n. 1, pp. 1929-1958,
2014.
101
SUTTON, R. S.; BARTO, A. G. Reinforcement learning: an introduction. Cambridge:
MIT Press, 2018.
TSCHANNEN, M.; BACHEM, O.; LUCIC, M. Recent advances in autoencoder-based
representation learning. ArXiv Preprint, arXiv: 1812.05069, 2018.
VAN ROSSUM, G. Python Programming Language. In: USENIX ANNUAL
TECHNICAL CONFERENCE. Proceedings… v. 41, p. 36, 2007.
VARGAS, R.; MOSAVI, A.; RUIZ, R. Deep learning: a review. Advances in
Intelligent Systems and Computing, v. 29, n. 8, pp. 232-244, 2017.
WALT, S. V. D.; COLBERT, S. C.; VAROQUAUX, G. The NumPy array: a structure
for efficient numerical computation. Computing in Science & Engineering, v. 13, n. 2,
pp. 22-30, 2011.
WANG, X.; TANG, Z.; TAMURA, H.; ISHII, M.; SUN, W. D. An improved
backpropagation algorithm to avoid the local minima problem. Neurocomputing, v. 56,
pp. 455-460, 2004.
WERBOS, Paul. Beyond regression: new tools for prediction and analysis in the
behavioral sciences. Tese (Doutorado em Ciências) – Universidade de Harvard,
Massachusetts, 1974.
WERBOS, P. J. Backpropagation through time: what it does and how to do it. In: IEEE.
Proceedings… v. 78, n. 10, pp. 1550-1560, 1990.
102
ZEILER, M. D.; FERGUS, R. Visualizing and understanding convolutional networks.
In: EUROPEAN CONFERENCE ON COMPUTER VISION. Proceedings… Springer,
Cham, pp. 818-833, 2014.
ZHOU, C.; PAFFENROTH, R. C. Anomaly Detection with Robust Deep Autoencoders.
In: ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE
DISCOVERY AND DATA MINING. Proceedings… pp. 665-674, 2017.
ZHOU, Y.; ARPIT, D.; NWOGU, I.; GOVINDARAJU, V. Is Joint Training Better for
Deep Auto-Encoders, ArXiv Preprint, arXiv: 1405.1380, 2014.
ZONG, B.; SONG, Q.; MIN, M. R.; CHENG, W.; LUMEZANU, C.; CHO, D.; CHEN,
H. Deep autoencoding gaussian mixture model for unsupervised anomaly detection. In:
INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS.
Proceedings… Vancouver, Canadá, 2018.
top related