reconhecimento de postes da rede elétrica em vias urbanas ... · ufg, foi bolsista da fundação...

UNIVERSIDADE FEDERAL DE GOIÁSINSTITUTO DE INFORMÁTICA

ALLAN KARDEC LOPES

Reconhecimento de postes da redeelétrica em vias urbanas em imagens do

Google Street View

Goiânia2016

TERMO DE CIÊNCIA E DE AUTORIZAÇÃO PARA DISPONIBILIZAR AS TESES EDISSERTAÇÕES ELETRÔNICAS NA BIBLIOTECA DIGITAL DA UFG

Na qualidade de titular dos direitos de autor, autorizo a Universidade Federal de Goiás(UFG) a disponibilizar, gratuitamente, por meio da Biblioteca Digital de Teses e Dissertações(BDTD/UFG), regulamentada pela Resolução CEPEC nº 832/2007, sem ressarcimento dos direi-tos autorais, de acordo com a Lei nº 9610/98, o documento conforme permissões assinaladasabaixo, para fins de leitura, impressão e/ou download, a título de divulgação da produção cien-tífica brasileira, a partir desta data.

1. Identificação do material bibliográfico: [ X ] Dissertação [ ] Tese

2. Identificação da Tese ou Dissertação

Nome completo do autor: Allan Kardec Lopes

Título do trabalho: Reconhecimento de postes da rede elétrica em vias urbanas em imagens doGoogle Street View

3. Informações de acesso ao documento:

Concorda com a liberação total do documento [ X ] SIM [ ] NÃO1

Havendo concordância com a disponibilização eletrônica, torna-se imprescindível o en-vio do(s) arquivo(s) em formato digital PDF da tese ou dissertação.

________________________________________ Data: 15 / 12 / 2016 Assinatura do (a) autor (a)

1 Neste caso o documento será embargado por até um ano a partir da data de defesa. A extensão deste prazo suscita justi-ficativa junto à coordenação do curso. Os dados do documento não serão disponibilizados durante o período de embar-go.

ALLAN KARDEC LOPES


Google Street View

Dissertação apresentada ao Programa de Pós–Graduação doInstituto de Informática da Universidade Federal de Goiás,como requisito parcial para obtenção do título de Mestre emCiência da Computação.

Área de concentração: Ciência da Computação.Orientador: Prof. Dr. Fabrizzio Alphonsus Alves de MeloNunes Soares

Goiânia2016

Ficha de identificação da obra elaborada pelo autor, através doPrograma de Geração Automática do Sistema de Bibliotecas da UFG.

CDU 004

Lopes, Allan Kardec Reconhecimento de postes da rede elétrica em vias urbanas emimagens do Google Street View [manuscrito] / Allan Kardec Lopes. -2016. LXXVIII, 78 f.: il.

Orientador: Prof. Dr. Fabrizzio Alphonsus Alves de Melo NunesSoares. Dissertação (Mestrado) - Universidade Federal de Goiás, Institutode Informática (INF), Programa de Pós-Graduação em Ciência daComputação, Goiânia, 2016. Bibliografia. Inclui fotografias, símbolos, gráfico, tabelas, lista de figuras, listade tabelas.

1. Postes da rede elétrica. 2. reconhecimento. 3. Google StreetView. 4. características. 5. Mutilayer Perceptron. I. Alves de MeloNunes Soares, Fabrizzio Alphonsus, orient. II. Título.

ALLAN KARDEC LOPES


Google Street View

Dissertação defendida no Programa de Pós–Graduação do Instituto deInformática da Universidade Federal de Goiás como requisito parcialpara obtenção do título de Mestre em Ciência da Computação, aprovadaem 23 de Novembro de 2016, pela Banca Examinadora constituídapelos professores:

Prof. Dr. Fabrizzio Alphonsus Alves de Melo Nunes SoaresInstituto de Informática – UFG

Presidente da Banca

Prof. Dr. Cláudio Afonso FleuryCampus Goiânia – IFG

Prof. Dr. Ronaldo Martins da CostaInstituto de Informática – UFG

Todos os direitos reservados. É proibida a reprodução total ou parcial dotrabalho sem autorização da universidade, do autor e do orientador(a).

Allan Kardec Lopes

Graduou–se em Tecnologia em Sistemas de Informação no Centro Federalde Educação Tecnológica de Urutaí - CEFET-Urutaí (hoje Instituto FederalGoiano - Campus Urutaí). Atualmente é professor do Instituto Federal Goiano- Campus Posse. Durante o Mestrado, na Universidade Federal de Goiás -UFG, foi bolsista da Fundação de Amparo à Pesquisa do Estado de Goiás -FAPEG.

À minha esposa Lais e ao meu filho Joaquim, fontes de inspiração.

Agradecimentos

Em primeiro lugar a Deus que me concedeu saúde e determinação para trilhareste caminho. Ao meu Orientador, o Prof. Fabrizzio Alphonsus Alves de Melo NunesSoares, que sabiamente me orientou. À minha esposa, Lais Cândido Rodrigues da SilvaLopes, que muitas vezes compartilhou das minhas angústias e alegrias no decorrer destapesquisa, além de, sempre que solicitada, muito carinhosamente revisou e contribuiu como texto desta dissertação. À Fapeg, pela concessão da bolsa com a qual me sustenteidurante o período. Aos meus colegas, Professores do Instituto Federal Goiano, pelacompreensão que sempre tiveram ao atender minhas solicitações de mudança de horáriopara que fosse possível cursar esta Pós-Graduação. A todos os meus Professores doInstituto de Informática da UFG por contribuírem com a minha formação. À CELG-D pelo apoio financeiro a esta pesquisa. E por último, aos meus colegas do PixelLab(Laboratório de Processamento Digital de Imagens e Visão Computacional) que sempreme ajudaram com várias ideias.

"Tenho a impressão de ter sido uma criança brincando à beira-mar,divertindo-me em descobrir uma pedrinha mais lisa ou uma concha mais bo-nita que as outras, enquanto o imenso oceano da verdade continua misteriosodiante de meus olhos".

Isaac Newton

Resumo

Lopes, Allan Kardec. Reconhecimento de postes da rede elétrica em viasurbanas em imagens do Google Street View. Goiânia, 2016. 78p. Dissertaçãode Mestrado. Instituto de Informática, Universidade Federal de Goiás.

Ambientes urbanos, tais como ruas, estradas e construções, sempre demandam geren-ciamento e manutenção para que sejam melhor utilizados. Nesse sentido, ferramentascomputacionais que auxiliem seus gestores são sempre desejáveis. Além disso, tais fer-ramentas geralmente diminuem os gastos tendo em vista que automatizam várias tarefas.Esta pesquisa apresenta um estudo de técnicas para o reconhecimento de postes da redeelétrica em imagens de ruas mapeadas pelo Google Street View. Características como cor,textura e forma foram pesquisadas com o objetivo de se encontrar aquelas que melhorrepresentem os objetos de interesse. O reconhecimento foi realizado por uma rede neuraldo tipo Multilayer Perceptron treinada com o algoritmo Levenberg-Marquardt. Os resul-tados obtidos demonstram uma acurácia superior em relação às demais características noreconhecimento quando utiliza-se, de forma combinada, a moda RGB e propriedades detextura para representar os objetos presentes nestas imagens.

Palavras–chave

Postes da rede elétrica, reconhecimento, Google Street View, características, cor,textura, forma, Mutilayer Perceptron.

Abstract

Lopes, Allan Kardec. Recognition Pole Utility in Urban Environments UsingGoogle Street View Images. Goiânia, 2016. 78p. MSc. Dissertation. Institutode Informática, Universidade Federal de Goiás.

Urban environments, such as streets, roads and buildings, always require managementand maintenance to better use. In this sense, computational tools to assist their managersare always desirable. Furthermore, these tools generally decrease spending in order toautomate several tasks. This research presents an approach to recognition of pole utilityin streets mapped by images from Google Street View. Features such as color, textureand shape were examined in order to find the best set of information that represents theobjects of interest. The recognition was performed by a neural network type MultilayerPerceptron trained with the Levenberg-Marquardt algorithm. The results show a higheraccuracy in recognition when used in combination, mode RGB and texture properties asfeatures to represent the structures present in the images.

Keywords

Pole Utility, recognition, google street view, features, color, texture, shape,mutilayer perceptron.

Sumário

Lista de Figuras 13

Lista de Tabelas 17

1 Introdução 181.1 Contextualização e Motivação 181.2 Trabalhos Relacionados 191.3 Justificativa 211.4 Objetivos 22

1.4.1 Geral 221.4.2 Específicos 22

1.5 Organização da Dissertação 22

2 Reconhecimento de Postes em Imagens 232.1 Sobre as Amostras Utilizadas 232.2 Segmentação 292.3 Extração de Características 40

2.3.1 Cor 402.3.2 Textura 402.3.3 Forma 42

2.4 Reconhecimento 55

3 Experimentos e Resultados 603.1 Experimento I 603.2 Experimento II 603.3 Experimento III 613.4 Experimento IV 613.5 Experimento V 613.6 Avaliação dos Resultados Obtidos 613.7 Comparação com Outros Modelos 653.8 Protótipo 65

4 Conclusões, Trabalhos Futuros e Publicações 744.1 Conclusões 744.2 Trabalhos Futuros 744.3 Publicações Originadas Desta Dissertação 75

Referências Bibliográficas 76

Lista de Figuras

2.1 Exemplo de imagem obtida com a API do Google Street View - Amostra 1. 242.2 Exemplo de imagem obtida com a API do Google Street View - Amostra 2. 242.3 Exemplo de imagem obtida com a API do Google Street View - Amostra 3. 252.4 Exemplo de imagem obtida com a API do Google Street View - Amostra 4. 252.5 Exemplo de imagem obtida com a API do Google Street View - Amostra 5. 262.6 Exemplo de imagem obtida com a API do Google Street View - Amostra 6. 262.7 Exemplo de imagem obtida com a API do Google Street View - Amostra 7. 272.8 Exemplo de imagem obtida com a API do Google Street View - Amostra 8. 272.9 Exemplo de imagem obtida com a API do Google Street View - Amostra 9. 282.10 Exemplo de imagem obtida com a API do Google Street View - Amostra 10. 282.11 Na Figura 2.11(a) o resultado do algoritmo MS. A Figura 2.11(b) demons-

tra a coloração não uniforme do poste. 32(a) Exemplo de um resultado obtido com o MS. 32(b) Desvio padrão dos pixels do poste. 32

2.12 Exemplo de objeto segmentado pelo MS e rotulado como pertencente àclasse poste - Amostra 1. 33






















2.34 Representação da vizinhança de um pixel *. Neste caso, d = 1 e todos osângulos são considerados. 40

2.35 Reconstrução da forma com as 8 harmônicas mais representativas -Amostra 1. 44






















2.57 Representação matemática de um neurônio biológico. Adaptado de[Haykin 2009]. 55

2.58 Representação de uma MLP com três camadas de neurônios. 552.59 Dois tipos de funções de ativação dos neurônios. 56

(a) Linear 56(b) Tangente hiperbólica 56

2.60 Resposta do classificador para diferentes valores de limiar. 582.61 Resumo das etapas do modelo proposto. 59

3.1 Curva ROC das RNA’s treinadas com diferentes combinações de carac-terísticas. 64

3.2 Comparação da acurácia obtida com a acurácia obtida em outros modelos. 663.3 Exemplo de resultado obtido com o protótipo desenvolvido a partir do

classificador treinado com a moda RGB e textura de Haralick - Amostra 1. 673.4 Exemplo de resultado obtido com o protótipo desenvolvido a partir do





classificador treinado com a moda RGB e textura de Haralick - Amostra 6. 693.9 Exemplo de resultado obtido, em destaque, na cor azul, os objetos que

influenciaram no posicionamento do retângulo. - Amostra 1. 70

3.10 Exemplo de resultado obtido, em destaque, na cor azul, os objetos queinfluenciaram no posicionamento do retângulo. - Amostra 2. 71





Lista de Tabelas

2.1 Resumo dos parâmetros utilizados no classificador. 57

3.1 Matriz de confusão do classificador treinado com a moda RGB - Experi-mento I. 62

3.2 Matriz de confusão do classificador treinado com as características detextura - Experimento II. 62

3.3 Matriz de confusão do classificador treinado com a moda RGB e ascaracterísticas de textura - Experimento III. 62

3.4 Matriz de confusão do classificador treinado com os DEF’s - ExperimentoIV. 62

3.5 Matriz de confusão do classificador treinado com todas as características- Experimento V. 63

3.6 Indicadores calculados a partir das matrizes de confusão. 63

CAPÍTULO 1Introdução

1.1 Contextualização e Motivação

De acordo com [Yokoyama et al. 2013], a demanda por sistemas de Visão Com-putacional (VC) que auxiliem no gerenciamento de ambientes urbanos tem aumentadobastante nos últimos anos. Estes ambientes geralmente possuem objetos de responsabili-dade do poder público tais como, postes, estradas, sinais de trânsito, etc. No trabalho de[Yokoyama et al. 2013], por exemplo, foi utilizado um dispositivo de escaneamento laser

acoplado a um carro para obter uma nuvem de pontos e assim realizar um mapeamento deruas a fim de detectar e reconhecer diferentes tipos de postes, como por exemplo, postesde distribuição de energia, postes de iluminação e postes de sustentação de placas de trân-sito. O método de classificação utilizado era baseado na extração de características usandoa classificação dos pontos por meio da tranformada conhecida como Principal Compo-

nent Analysis (PCA). Em [Barranco-Gutierrez, Martinez-Diaz e Gomez-Torres 2014] umsistema de visão foi projetado para detectar postes da rede elétrica. A ideia era integrareste sistema a um robô capaz de realizar reparos nas conexões dos cabos dos postes. Jáem [Cetin, Bikdash e McInerney 2009], foi proposto um método para auxiliar um opera-dor humano a identificar mais falcimente postes da rede elétrica em imagens áereas. Ométodo proposto baseava-se nas sombras projetadas por estas estruturas.

O Google Street View é parte integrante do Google Maps e permite aos seususuários, através da geolocalização, a obtenção de imagens panorâmicas de ruas devários lugares do mundo. Ele pode ser utilizado como fonte de dados para sistemasde Processamento Digital Imagens (PDI) e VC que trabalham com o mapeamentode vias urbanas oferecendo imagens com muitas informações úteis. Por exemplo, em[Hara et al. 2013], imagens do Street View foram utilizadas para identificar calçadasinacessíveis para pedestres usando técnicas de VC. O escopo era a identificação dapresença ou ausência de rampas nas calçadas. Para isso, foi utilizado exemplos positivose negativos de tais situações para treinar uma Support Vector Machine (SVM).

Um sistema de VC envolve a execução de várias tarefas, dentre elasdestacam-se, segmentação, extração de características e classificação. Nos úl-

1.2 Trabalhos Relacionados 19

timos anos, vários métodos foram propostos para realizá-las. Em relação àsegmentação, muitas estratégias podem ser encontradas em [Pal e Pal 1993],[Haralick e Shapiro 1985], e [Fu e Mui 1981]. Para extração de características, destacam-se os trabalhos de [Haralick, Shanmugam e Dinstein 1973], [Kuhl e Giardina 1982] e[Kass, Witkin e Terzopoulos 1988]. Em relação à classificação, várias técnicas tambémforam propostas, vários exemplos podem ser encontrados em [Levenberg 1944]. Encon-trar o melhor método, para esta ou aquela tarefa, nem sempre é fácil e uma escolha ruim,em uma destas fases do sistema, pode ser propagada para as fases seguintes resultandoem baixa acurácia. Por outro lado, encontrar um determinado objeto em uma imagemdigital do mundo real não é uma tarefa trival para os algoritmos existentes. Primeiro,porque duas imagens de um mesmo objeto, mesmo que obtidas em sequência, geral-mente são diferentes. Segundo, porque imagens do mundo real são cheias de ruído quepodem atrapalhar a identificação. E terceiro, porque objetos da mesma classe, como porexemplo poste, podem ser diferentes uns dos outros. De acordo com [Lopes et al. 2015] e[Lopes et al. 2016], os postes geralmente se diferem na cor, forma, material de fabricaçãoe inclinação. Outro problema é que estes podem ser facilmente confundidos com outrosobjetos com características semelhantes, como por exemplo, certos tipos de árvores, umavez que os corpos de alguns postes são de madeira.

Pretende-se, neste trabalho, reconhecer postes da rede elétrica em imagens doGoogle Street View. Para isto, foram utilizadas informações da cor, textura e formapara caracterizar os objetos presentes nas imagens obtidas e uma Rede Neural Artificial(RNA), do tipo Multilayer Perceptron (MLP), foi treinada para classificá-los como objetospertencentes, ou não, à classe de objetos postes.

1.2 Trabalhos Relacionados

Em [Barranco-Gutierrez, Martinez-Diaz e Gomez-Torres 2014] foi proposto umsistema de reconhecimento de postes da rede elétrica baseado em cor, forma e visãoestéreo fotométrica com o uso de câmeras convencionais de baixo custo. A ideia é queeste sistema venha integrar um sistema de manutenção robótico capaz de trabalhar em viasurbanas fazendo reparos nas conexões dos cabos dos postes. De acordo com os autores, osprincipais desafios desta abordagem referem-se a iluminação solar intensa, confusão como corpo metálico de sustentação de telefones públicos, colunas de construções, árvores,luzes da rua e a inclinação do solo em relação ao poste. O sistema de reconhecimentoproposto, naquele trabalho, é baseado em 3 passos:

• Segmentação baseada em cores;• Reconhecimento da forma e estimação da inclinação;

1.2 Trabalhos Relacionados 20

• Medição do diâmetro do poste por um sistema de visão estéreo.

O Reconhecimento da forma foi realizado por uma RNA. Os resultados apre-sentados são relativos ao conjunto de treinamento, onde o classificador demonstrou umaacurácia global de 100%.

No trabalho de [Yokoyama et al. 2013] foi proposto um detector e classificadorde diferentes tipos de postes tais como poste de iluminação, de sustentação de placas detrânsito e da rede elétrica. A etapa de detecção é baseada na extração de característicaspor meio da aplicação do PCA em uma nuvem de pontos oriunda do escaneamento móvellaser de vias urbanas. Já a etapa de classificação leva em consideração características daforma e da distribuição do contorno destes objetos. Uma característica importante destedetector é que não é necessário treiná-lo previamente com um conjunto de dados. Outracaracterítica deste sistema é a necessidade de que os pontos, relativos ao chão, sejamremovidos antes da nuvem de pontos. A detecção é composta de 4 passos:

• Segmentação dos objetos pela conexão dos pontos vizinhos;• Aplicação da suavização de Laplacian em cada segmento com objetivo de remover

ruídos e realçar características;• Aplicação do PCA para classificar os pontos em diferentes tipos de objetos (postes,

objetos planos e outros);• Detecção baseada em propriedades geométricas dos objetos.

A classificação dos postes em seus diferentes tipos também é realizada em 4passos:

• Reconhecimento das partes anexas do poste;• Extração de características da forma das partes anexas;• Extração de características de contexto baseada na posição relativa de um poste e

sua distribuição local;• Classificação do tipo do poste usando características da forma e do contexto.

O método foi testado em duas bases de dados. Com relação à parte de detecção,o mesmo obteve uma acurácia de 79,3% e 60,0% nas bases 1 e 2 respectivamente. Já emrelação à acurácia de classificação, o método obteve 81,5% (somatório da acurácia dasduas bases) considerando somente os postes que foram detectados corretamente e não ototal de postes dentro das duas bases.

Em [Cetin, Bikdash e McInerney 2009], foi proposto um método para auxiliarum operador humano a reconhecer postes elétricos em imagens aéreas pela detecção dasombra destes objetos. Os autores argumentam que a sombra dos postes possuem altocontraste e orientação consistente em grandes áreas de um mapa aéreo. No entanto, é

1.3 Justificativa 21

necessário para aplicação do método, considerar a correção da inclinação da sombra(dependendo do horário de captura da imagem) causada pelo movimento natural do sol.Este método é composto por 3 etapas:

• Extração de caracteríticas das sombras dos postes usando filtros e técnicas de PDI;• Aplicação de filtros de convolução nas características a fim de se enfatizar a possível

localização das sombras;• Aplicação da transformada de Radon para verificar a aderência em relação às

características esperadas.

O método foi aplicado em uma imagem aérea em escala de cinza com resoluçãode 444x27. Nesta, existem 22 postes mas o método conseguiu enfatizar, para uma melhorvisuzalização do operador humano, apenas 19.

1.3 Justificativa

Ambientes urbanos, tais como ruas, estradas e construções, sempre demandamgerenciamento e manutenção para que sejam melhor utilizados. Nesse sentido, ferra-mentas computacionais que auxiliem seus gestores são sempre desejáveis. Alguns exem-plos de pesquisas que podem servir para subsidiar o desenvolvimento destas ferramentaspodem ser encontradas em [Barranco-Gutierrez, Martinez-Diaz e Gomez-Torres 2014],[Cetin, Bikdash e McInerney 2009] e [Yokoyama et al. 2013]. Por outro lado, tais siste-mas geralmente diminuem os gastos tendo em vista que automatizam várias tarefas. OGoogle Street View, apesar de ainda não ser em tempo real, oferece um mapeamento ro-busto de quase todos os ambientes em que os seres humanos trafegam. Este mapeamentoestá disponível gratuitamente para todas as pessoas e pode ser utilizado para apoiar inici-ativas de pesquisa, como por exemplo em [Hara et al. 2013], que objetivam reconhecer emonitorar o estado dos objetos presentes nestes cenários.

Estudar o reconhecimento de postes da rede elétrica em imagens é importante,pois pode permitir o desenvolvimento de ferramentas que auxiliem no gerenciamento emanutenção destas estruturas. Estas ferramentas poderiam desempenhar várias tarefas,como por exemplo, o levantamento do número de postes que fazem parte da rede, aclassificação de acordo com o seu tipo (iluminação, repetição e distribuição), a verificaçãode falhas, a emissão de alertas sobre a poda de árvores próximas e a identificação deligações clandestinas visando o roubo de energia.

Os postes são de diferentes tipos e os seus corpos são compostos basicamentepor dois materiais, concreto e madeira. A coloração também é outro aspecto importante jáque diferentes cores podem ser encontradas. Existe também a possibilidade de virem a serconfundidos com o suporte do padrão de energia de uma casa ou o tronco de uma árvore.

1.4 Objetivos 22

Assim, pretende-se nesta pesquisa investigar o reconhecimento de postes em imagens doStreet View e contribuir para o processo de descoberta de um método específico para oreconhecimento destas estruturas a partir de imagens.

1.4 Objetivos

1.4.1 Geral

Reconhecer postes da rede elétrica em vias uburanas presentes em imagens doGoogle Street View.

1.4.2 Específicos

• Coletar imagens do Google Street View que possuam postes da rede elétrica;• Segmentar os objetos presentes nas imagens obtidas;• Extrair características da cor, textura e forma dos objetos segmentados;• Treinar uma RNA para classificar os objetos como pertencentes, ou não, a postes.

1.5 Organização da Dissertação

O restante desta dissertação está organizado da seguinte forma, o método pro-posto para o reconhecimento de postes em imagens é apresentado no capítulo 2. Em se-guida, no capítulo 3, descreve-se os experimentos e discute-se os resultados. Por último,no capítulo 4, apresenta-se as conclusões, os trabalhos futuros e as publicações originadasdesta dissertação.

CAPÍTULO 2Reconhecimento de Postes em Imagens

2.1 Sobre as Amostras Utilizadas

As imagens da base foram obtidas com a ajuda da API pública do Google StreetView que permite, dentre outros, a obtenção de imagens panorâmicas de coordenadas ge-ográficas. Para a obtenção de uma imagem através desta API é necessário fazer uma requi-sição HTTP como esta: "https://maps.googleapis.com/maps/api/streetview? parameters".Onde "parameters"deve ser substituído pelos parâmetros de localização geográfica, zoom,rotação e inclinação. Uma limitação da API é que, em sua versão gratuita, só é possívelfazer um pequeno número de requisições durante um período de tempo. Atingido o limiteé necessário esperar alguns minutos para fazer novas requisições. Portanto, as imagens dabase foram obtidas em diferentes dias e horários.

Ao todo, 264 imagens foram obtidas no formato RGB com resolução de600x600. Nas Figuras 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9 e 2.10 são exibidas al-gumas imagens da base selecionadas aleatoriamente. Pode-se observar que as mesmasforam obtidas a partir de diferentes ângulos e distâncias. Há também a presença de bas-tante ruído, o que é muito comum em imagens obtidas em situações reais de operação.Além disso, é possível notar diferentes tipos de postes, tanto no que diz respeito ao for-mato quanto à coloração e também em relação ao material que são feitos. Nas Figuras 2.7e 2.10, por exemplo, pode-se notar no topo dos postes a presença de madeira, equanto queseus corpos são de concreto. Em outras imagens os postes são totalmente madeira, ou seja,existe uma enorme variade de postes na base. As imagens da base foram obtidas a partirde diferentes cidades do estado de Goiás mais especificamente de Goiânia, Morrinhos ePosse.

Na fase de pré-processamento as imagens foram convertidas em 256 tons decinza com o objetivo de diminuir os custos computacionais associados ao processamentodestas nas fases seguintes. Após a fase de pre-processamento, as imagens resultantesforam segmentadas de acordo com o explicado na Seção 2.2. Conforme será melhorexplicado, na própria Seção 2.2, do processo de segmentação resultaram vários objetos eos postes não foram segmentados em regiões únicas.

2.1 Sobre as Amostras Utilizadas 24

Figura 2.1: Exemplo de imagem obtida com a API do GoogleStreet View - Amostra 1.


2.2 Segmentação 29

2.2 Segmentação

Após a criação da base de imagens, procedeu-se à fase de segmentação. Deacordo com [Raut et al. 2009], o processo de segmentação de uma imagem I retornadiferentes regiões únicas {S1,S2,S3, ...,Sn} que combinadas, formam a imagem I. Esteconceito pode ser formulado de acordo com a Equação 2-1.

n⋃i=1,n

Si = I onde Si∩S j = /0 (2-1)

Onde Si é uma região conectada, i = 1,2, ...,n. Um predicado lógico P deveser definido sobre os pontos do conjunto de pixels Si. Assim, P(Si) = T RUE para i =

1,2, ...,n indica que uma condição deve ser satisfeita pelos pixels da região segmentadae P(Si ∪ S j) = FALSE para i 6= j indica que regiões vizinhas Si e S j são diferentes nosentido do predicado P.

Como não sabia-se o melhor algoritmo de segmentação para o problemaem questão, optou-se pela utilização da técnica não-paramétrica de análise dedados conhecida como Mean Shift (MS) proposta por Funkunaga e Hostetler[Fukunaga e Hostetler 1975]. Esta técnica é baseada na estimação de densidade eé utilizada em diferentes contextos, inclusive no contexto da segmentação de ima-gens conforme pode ser visto em [Comaniciu e Meer 2002]. Ainda de acordo com[Comaniciu e Meer 2002], métodos que estimam a densidade consideram os dados (es-paço de caracarcterísticas) a serem analisados como amostras de uma Função DensidadeProbabilidade (FDP). As regiões, ou clusters, de alta densidade dentro deste espaço são osmáximos locais da FDP, dados pelas modas das densidades desconhecidas. Estes clusters,associados com suas respectivas modas, são delineados de acordo com a estrutura localdo espaço de características.

No caso do MS, a estimação da densidade é baseada na técnica conhecidacomo Kernel, ou também como Parzen Window, e funciona da seguinte maneira: dadon pontos de dados xi, i = 1, ...,n em um espaço d-dimensional Rd , estima-se, de acordocom a Equação 2-2, a FDP do kernel multivariado com kernel K(x) e janela de raio h[Comaniciu e Meer 2002].

f (x) =1

nhd

n

∑i=1

K(

x− xi

h

). (2-2)

Para kernels radialmente simétricos, é necessário definir o contorno do kernel

K(x) satisfazendo a Equação 2-3.

K(x) = ck,dk(‖x‖2) (2-3)


Onde ck,d é uma constante de normalização estritamente positiva que asseguraK(x) próximo de 1, ou seja, a integral de K(x). As modas da FDP estão localizadaspróximos aos zeros da função gradiente ∇ f (x) = 0. O gradiente da Equação 2-2 é dadopela Equação 2-4.

∇ f (x) =2ck,d

nhd+2

n

∑i=1

(xi− x)g(‖x− xi

h‖2)

=2ck,d

nhd+2

[n

∑i=1

g(‖x− xi

h‖2)]∑

ni=1 xig

(‖ x−xi

h2‖)

∑ni=1 g

(‖ x−xi

h2‖) − x

.(2-4)

Onde g(s) = −k′(s). O primeiro termo é proporcional à densidade estimada dex, computado com kernel G(x) = cg,dg(‖x‖2), e o segundo termo é o procedimento MS,Equação 2-5.

mh(x) =∑

ni=1 xig

(‖ x−xi

h2‖)

∑ni=1 g

(‖ x−xi

h2‖) − x (2-5)

O MS sempre aponta na direção de maior incremento da densidade. Resumida-mente, o MS é obtido realizando-se operações sucessivas de:

• computação do deslocamento do vetor médio mh(xt),• translação da janela xt+1 = xt +mh(xt).

Comaniciu e Meer [Comaniciu e Meer 2002] demonstraram que o procedimentopossui convergência garantida para um ponto onde o gradiente da função densidade ézero. Os autores provaram que o MS é uma poderosa ferramenta de análise de espaçosde características multimodais complexos. O método foi aplicado com sucesso em doisproblemas de visão de baixo nível, preservação das bordas dos objetos no processo desuavização e segmentação de imagens.

Para aplicar o MS ao problema de suavização, considera-se xi e zi, com i =

1, ...,n, como entradas d-dimensional e pixels de uma imagem filtrada no domínio espaço-frequência. Assim, para cada pixel:

1. Inicializar j = 1 e yi,1 = xi.2. Computar yi, j+1 até convergir y = yi,c.3. Atribuir zi = (xs

i ,yri,c).


Onde s e r são respectivamente, o componente espacial e a faixa do vetor. Opasso 3 especifica que o dado filtrado na localização espacial xs

i possuirá a faixa do pontode convergência yr

i,c.Para aplicar o MS ao problema de segmentação, considera-se xi e zi, com

i = 1, ...,n, como entrada d-dimensional e pixels de uma imagem filtrada no domínioespaço-freqência e Li como o rótulo do i-ésimo pixel na imagem. Os passos para aplicaro método ao problema de segmentação consistem em:

1. Executar o procedimento de filtragem baseada no MS para a imagem alvo armaze-nando todas as informações sobre a convergência d-dimensional dos pontos em zi,ou seja, zi = yi,c.

2. Delinear a junção dos clusters {Cp}p=1...m pelo agrupamento de todos os zi queestão mais próximos de hs no domínio espacial e de hr no domínio da frequência,ou seja, concatenar a bacias de atração dos correspondentes pontos de convergência.

3. Para cada i = 1, ...,n definir Li = {p|zi ∈Cp}.4. Opcionalmente: Eliminar regiões espaciais contendo menos que M pixels.

Mostra-se na Figura 2.11(a) um exemplo de saída obtida com esta técnica(delineado de vermelho as regiões classificadas manualmente como pertencentes aoposte). É possível notar que os objetos não foram segmentados em regiões únicas. Istopode ser explicado pelo fato dos mesmos não serem estruturas homogêneas do ponto devista da cor, como mostrado na Figura 2.11(b) no caso do poste.

De acodor com o demonstado na Figura 2.11(b), considerou-se que um mesmoposte pode fornecer n exemplos positivos de treinamento, conforme pode ser visto nasFiguras 2.12, 2.13, 2.14, 2.15, 2.16, 2.17, 2.18, 2.19, 2.20, 2.21, 2.22, 2.23, 2.24, 2.25,2.26, 2.27, 2.28, 2.29, 2.30, 2.31, 2.32 e 2.33. No entanto, dada a quantidade de objetos,além do poste, presentes em uma imagem, uma quantidade maior de exemplos negativossurgiram. Por isso, no momento da separação das amostras para os conjuntos de treina-mento e teste, a mesma quantidade de amostras de postes e não poste foi considerada, ouseja, o excedente de amostras pertencentes à classe não poste foi descartado. O valor parao parâmetro h do MS foi ajustado empiricamente, após algumas execuções, para 0,14.

O processo de segmentação de todas as 264 imagens da base resultou em7039 segmentos, destes, apenas 635 pertenciam a postes e todos os segmentos forammanualmente rotulados em suas respectivas classes. Como explicado anteriormente,uma imagem pode fornecer vários exemplos de treinamento positivos e negativos. Issoacontece, no que diz respeito ao poste, porque ele não é uma estrutura de cor uniforme.Assim, a mesma quantidade de amostras das duas classes foram utilizadas para que arepresentatividade de ambas fosse igual. A rotulação é necessária porque o algoritmo detreinamento do classificador é do tipo supervisionado, conforme será explicado na Seção2.4.


(a) Exemplo de um resultado obtido com o MS.

(b) Desvio padrão dos pixels do poste.

Figura 2.11: Na Figura 2.11(a) o resultado do algoritmo MS. AFigura 2.11(b) demonstra a coloração não uniformedo poste.


Figura 2.12: Exemplo de objeto segmentado pelo MS e rotuladocomo pertencente à classe poste - Amostra 1.



2.3 Extração de Características 40

2.3 Extração de Características

Nesta seção descreve-se as características pesquisadas objetivando encontraraquelas que melhor descrevem os objetos segmentados. Optou-se por pesquisar caracterís-ticas da cor, textura e forma. Cada uma destas características são descritas nas subseçõesa seguir.

2.3.1 Cor

Conforme mencionado na seção 2.2, os postes não possuem coloração uniforme.Sendo assim, optou-se por utilizar a cor que mais aparece no objeto como característicade cor. Como as imagens estão no formato RGB e uma determinada cor é dada pelacombinação de três valores, então a cor predominante de um objeto é dada pela modade cada um de seus três planos RGB, conforme equação 2-6. Assim, a característica C éformada por três valores, a moda de cada um dos planos do objeto I.

C =

[M0

{IR

},M0

{IG

},M0

{IB

}](2-6)

2.3.2 Textura

A textura de uma imagem refere-se à distribuição espacial e estatística dostons de cinza presentes nela. Haralick et al. propuseram a computação rápida de umtotal de 14 características a partir das matrizes de co-ocorrência dos níveis de cinza[Haralick, Shanmugam e Dinstein 1973]. Essas matrizes são função do relacionamentoangular entre um pixel e sua vizinhança e, ao mesmo tempo, função da distância entre eles.Quatro ângulos, a partir de 0◦, quantificados em intervalos de 45◦ podem ser considerados.A vizinhança de um pixel pode ser composta pelos pixels que estão numa distância d nasua horizontal, vertical e diagonais. A Figura 2.34 ilustra este conceito.

Figura 2.34: Representação da vizinhança de um pixel *. Nestecaso, d = 1 e todos os ângulos são considerados.


A partir daí, uma matriz de co-ocorrência P para cada ângulo pode ser compu-tada, conforme as Equações 2-7, 2-8, 2-9 e 2-10.

P(i, j,d,0◦) = #{((k, l),(m,n)) ∈ (Ly×Lx)

×(Ly×Lx)|k−m = 0, |l−n|= d,

I(k, l) = i, I(m,n) = j}

(2-7)

P(i, j,d,45◦) = #{((k, l),(m,n)) ∈ (Ly×Lx)

×(Ly×Lx)|(k−m = d, l−n = d)

or (k−m =−d, l−n = d),

I(k, l) = i, I(m,n) = j}

(2-8)

P(i, j,d,90◦) = #{((k, l),(m,n)) ∈ (Ly×Lx)

×(Ly×Lx)||k−m|= d, l−n = 0,

I(k, l) = i, I(m,n) = j}

(2-9)

P(i, j,d,135◦) = #{((k, l),(m,n)) ∈ (Ly×Lx)

×(Ly×Lx)|(k−m = d, l−n = d),

or (k−m =−d, l−n =−d),

I(k, l) = i, I(m,n) = j}

(2-10)

Onde I é uma imagem de dimensão (Ly×Lx) e # denota o número de elementosno conjunto. Cada posição destas matrizes armazena o número de vezes que dois tons decinza (i, j) são adjacentes. Para facilitar a extração de características, pode-se normalizaressas matrizes de acordo com a Equação 2-11, tornando-as uma única matriz em que suasposições represetam probabilidades de um certo tom de cinza aparecer.

Pi, j =Mi, j

∑N−1i, j=0(Mi, j)

(2-11)

Onde:

• i é a posição da linha e j a posição da coluna;• M é a matriz co-ocorrência;• Pi, j é a probabilidade da posição (i, j);• N representa o total de linhas e colunas já que M é uma matriz quadrada.


A Equação 2-11 representa a divisão de cada pixel pela somátoria dos elementos.Com a matriz de co-ocorrência normalizada, extraiu-se as características de texturainvestigadas neste trabalho: contraste, correlação, energia e homogeneidade, de acordocom as equações 2-12, 2-13, 2-14 e 2-15, respectivamente. Para a obtenção da matrizforam considerados todos os ângulos (0◦, 45◦, 90◦, e 135◦) e distância d = 30.

contraste = ∑i, j|i− j|2P(i, j) (2-12)

A Equação 2-12 retorna uma medida da intensidade de contraste entre um pixele sua vizinhança na região analisada. Esta medida também é conhecida como variância einércia.

correlacao = ∑i, j

(i−µi)( j−µ j)P(i, j)σiσ j

(2-13)

A correleção, expressa pela Equação 2-13, mede a dependência linear (negativaou positiva) de um pixel em relação a sua vizinhança.

energia = ∑i, j

P(i, j)2 (2-14)

A energia, dada pela Equação 2-14, mede a uniformidade de uma região. Quandoa energia= 1, significa que região é constante. Esta propiedade também é conhecida comosegundo momento angular.

homogeneidade = ∑i, j

P(i, j)1+ |i− j|

(2-15)

A Equação 2-15 mede a proximidade da distribuição dos elementos na matriz deco-ocorrência em relação a sua diagonal.

2.3.3 Forma

Os Descritores de Fourier (DF’s) podem ser utilizados para modelar a formade um objeto. Uma das vantagens da utilização desta técnica de representação é apossibilidade de se obter invariância a vários problemas conhecidos como, translação,escala, rotação, reflexão e ponto inicial de processamento.

Os coeficientes de Fourier possuem propriedades elípticas que foram utilizadaspor [Kuhl e Giardina 1982] para normalizar a representação de Fourier dos contornosdos objetos, propondo os Descritores Elípticos de Fourier (DEF’s). Os DEF’s foramutilizados nesta pesquisa para representar a forma dos objetos segmentados porqueestes são invariantes à rotação, dilatação, translação do contorno e ao ponto inicial de


processamento, além de não apresentarem perda de informação sobre a forma do contornocomo pode acontecer quando se aplica as operações matemáticas nos DF’s a fim de seobter invariância aos problemas mencionados no parágrafo anterior.

De acordo com [Kuhl e Giardina 1982], os DEF’s são decomposições do cor-torno de um objeto através de variações nas coordenadas x e y, separadamente ∆x e ∆y,como funções paramétricas da distância cumulativa t. Essa distância varia sempre de 0 a2π. As equações 2-16 e 2-17 são funções paramétricas de x(t) e y(t).

x(t) = A0 +N

∑n=1

an cos nt +N

∑n=1

bn sen nt (2-16)

y(t) =C0 +N

∑n=1

cn cos nt +N

∑n=1

dn sen nt (2-17)

Onde an,bn,cn e dn representam os coeficientes da harmônica n, e N é o númeromáximo de harmônicas. Os coeficientes para as projeções x e y são dados pelas Equações2-18, 2-19, 2-20 e 2-21.

an =1

n2π

q

∑p=1

∆xp

∆tp[cos(ntp)− cos(ntp−1)] (2-18)

bn =1

n2π

q

∑p=1

∆xp

∆tp[sen(ntp)− sen(ntp−1)] (2-19)

cn =1

n2π

q

∑p=1

∆yp

∆tp[cos(ntp)− cos(ntp−1)] (2-20)

dn =1

n2π

q

∑p=1

∆yp

∆tp[sen(ntp)− sen(ntp−1)] (2-21)

Onde q é o número total de pontos do contorno, tp é a distância entre o ponto p

e o próximo ponto p+ 1, xp e yp são as projeções de p e p+ 1. Os descritores an,bn,cn

e dn foram utilizados para representar o contorno dos objetos dentro do método propostode reconhecimento de postes em imagens.

Exemplos de resultados obtidos na modelagem da forma dos postes utilizando osDEF’s podem ser visualizados nas Figuras 2.35, 2.36, 2.37, 2.38, 2.39, 2.40, 2.41, 2.42,2.43, 2.44, 2.45, 2.46, 2.47, 2.48, 2.49, 2.50, 2.51, 2.52, 2.53, 2.54, 2.55 e 2.56. Conformeestá exposto, muitas formas diferentes foram detectadas, em parte devido ao grandenúmero de segmentos muito diferentes entre si no que diz respeito ao formato. Apenas as8 harmônicas mais representativas foram utilizadas. Estes valores foram escolhidos apósa aplicação do PCA. Cada harmônica é composta por 4 valores. Assim, 8 harmônicas dáum total de 32 características.


Figura 2.35: Reconstrução da forma com as 8 harmônicas maisrepresentativas - Amostra 1.



2.4 Reconhecimento

Para realizar o reconhecimento dos objetos presentes nas imagens foi utilizadouma RNA. As RNA’s são técnicas computacionais inspiradas no cérebro de organismosinteligentes. Portanto, elas são compostas por redes de neurônios artificiais. Um neurônioartificial é uma aproximação simplificada de um neurônio biológico. Na Figura 2.57apresenta-se a simplificação matemática de um neurônico biológico.

Figura 2.57: Representação matemática de um neurônio bioló-gico. Adaptado de [Haykin 2009].

Figura 2.58: Representação de uma MLP com três camadas deneurônios.

Os neurônios interligados de uma RNA processam informações com o objetivode realizar uma tarefa em particular de forma semelhante como acontece com o cérebrobiológico. Estas técnicas tem sido aplicadas, nos últimos anos, para resolver vários tiposde problemas em várias áreas, como por exemplo, reconhecimento de padrões, análisede dados, redução de ruídos, sistemas de controle, jogos de computador e modelagemfinanceira.

As RNA’s podem ser agrupadas de acordo com a forma como aprendem: apren-dizado supervisionado e aprendizado não supervisionado. Uma representante do aprendi-


zado supervisionado muito utilizada é a MLP. Esta rede é composta de uma camada deentrada, uma ou mais camadas ocultas e uma camada de saída. Nela o sinal de entradaé propagado para frente até a camada de saída. Cada camada é composta por neurôniosartificiais que possuem entradas, uma função de ativação e uma saída. Os algoritmos detreinamento destas redes realizam um mapeamento do conjunto de dados de entrada nasrespectivas saídas. Na Figura 2.58 apresenta-se um exemplo de uma MLP composta portrês camadas de neurônios. A função de ativação dos neurônios podem ser de diferen-tes tipos. A Figura 2.59 apresenta os gráficos das funções de ativação linear e sigmóidetangente hiperbólica.

(a) Linear (b) Tangente hiper-bólica

Figura 2.59: Dois tipos de funções de ativação dos neurônios.

Existe uma variedade de algoritmos para treinamento de uma RNA do tipoMLP. Esses algoritmos são baseados na técnica do gradiente descendente, algunsexemplos são, o gradiente descendente com momentum, o gradiente conjugado, oquasi- Newton, o Levenberg-Marquardt (usado neste trabalho), dentre outros. Segundo[Hagan e Menhaj 1994], a técnica de Levenberg-Marquardt é mais eficiente do que a téc-nica do gradiente descendente convencional. O gradiente descendente é um algoritmo demaior descida e envolve movimentos de pequenos passos abaixo do gradiente local docampo escalar. Uma desvantagem deste método é a possibilidade do gradiente descen-dente encontrar um mínimo local antes que o mínimo global seja atingido. O algoritmoLevenberg-Marquardt é um aperfeiçoamento do método Gauss-Newton, que é uma vari-ante do método de Newton [Levenberg 1944], [Marquardt 1963]. O método de Newtonusa a informação da derivada parcial de segunda ordem do índice de desempenho utili-zado para corrigir os pesos. Isso permite que, além da informação do gradiente, seja usadainformação sobre a curvatura da superfície do erro.

Uma RNA foi treinada com o algoritmo descrito em [Hagan e Menhaj 1994] parareconhecer os objetos. Estes foram agrupados em duas classes, poste (1) e não poste(0). 70% das amostras foram utilizadas na fase de treinamento, enquanto, os outros 30%restantes na fase de teste. De acordo com o explicado na subseção 2.2, foi consideradoo mesmo número de amostras de poste e não poste nos dois conjuntos, excluindo-se,portanto, as amostras excedentes da classe não poste.

Em relação à arquitetura, a RNA foi treinada com 10 neurônios na camada oculta,quantidade obtida empiricamente a partir dos dados de erro médio quadrático, e um na


camada de saída. Os neurônios da camada oculta usam a função de ativação sigmóidetangente hiperbólica, conhecida por acelerar a convergência do algoritmo de treinamento[Vogl et al. 1988]. Já o neurônio da camada de saída usa a função de ativação linear.

Durante o treinamento, dois critérios de parada foram adotados: a quantidadede ciclos = 200 ou; erro médio quadrático atingir o valor mínimo de 0,0416. Na Tabela2.1 apresenta-se um resumo dos valores para os parâmetros da RNA. Na Figura 2.61 éapresentado um resumo de todas as etapas descritas até este ponto.

Tabela 2.1: Resumo dos parâmetros utilizados no classificador.

Parâmetros da RNAQtd. neurônios na camada oculta 10Qtd. neurônios na camada de saída 1Épocas de treinamento 200Meta de desempenho 0,0416

O valor para o limiar da RNA foi ajustado para −0,25 utilizando o conjunto deteste. Este valor foi o que maximizou o reconhecimento dos objetos pertencentes a poste,sem perdas significativas na taxa de acertos para os objetos não pertencentes a poste,conforme pode ser visto na Figura 2.60.


Figura 2.60: Resposta do classificador para diferentes valores delimiar.


Figura 2.61: Resumo das etapas do modelo proposto.

CAPÍTULO 3Experimentos e Resultados

Este capítulo trata da descrição dos experimentos realizados e dos resultadosobtidos. Ao todo, 5 experimentos foram conduzidos. Os detalhes de cada um dos testessão dados nas seções a seguir. Sobre os resultados de cada experimento, os classificadoresforam avaliados a partir de suas respectivas matrizes de confusão, dadas nas Tabelas 3.1,3.2, 3.3, 3.4 e 3.5. Nestas Tabelas, as classes não poste e poste são representadas por 0 e 1,respectivamente. As células da diagonal secundária exibem onde o classificador cometeuerros. Enquanto que as células da diagonal principal exibem onde o classificador acertou.

3.1 Experimento I

Este experimento foi conduzido para verificar a acurácia do classificador quefoi treinado para reconhecer os objetos a partir da característica de cor extraída conformeexpelicado na subseção 2.3.1. A acurácia obtida no experimento I foi de 81,7% como podeser visto na Tabela 3.6. Apesar da boa acurácia obtida com esta característica, é possívelnotar que o classificador, a partir da matriz de confusão (Tabela 3.1), que o classificadorcometeu muitos falsos positivos. Em relação aos outros experimentos, este classificadorfoi o segundo que mais cometeu falsos positivos, atrás apenas do classificador que foitreinado com os DEF’s.

3.2 Experimento II

No experimento II a RNA foi treinada para reconhecer os objetos a partir dascaracterísticas de textura extraídas conforme explicado na subseção 2.3.2. A acurácia ob-tida no experimento II foi de 85,9% como pode ser visto na Tabela 3.6. Este classificadorcometeu bem menos falsos positivos que todos os demais classificadores. E praticamenteficou empatado com o classificador do experimento I em relação ao número de falsosnegativos. Este classificador foi o que obteve maior acurácia se comparado com classifi-

3.3 Experimento III 61

cadores treinados com apenas um tipo de característica, ou seja, aqueles dos experimentosI, II, e IV.

3.3 Experimento III

No experimento III a RNA foi treinada para reconhecer os objetos a partir dascaracterísticas de cor e textura extraída conforme explicado nas subseções 2.3.1 e 2.3.2.A acurácia obtida no experimento III foi de 87,2% como pode ser visto na Tabela 3.6. Épossível notar que este classificador foi o que obteve maior acurácia. Apesar do número defalsos negativos ter sido um pouco maior que o classificador do experimento. No entanto,este classificador foi o que menos cometeu falsos positivos.

3.4 Experimento IV

Já no experimento IV treinou-se o classificador com as caracteríticas da formaextraídas conforme explicado na subseção 2.3.3. A acurácia obtida no experimento IVfoi de 62,6% como pode ser visto na Tabela 3.6. Este classificador foi o que obteve ospiores resultados. Provavelmente devido ao grande números de formas que surgiram damodelagem com os DEF’s e da baixa amostragem de cada uma destas formas, conformeexplicado na subseção 2.3.3 do Capítulo 2.

3.5 Experimento V

Por último, no experimento V a RNA foi treinada para reconhecer os objetos apartir de todas as características descritas no capítulo 2. A acurácia obtida no experimentoV foi de 78,3% como pode ser visto na Tabela 3.6. Nota-se que a utilização de todas oumuitas características não necessariamente produz melhores resultados. Este experimentofoi o que gerou o segundo pior resultado, ficando atrás apenas dos resultados obtidos noExperimento IV.

3.6 Avaliação dos Resultados Obtidos

Observa-se que a acurácia do classificador treinado para reconhecer os objetos apartir das características de cor e textura foi superior à acuracia dos demais e que a adiçãode outras características não convergiu para o aumento desta acurácia. No entanto, a taxade verdadeiro positivo do classificador treinado somente com a moda RGB foi superior àdos demais, conforme pode ser observado na Tabela 3.6.

3.6 Avaliação dos Resultados Obtidos 62

Tabela 3.1: Matriz de confusão do classificador treinado com amoda RGB - Experimento I.

Classe Obtida0 138 (36,1%) 17 (4,5%)

1 53 (13,9%) 174 (45,5%)

0 1Classe Alvo

Tabela 3.2: Matriz de confusão do classificador treinado com ascaracterísticas de textura - Experimento II.

Classe Obtida0 155 (40,6%) 18 (4,7%)

1 36 (9,4%) 173 (45,3%)

0 1Classe Alvo

Tabela 3.3: Matriz de confusão do classificador treinado com amoda RGB e as características de textura - Experi-mento III.

Classe Obtida0 164 (42,9%) 22 (5,8%)

1 27 (7,1%) 169 (44,2%)

0 1Classe Alvo

Tabela 3.4: Matriz de confusão do classificador treinado com osDEF’s - Experimento IV.

Classe Obtida0 100 (26,2%) 52 (13,6%)

1 91 (23,8%) 139 (36,4%)

0 1Classe Alvo


Tabela 3.5: Matriz de confusão do classificador treinado com to-das as características - Experimento V.

Classe Obtida0 142 (37,2%) 34 (8,9%)

1 49 (12,8%) 157 (41,1%)

0 1Classe Alvo

Tabela 3.6: Indicadores calculados a partir das matrizes de confu-são.

ModaRGB

Hara-lick

ModaRGB+ Ha-ralick

DEF Todas

Acurácia 0,8168 0,8586 0,8717 0,6257 0,7827Taxa de Erro 0,1832 0,1414 0,1283 0,3743 0,2173Taxa de Verdadeiro Positivo 0,9110 0,9058 0,8848 0,7277 0,8220Taxa de Falso Positivo 0,2775 0,1885 0,1414 0,4764 0,2565Especificidade 0,7225 0,8115 0,8586 0,5236 0,7435Precisão 0,7665 0,8278 0,8622 0,6043 0,7621Prevalência 0,5000 0,5000 0,5000 0,5000 0,5000

Com exceção da taxa de verdadeiro positivo, a combinação das característicasde textura e da moda RGB apresentou melhores taxas conforme pode ser visualizado naTabela 3.6.

Na Figura 3.1 observa-se a qualidade da classificação do classificador após o seutreino com diferentes características. Neste caso, quanto mais à esquerda e próximo de1 está a curva de cada série de dados no gráfico, da Figura 3.1, melhor é a qualidade daclassificação. Conforme pode ser visto, as taxas de verdadeiro positivo do classificadortreinado com a moda RGB e, depois, com as características de Haralick foram ligeira-mente superiores à de quando ele foi treinado com a combinação de ambas. No entanto,neste caso, a taxa de falso positivo foi menor. Assim, pode-se inferir que a classifica-ção utilizando ao mesmo tempo as características moda RGB e textura de Haralick é demelhor qualidade.


Figura 3.1: Curva ROC das RNA’s treinadas com diferentes com-binações de características.

3.7 Comparação com Outros Modelos 65

3.7 Comparação com Outros Modelos

De acordo com o que pode ser visualizado na Figura 3.2, apesar da acurácia de100% obtida no modelo de [Barranco-Gutierrez, Martinez-Diaz e Gomez-Torres 2014],vale ressaltar que estes resultados foram obtidos em cima do conjunto utilizado para trei-nar o classificador, ou seja, o classificador já conhecia estes padrões. Portanto, conformepode ser observado ainda na Figura 3.2, o modelo proposto nesta dissertação apresentrou,usando como características a moda RGB e textura de Haralick, acurácia superior em 6%à do modelo de [Yokoyama et al. 2013]. Vale destacar que a comparação é apenas emtermos de acurácia obtidas pelos modelos.

3.8 Protótipo

Após a análise dos resultados, construiu-se um protótipo que recebe comoentrada uma imagem qualquer e desenha, ou não, um retângulo ao redor da região naqual possivelmente o poste se encontra. Este retângulo foi desenhado sobre a imagem apartir do eixo x com a maior quantidade de pixels no eixo y classificados como poste, ouseja, a partir da coluna com maior quantidade de pixels classificados como poste. Estaregra leva em consideração que estas estruturas estão dispostas na vertical.

Os resultados alcançados com protótipo foram obtidos com o classificadortreinado para reconhecer os objetos, em uma dada imagem, a partir da caracterizaçãodestes por meio da Moda RGB combinada com as características de textura Haralick.Observa-se que os resultados das amostras nas Figuras 3.6, 3.7, e 3.8 sugerem queo classificador cometeu enganos. No entanto, analisando-se melhor estes resultadosconstatou-se que o erro está na regra de decisão para traçar o retângulo verde ao redor dossupostos objetos classificados como poste. Este retângulo é desenhado sobre a imagem apartir da ponto do eixo x com maior quantidade de pixels em relação ao eixo y da imagemque fazem parte dos objetos que foram classificados como partes integrantes do poste.Conforme pode ser observado nas amostras das Figuras 3.12 e 3.14 o classificador nãoerrou. Nestas, destacou-se, na cor azul, os objetos classificados como poste. Observa-seque na amostra da Figura 3.12 o que levou o retângulo a ser desenhado naquela região foio fato do classificador ter classificado corretamente a estrutura metálica de sustentaçãoda lâmpada como pertencente ao poste. Por outro lado, o classificador errou ao classificaralguns objetos como pertecentes a poste mesmo não sendo.

3.8 Protótipo 66

Figura 3.2: Comparação da acurácia obtida com a acurácia ob-tida em outros modelos.

3.8 Protótipo 67

Figura 3.3: Exemplo de resultado obtido com o protótipo desen-volvido a partir do classificador treinado com a modaRGB e textura de Haralick - Amostra 1.


3.8 Protótipo 68



3.8 Protótipo 69



3.8 Protótipo 70

Na amostra da Figura 3.14, três objetos foram classificados como pertencentesao poste em questão. No entanto, apenas dois foram classificados corretamente. Assim,o retângulo foi desenhado a partir do eixo x com maior quantidade de pixels no eixoy. Propriedades geométricas podem ser exploradas para melhorar a tomada de decisãode onde posicionar o retângulo para indicar a localização do poste na imagem. Já nafigura 3.13, também três objetos foram classificados como partes integrantes do poste masapenas um foi corretamente classificado (parte superior). Neste caso, a regra de decisãoutilizada para desenhar o retângulo não foi suficiente para indicar com certeza onde oposte se encontra. Para as demais amostras, Figuras 3.9, 3.10 e 3.11, a regra de decisão semostrou suficiente.

Figura 3.9: Exemplo de resultado obtido, em destaque, na cor azul,os objetos que influenciaram no posicionamento doretângulo. - Amostra 1.

3.8 Protótipo 71

Figura 3.10: Exemplo de resultado obtido, em destaque, na corazul, os objetos que influenciaram no posicionamentodo retângulo. - Amostra 2.


3.8 Protótipo 72



3.8 Protótipo 73


CAPÍTULO 4Conclusões, Trabalhos Futuros e Publicações

4.1 Conclusões

Neste trabalho, foi apresentado um método capaz de reconhecer postes da redeelétrica em imagens do Google Street View. Características de cor, textura e forma foramutilizadas para caracterizar os objetos presentes nas imagens e uma RNA foi utilizada paraclassificar estes objetos em uma das duas classes, poste ou não poste. Os postes, presentesnas imagens, se apresentaram como estruturas de cor não uniforme o que dificultousegmentá-los como objetos únicos durante a fase de segmentação. Desta forma, foinecessário considerar que uma mesma imagem pode fornecer vários exemplos positivose negativos. Logo, é necessário aperfeiçoar a técnica de segmentação utilizada.

Por conta do grande número de estruturas segmentadas com formatos diferentese da baixa amostragem de cada uma delas, a utilização de características da forma, aquirepresentada pelos DEF’s, demonstrou-se não muito exitosa.

A informação de cor do objeto, representada pela moda RGB de suas cores,incrementou a acurácia do classificador quando utilizada em conjunto com as caracterís-ticas de textura de Haralick, se comparado com a utilização de ambas as informações emseparado. A acurácia utilizando estas informações nos testes realizados foi de 87% .

A regra de decisão para desenhar o retângulo que indica a localização possíveldo poste na imagem precisa de aperfeiçoamentos, já que a acurácia do classificador aindanão é de 100%.

4.2 Trabalhos Futuros

Como trablhos futuros, prentede-se:

• aperfeiçoar a fase de segmentação;• aumentar o número de amostras da base de dados;

4.3 Publicações Originadas Desta Dissertação 75

• tornar mais precisa a regra de decisão que traça o retângulo ao redor do possívelposte, utilizando para isto, além da regra existente, informações geométricas doobjeto classificado como pertencente à classe poste;• utilizar os DEF’s para ajudar na tomada de decisão de classificar um determinado

objeto como poste ou não;• treinar o classificador para reconhecer diferentes tipos de postes;• criar um sistema que navegue automaticamente nas ruas do Google Street View em

busca de postes, retornando suas coordenadas geográficas.

4.3 Publicações Originadas Desta Dissertação

1. Lopes, Allan K.; Soares, Fabrizzio A.A.M.N.; Lopes, Lais C.; Oliveira, LeandroL.; Laureano, Gustavo T.; Costa, Ronaldo M.; Soare, Anderson S. Segmentação dePostes da Rede Elétrica a Partir de Imagens do Google Street View. In: Anais do

XII Simpósio Brasileiro de Automação Inteligente. Natal–RN: Sociedade Brasileirade Automática, 2015.

2. Lopes, Allan K.; Soares, Fabrizzio A.A.M.N.; Lopes, Lais C.; Oliveira, Leandro L.;Laureano, Gustavo T.; Costa, Ronaldo M.; Soare, Anderson S. Reconhecimento dePostes da Rede Elétrica a Partir de Imagens do Google Street View. In: Anais

do XXI Congresso Brasileiro de Automática. Vitória–ES: Sociedade Brasileira deAutomática, 2016.

Referências Bibliográficas

[Barranco-Gutierrez, Martinez-Diaz e Gomez-Torres 2014]BARRANCO-GUTIERREZ,

A. I.; MARTINEZ-DIAZ, S.; GOMEZ-TORRES, J. L. An Approach for Utility Pole

Recognition in Real Conditions. In: HUANG, F.; SUGIMOTO, A. (Ed.). Image and

Video Technology – PSIVT 2013 Workshops. [S.l.]: Springer Berlin Heidelberg, 2014,

(Lecture Notes in Computer Science, 8334). p. 113–121. ISBN 978-3-642-53925-1,

978-3-642-53926-8.

[Cetin, Bikdash e McInerney 2009]CETIN, B.; BIKDASH, M.; MCINERNEY, M. Automated

electric utility pole detection from aerial images. In: IEEE Southeastcon, 2009. SOUTHE-

ASTCON ’09. [S.l.: s.n.], 2009. p. 44–49.

[Comaniciu e Meer 2002]COMANICIU, D.; MEER, P. Mean shift: a robust approach toward

feature space analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence,

v. 24, n. 5, p. 603–619, maio 2002. ISSN 0162-8828.

[Fu e Mui 1981]FU, K. S.; MUI, J. K. A survey on image segmentation. Pattern Recognition,

v. 13, n. 1, p. 3–16, 1981. ISSN 0031-3203.

[Fukunaga e Hostetler 1975]FUKUNAGA, K.; HOSTETLER, L. The estimation of the gra-

dient of a density function, with applications in pattern recognition. IEEE Transactions on

Information Theory, v. 21, n. 1, p. 32–40, jan. 1975. ISSN 0018-9448.

[Hagan e Menhaj 1994]HAGAN, M. T.; MENHAJ, M. B. Training feedforward networks with

the Marquardt algorithm. IEEE Transactions on Neural Networks, v. 5, n. 6, p. 989–993,

nov. 1994. ISSN 1045-9227.

[Hara et al. 2013]HARA, K. et al. Exploring Early Solutions for Automatically Identifying

Inaccessible Sidewalks in the Physical World Using Google Street View. HCIC 2013,

2013.

[Haralick, Shanmugam e Dinstein 1973]HARALICK, R. M.; SHANMUGAM, K.; DINSTEIN,

I. Textural Features for Image Classification. IEEE Transactions on Systems, Man, and

Cybernetics, SMC-3, n. 6, p. 610–621, nov. 1973. ISSN 0018-9472.


[Haralick e Shapiro 1985]HARALICK, R. M.; SHAPIRO, L. G. Image Segmentation Tech-

niques. In: Applications of Artificial Intelligence II. [S.l.: s.n.], 1985. v. 0548, p. 2–9.

[Haykin 2009]HAYKIN, S. Neural Networks and Learning Machines. Prentice Hall, 2009.

(Neural networks and learning machines, v. 10). ISBN 9780131471399. Disponível em:

<https://books.google.com.br/books?id=K7P36lKzI_QC>.

[Kass, Witkin e Terzopoulos 1988]KASS, M.; WITKIN, A.; TERZOPOULOS, D. Snakes:

Active contour models. International Journal of Computer Vision, v. 1, n. 4, p. 321–331,

jan. 1988. ISSN 0920-5691, 1573-1405.

[Kuhl e Giardina 1982]KUHL, F. P.; GIARDINA, C. R. Elliptic Fourier features of a closed

contour. Computer Graphics and Image Processing, v. 18, n. 3, p. 236–258, mar. 1982.

ISSN 0146-664X.

[Levenberg 1944]LEVENBERG, K. A method for the solution of certain non-linear pro-

blems in least squares. Quarterly Journal of Applied Mathmatics, II, n. 2, p. 164–168,

1944.

[Lopes et al. 2015]LOPES, A. K. et al. Segmentação de postes da rede elétrica a partir

de imagen do google street view. In: Anais do XII Simpósio Brasileiro de Automação

Inteligente. Natal–RN: Sociedade Brasileira de Automática, 2015.

[Lopes et al. 2016]LOPES, A. K. et al. Reconhecimento de postes da rede elétrica a partir

de imagens do google street view. In: Anais do XXI Congresso Brasileiro de Automática.

Vitória–ES: Sociedade Brasileira de Automática, 2016.

[Marquardt 1963]MARQUARDT, D. An Algorithm for Least-Squares Estimation of Nonli-

near Parameters. Journal of the Society for Industrial and Applied Mathematics, v. 11,

n. 2, p. 431–441, jun. 1963. ISSN 0368-4245.

[Pal e Pal 1993]PAL, N. R.; PAL, S. K. A review on image segmentation techniques. Pattern

Recognition, v. 26, n. 9, p. 1277–1294, sep 1993. ISSN 0031-3203.

[Raut et al. 2009]RAUT, S. et al. Image Segmentation: A State-Of-Art Survey for Predic-

tion. In: International Conference on Advanced Computer Control, 2009. ICACC ’09. [S.l.:

s.n.], 2009. p. 420–424.

[Vogl et al. 1988]VOGL, T. P. et al. Accelerating the convergence of the back-propagation

method. Biological Cybernetics, v. 59, n. 4-5, p. 257–263, set. 1988. ISSN 0340-1200,

1432-0770.


[Yokoyama et al. 2013]YOKOYAMA, H. et al. Detection and Classification of Pole-like Ob-

jects from Mobile Laser Scanning Data of Urban Environments. International Journal of

CAD/CAM, v. 13, n. 2, may 2013. ISSN 1598-1800.

reconhecimento de postes da rede elétrica em vias urbanas ... · ufg, foi bolsista da fundação...

Documents