kernel density estimation vs optimized hot spot...

9
Presidente Prudente - SP, 24-26 de julho de 2017 IV Simpósio Brasileiro de Geomática – SBG2017 II Jornadas Lusófonas - Ciências e Tecnologias de Informação Geográfica - CTIG2017 p. 110-118 KERNEL DENSITY ESTIMATION VS OPTIMIZED HOT SPOT ANALYSIS / INVERSE DISTANCE WEIGHTING ENSAIO COMPARATIVO APLICADO AO ESTUDO DA DINÂMICA TURÍSTICA NA “ALTA E UNIVERSIDADE DE COIMBRA” (PATRIMÓNIO UNESCO) JOSÉ GOMES DOS SANTOS* e ** LILIANA RAQUEL SIMÕES DE AZEVEDO* JOAQUIM ANTÓNIO SARAIVA PATRIARCA*** LUIS CARLOS ROSEIRO LEITÃO** e **** *Departamento de Geografia e Turismo, FLUC, Universidade de Coimbra, Coimbra – PT **Centro de Estudos de Geografia e Ordenamento do Território (CEGOT), Coimbra – PT ***Instituto de Engenharia de Sistemas e Computadores de Coimbra, Coimbra – PT ****Instituto da Conservação da Natureza e das Florestas (ICNF) – PT {jgs966, lrsazevedo, joaquimaspatriarca}@gmail.com e {[email protected]} RESUMO – A modelação espacial com Sistemas de Informação Geográfica (SIG) sempre implica escolhas. A existência de constrangimentos, de natureza financeira ou relacionados com as próprias especificidades do software, dos algoritmos a utilizar, com a incerteza e, até, com a confiabilidade dos próprios dados e com as finalidades e aplicações dos estudos, convertem este pressuposto numa espécie de bússula norteadora das escolhas dos analistas que trabalham com SIG. Partindo de um exercício prévio de aquisição de dados (check-ins), cuja fonte foram duas Redes Sociais Digitais (RSD - Facebook e Foursquare), e da tomada de consciência de que o aproveitamento que se pode dar à informação geográfica voluntária produzida pelos cidadãos/turistas que partilham nas RSD as suas vivências topofílicas, o objetivo nuclear desta análise residiu na avaliação do contributo da aplicação das modernas técnicas de análise espacial ao Turismo na “Alta de Coimbra e Universidade” . Conceitos e tarefas processuais relacionadas com determinação de densidades, análise de clusters e identificação de padrões associados a variáveis regionalizadas foram, então, implementados com o propósito de avaliar e comparar os resultados obtidos pela via da aplicação de duas técnicas de análise espacial, Kernel Density Estimation (KDE) e Optimized Hot-Spot Analysis (OHSA) & Inverse Distance Weighting (IDW. Palavras chave: Geostatística, Modelação Geospacial, KDE, OHSA, IDW, Turismo, Coimbra ABSTRACT Spatial modeling in Geographic Information Systems (GIS) always implies choices. The existence of constraints, of a financial nature or related to the specifics of the software itself, to the algorithms, the uncertainty and even the reliability of the data, the purposes and the applications of the studies, make this, a kind of a guiding compass for GIS analysts. Starting from a previous exercise of data acquisition (check-ins), whose source was based in two Digital Social Networks (DSN - Facebook and Foursquare), and from the awareness that the use of voluntary geographic information produced by tourists that share their topophilic ties in DSN, the purpose of this analysis was to evaluate the contribution of modern techniques of spatial analysis applied to Tourism in the "Alta de Coimbra and University". Concepts and procedural tasks related to density determination, cluster analysis and identification of patterns associated with regionalized variables were then implemented with the purpose of evaluating and comparing the results obtained through the application of two techniques of spatial analysis, Kernel Density Estimation (KDE) and Optimized Hot-Spot Analysis (OHSA) & Inverse Distance Weighting (IDW) Interpolation. Key words: Geostatistics, Spatial Modeling, KDE, OHSA, IDW, Tourism, Coimbra 1 INTRODUÇÃO Modelação e Análise Espacial constituem metodologias geostatísticas que atualmente são utilizadas em diversos domínios como, por exemplo, estratégias de comunicação colocadas ao serviço das mais variadas formas e atividades económicas, empresariais ou estatais, científicas/investigação, aplicadas a diversos ramos do J. Santos; L. Azevedo; J. Patriarca; L. Leitão ISSN 1981-6251

Upload: hamien

Post on 25-Nov-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Presidente Prudente - SP, 24-26 de julho de 2017IV Simpósio Brasileiro de Geomática – SBG2017II Jornadas Lusófonas - Ciências e Tecnologias de Informação Geográfica - CTIG2017 p. 110-118

KERNEL DENSITY ESTIMATION VS

OPTIMIZED HOT SPOT ANALYSIS / INVERSE DISTANCE WEIGHTING ENSAIO COMPARATIVO APLICADO AO ESTUDO DA DINÂMICA TURÍSTICA

NA “ALTA E UNIVERSIDADE DE COIMBRA” (PATRIMÓNIO UNESCO)

JOSÉ GOMES DOS SANTOS* e **LILIANA RAQUEL SIMÕES DE AZEVEDO*

JOAQUIM ANTÓNIO SARAIVA PATRIARCA***LUIS CARLOS ROSEIRO LEITÃO** e ****

*Departamento de Geografia e Turismo, FLUC, Universidade de Coimbra, Coimbra – PT**Centro de Estudos de Geografia e Ordenamento do Território (CEGOT), Coimbra – PT

***Instituto de Engenharia de Sistemas e Computadores de Coimbra, Coimbra – PT****Instituto da Conservação da Natureza e das Florestas (ICNF) – PT

{jgs966, lrsazevedo, joaquimaspatriarca}@gmail.com e {[email protected]}

RESUMO – A modelação espacial com Sistemas de Informação Geográfica (SIG) sempre implicaescolhas. A existência de constrangimentos, de natureza financeira ou relacionados com as própriasespecificidades do software, dos algoritmos a utilizar, com a incerteza e, até, com a confiabilidade dospróprios dados e com as finalidades e aplicações dos estudos, convertem este pressuposto numa espéciede bússula norteadora das escolhas dos analistas que trabalham com SIG. Partindo de um exercício préviode aquisição de dados (check-ins), cuja fonte foram duas Redes Sociais Digitais (RSD - Facebook eFoursquare), e da tomada de consciência de que o aproveitamento que se pode dar à informaçãogeográfica voluntária produzida pelos cidadãos/turistas que partilham nas RSD as suas vivênciastopofílicas, o objetivo nuclear desta análise residiu na avaliação do contributo da aplicação das modernastécnicas de análise espacial ao Turismo na “Alta de Coimbra e Universidade”. Conceitos e tarefasprocessuais relacionadas com determinação de densidades, análise de clusters e identificação de padrõesassociados a variáveis regionalizadas foram, então, implementados com o propósito de avaliar e compararos resultados obtidos pela via da aplicação de duas técnicas de análise espacial, Kernel DensityEstimation (KDE) e Optimized Hot-Spot Analysis (OHSA) & Inverse Distance Weighting (IDW.

Palavras chave: Geostatística, Modelação Geospacial, KDE, OHSA, IDW, Turismo, Coimbra

ABSTRACT – Spatial modeling in Geographic Information Systems (GIS) always implies choices. Theexistence of constraints, of a financial nature or related to the specifics of the software itself, to thealgorithms, the uncertainty and even the reliability of the data, the purposes and the applications of thestudies, make this, a kind of a guiding compass for GIS analysts. Starting from a previous exercise of dataacquisition (check-ins), whose source was based in two Digital Social Networks (DSN - Facebook andFoursquare), and from the awareness that the use of voluntary geographic information produced bytourists that share their topophilic ties in DSN, the purpose of this analysis was to evaluate thecontribution of modern techniques of spatial analysis applied to Tourism in the "Alta de Coimbra andUniversity". Concepts and procedural tasks related to density determination, cluster analysis andidentification of patterns associated with regionalized variables were then implemented with the purposeof evaluating and comparing the results obtained through the application of two techniques of spatialanalysis, Kernel Density Estimation (KDE) and Optimized Hot-Spot Analysis (OHSA) & InverseDistance Weighting (IDW) Interpolation.

Key words: Geostatistics, Spatial Modeling, KDE, OHSA, IDW, Tourism, Coimbra

1 INTRODUÇÃO

Modelação e Análise Espacial constituemmetodologias geostatísticas que atualmente são utilizadas

em diversos domínios como, por exemplo, estratégias decomunicação colocadas ao serviço das mais variadasformas e atividades económicas, empresariais ou estatais,científicas/investigação, aplicadas a diversos ramos do

J. Santos; L. Azevedo; J. Patriarca; L. Leitão ISSN 1981-6251

IV Simpósio Brasileiro de Geomática – SBG2017II Jornadas Lusófonas - Ciências e Tecnologias de Informação Geográfica - CTIG2017

saber que vão das ciências biomédicas às ciênciasespaciais passando, naturalmente, pelas geociências. Sãosuportadas por um conjunto de ferramentas que permitema construção de modelos geospaciais, e podem incluircapacidades preditivas que, por regra, procuram modelarum sistema que, por sua vez, tenta aproximar-se deensaios explicativos de fenómenos que ocorrem nanatureza ou na sociedade. O estudo que se apresenta,enquadra-se num trabalho já realizado, mais amplo, com oqual se pretendeu comparar e avaliar o grau de fiabilidadede três algoritmos geoestatísticos, dois deles emassociação (complemento), aplicados ao estudo dadinâmica turística na Alta de Coimbra – centro dePortugal. Tratando-se de um estudo que procurarelacionar variáveis, atributos e as suas interações,concordamos com a ideia proposta por Getis (1991)quando sugere que a família de modelos de interaçãoespacial é um caso especial dos modelos mais genéricosutilizados em autocorrelação espacial.

2 BREVE SÍNTESE DO ESTADO DA ARTE EENQUADRAMENTO DO TEMA

Segundo Matheron (1965, apud Andriotti, 1988),a quem se atribui a paternidade e, sobretudo, odesenvolvimento dos conceitos associados, “AGeostatística é a aplicação do formalismo das FunçõesAleatórias ao reconhecimento e à estimação dosfenómenos naturais” (SIC). Inspirado, ainda, nas herançasconceptuais sobre Geostatística introduzidas porMatheron, em meados da década de sessenta do séculopassado e retomados em vários outros trabalhos recentes,por exemplo, Önsoy & Bocquillon (2015, revisto erepublicado), Andriotti (op.cit.), refere que esta área dosaber pode ser considerada como uma aplicação prática daTeoria das Variáveis Regionalizadas. Entende-se por“variável regionalizada”, termo introduzido por aqueleautor, um dipolo de características (aparentementecontraditórias) formado por variáveis cujocomportamento apresenta um carácter aleatório, por umlado, e estruturado, por outro. É aleatório no sentido deque os valores das medições que efetuamos podem variarconsideravelmente entre si dentro de uma mesma amostra,não obstante, o padrão do comportamento dessa mesmavariável não pode deixar de revelar uma valênciaregionalizada, estruturada segundo uma qualquer lei comdimensão espacial, isto se considerarmos à partida (comofacilmente se percebe) que, os valores amostrais não sãocompletamente independentes da sua localizaçãogeográfica. Este estudo aplica, com as devidasadaptações, o ensaio desenvolvido por Getis & Ord(1992) sobre “a síndrome de morte súbita por ‘concelho’(county) na Carolina do Norte, e a sua potencialcorrelação com o preço das casas obtido através docódigo postal distrital na área metropolitana de SanDiego”. Fundamenta-se, também, numa espécie deprimeiro corolário da (assim designada) “Primeira Lei daGeografia” (Tobler, 1970), que nos diz que é mais

provável que o comportamento de uma variávelregionalizada seja tão mais semelhante na “vizinhança”de um determinado ponto (conhecido e geolocalizado, esobre o qual temos dados atributivos), do que em áreasgeograficamente dele mais afastadas. A assunção destepostulado implica que, de acordo com a Teoria dasProbabilidades, e de acordo com o Andriotti (op.cit.), osvalores de duas amostras espacialmente próximas estejamcorrelacionados. Por essa razão, não seria possível estudaros valores numéricos como independentes entre si, ouseja, à luz apenas dos métodos estatísticos clássicos. Aregionalização, traduzida pelo carácter estruturado dosfenómenos, teria nas Funções Aleatórias a sua linguagemde tratamento preferencial. Refira-se, porém, que estesconceitos pecam por terem assumido inicialmente umaconotação demasiado naturalista, dado que, hoje, osconhecimentos em Geostatística permitem tratamentosimilar a outros tipos de variáveis com dimensãoantrópica, como são os casos da Saúde, Criminologia,Monitorização de acidentes rodoviários, Turismo, entreoutras.

A importância do recurso a este tipo de dados e aaplicação destas técnicas ao planeamento urbano tendopor base a procura turística de locais de enorme valorhistórico e cénico, foi retratada em outros trabalhosrecentes, de entre os quais destacamos o de García-Palomares, Gutierrez e Mínguez (2015), e o de Zhihui etal., (2016). No primeiro caso, sublinhamos os processosde aquisição de dados que revelam francas semelhançascom os expedientes metodológicos utilizados no presentetrabalho (check-in data mining), tendo por base dadossobre atracção turística em ambiente urbano obtidosatravés de serviços de photo-sharing, e o seuprocessamento em SIG. Mas também o segundo casorevela afinidades processuais e metodológicas com opresente trabalho, ao apresentar uma análise comparativade padrões que definem potenciais hot spots turísticos,baseada em dados obtidos a partir de redes sociais,aplicada a metrópoles europeias.

3 METODOLOGIA E OPERABILIDADE

Trabalhar com modelos espaciais implica escolhas.E aqui há sempre constrangimentos, sejam elesfinanceiros ou relacionados com as própriasespecificidades do software, dos algoritmos a utilizar,com risco e incerteza, etc. A modelação espacial envolvetudo isto e é bom que todos tenhamos consciência destarealidade para estarmos prontos para discutir as melhoressoluções para cada caso. Na sequência desta primeirareflexão, impõe-se recordar as palavras de GeorgeEdward Pelham Box, 1987, “Devemos lembrar-nos quetodos os modelos estão errados: a questão prática é quãoerrados é que eles têm de estar para deixarem de ser úteis(…). Essencialmente, todos os modelos estão errados,mas alguns são úteis”, reflexão reproduzida por Rocha(2012, 323).

J. Santos; L. Azevedo; J. Patriarca; L. Leitão ISSN 1981-6251

IV Simpósio Brasileiro de Geomática – SBG2017II Jornadas Lusófonas - Ciências e Tecnologias de Informação Geográfica - CTIG2017

O objetivo desta análise comparativa aplicada aoturismo na “Alta de Coimbra e Universidade” não residepropriamente na interpretação de dados à luz dasconceções clássicas de estatística descritiva; no entanto,procurámos manter alguns dados que caracterizam ouniverso amostral e permitem antever algumaspropriedades entre as variáveis em confronto, cuja notadominante não deixa de ser a de uma acentuadaindependência e, como consequência, um apreciável graude aleatoriedade. Mas as modernas técnicas de análiseespacial, como determinação de densidades, análise declusters, identificação de padrões que permitemtransformar em rasters inteligentes os geodados vetoriaisnativos, convidaram-nos a ensaiar e confrontar os dadosresultantes de uma comparação metodológica entre doismétodos de estimação de densidades - Kernel DensityEstimation (KDE) e Optimized Hot Spot Analysis(OHSA), sendo que este último foi complementado com ocontributo do interpolador geostatístico Inverse DistanceWeighting (IDW). Estamos, portanto, no domínio francoda “Geostatística” e das técnicas exploratórias econfirmatórias que estão no núcleo do módulo da análiseespacial em SIG (Anselin & Getis, 1992), e que nosdeverá permitir identificar padrões, estimar e delimitaráreas com características homogéneas tendo por base ocomportamento de um fenómeno e a aplicação dasreferidas técnicas de análise geospacial.

3.1 Preparação dos dados para efeitos de visualizaçãode clusters: Point Density e Cluster and OutlierAnalysis (Anselin Local Moran's I)

Este ensaio começou com uma iniciativa queteve por objetivo identificar as áreas de maior densidadede pontos partilhados por turistas nas RSD (check-ins).Em função da elevada proximidade da localização dealguns dos Pontos de Interesse (POI, do acrónimoanglógrafo), julgámos que seria útil para este exercícioidentificar as áreas de maior densidade (Point Density).Atribuímos o valor de 10m para a resolução do pixel edefinimos um raio de pesquisa de 140m, arredondando aproposta sugerida por defeito. Posteriormentereclassificámos a amostra com classes de 25m,apresentando-se o resultado final na Figura 1. Facilmentese percebe que existe um cluster de pontos que se destacade toda a vizinhança, unidade que espacialmente se podedefinir como toda a área pertencente aos diversos (masprincipais) espaços da Universidade de Coimbra eMuseus a que se agregam os monumentos históricoslocalizados em torno da Sé Velha e da Sé Nova. De referirque considerámos um Extent que envolveu 86 pontos(POI) - check-ins referidos por utilizadores de RedesSociais (Azevedo, 2014), embora neste caso, como ametodologia inclui apenas os pontos “Falls inside”, doisdeles (Mata do Choupal e Estação de Coimbra B)ficassem excluídos na representação cartográfica.Decidimos efetuar o teste de Anselin Local Moran's I para

identificação específica de clusters1, tendo em conta umfluxo de trabalho que (também em ambiente ArcMAP10.3)2, seguiu o caminho, ...\Arctoolbox \ SpatialStatistical tools \ Mapping clusters \ Cluster and OutlierAnalysis (Anselin Local Moran's I), Figura 2. Naconfiguração do Wizard inserimos o layer“Checkin_Final” (tema com a distribuição dos pontos),com o atributo “SomaFF” (nº de check-ins em cada umdos POI). No campo “Conceptualization for the SpatialRelationship” escolhemos “Inverse distance” e para ocampo “Distance method”, “Eucledian Distance”.

Figura 1 – Cartograma da densidade de pontos (PointDensity).

Figura 2 – Fluxo de trabalho para identificação de clustersem temas de pontos (adaptado do original aquirepresentado para temas de polígonos). Fonte: ESRI Helpspecific tool.

Como facilmente se percebe do resultado obtidona Figura 3, a identificação de objetos continua a sermuito limitativa, não se percebendo de forma clara ainfluência da localização e da distância sobre a decisão devisita aos restantes POI, embora se admita que seja devidoaos efeitos de vizinhança e proximidade, e `notoriedadeda sua importância icnográfica. Contudo, continuamossem perceber o que motiva a variância assinalável nonúmero de check-ins obtidos a partir do Facebook e doFoursquare (SomaFF, atributo que foi considerado naconfiguração). Por outro lado, não se torna possívelidentificar verdadeiros hot spots e cold spots porque todoo conjunto da Alta, neste caso, funciona como cluster, no

1 (…) new general class of Local Indicators of SpatialAssociation - LISA (Anselin, 1995).2 De acordo com o ESRI Help specific tool, “Um determinadoconjunto de objetos ponderados pode ser utilizado paraidentificação de valores significativos de hot spots, cold spots,and spatial outliers, utilizando o teste estatístico Anselin LocalMoran” (tradução dos autores).

J. Santos; L. Azevedo; J. Patriarca; L. Leitão ISSN 1981-6251

IV Simpósio Brasileiro de Geomática – SBG2017II Jornadas Lusófonas - Ciências e Tecnologias de Informação Geográfica - CTIG2017

qual um POI não se destaca da vizinhança, pelo contrário,faz parte dela.

Abrindo a tabela de atributos do tema criado“Checkin_final_Clusters_Outlier” (Figura 4) verificamosque foram criados novos campos com “z-scores” e p-values”3. Os resultados obtidos revelam a existência deuma quantidade apreciável de pontos cujos valoresatributivos dos check-ins, apesar da localização deproximidade física, não indiciam a formação de clusters.

Figura 3 – Cluster and outlier analysis (Anselin LocalMoran's I).

Figura 4 – Dados tabelares High Outliers segundo o testeCluster and outlier analysis (Anselin Local Moran's I).

Tendo em conta a distribuição dos check-ins (epercebida alguma aleatoriedade na sua distribuição)notamos a existência de 7 pontos – high outliers. Qual oseu significado? Bom, trata-se dos valores com p-valuesmais baixos e com os mais baixos z-scores negativos,

3 Z-scores are simply standard deviations. If, for example, a toolreturns a z-score of +2.5, you would say that the result is 2.5standard deviations. Both z-scores and p-values are associatedwith the standard normal distribution. The p-value is aprobability. For the pattern analysis tools, it is the probabilitythat the observed spatial pattern was created by some randomprocess. When the p-value is very small, it means it is veryunlikely (small probability) that the observed spatial pattern isthe result of random processes, so you can reject the nullhypothesis. (Fonte: ArcGIS Help Desktop 10.3).

dados que nos indicam que cada um destes objetospoderia fazer parte de uma vizinhança desde que osobjetos mais próximos apresentassem uma menorirregularidade de valores (z-scores e p-values). Assim nãoacontecendo, representam estatisticamente valoresatípicos. Mas foi criado também um campo (COType)com indicações de texto (HL) para estes 7 pontos com corvermelha (cfr. Figura 3). Tal significa que cada um destespontos é um objeto com elevado número de incidências(observações – check-ins) mas que se encontra rodeado(digamos num primeiro buffer) por pontos com valoresmais baixos, surgindo mais distantes outros pontos comvalores mais elevados. Esta situação não permite adefinição de verdadeiros clusters, e julgamos que estefacto poderá ajudar a explicar a razão pela qual eles nãosurgem nas figuras 3 e 4.

4. O ESTIMADOR DE DENSIDADE KDE vsCOMBINAÇÃO DO OPERADOR OHSA /INTERPOLADOR IDW; OPERACIONALIZAÇÃOE APRESENTAÇÃO DE RESULTADOS

4.1 Kernel Density Estimation (KDE)

A função KDE é referida em alguns softwareSIG Livre (por exemplo, o QGIS) como “Mapas deCalor”. Sem querer aprofundar esta questão, por não sereste o fórum próprio para o fazer, pensamos que oequivalente mais próximo poderá ser confundido comHot Spot Map (uma outra função para análise dedensidades, distinta do KDE, desde logo, pordisponibilizar dados com significado estatístico) e da qualfalaremos seguidamente. Convém referir que a utilizaçãodo KDE traz muitas vantagens na leitura, interpretação eanálise de mapas temáticos, e resulta da conversão de umtema vetorial para um tema raster que pode voltar a serconvertido para vetor, (se nisso se vir qualquer tipo devantagem. De acordo com Anderson Medeiros (WebinarMundogeo, 3 de julho de 2015) há, pelo menos, duasvantagens na utilização de mapas de Kernel:a) Quando existe uma concentração excessiva depontos a análise visual pode acabar sendo prejudicada.Por exemplo, em uma área um ponto pode estar narealidade representando várias ocorrências (casos dedoenças, crimes, etc);b) A representação não fica limitada a áreas pré-definidas, como é o caso dos polígonos de bairros oumunicípios.

Para a construção de um mapa de KDE énecessário uma malha de pontos e para cada um delesverifica-se se localizam a uma distância menor ou inferiorao raio do círculo definido. Um dos problemas, queabordaremos de seguida, consiste na determinação dovalor do raio para o qual propomos uma solução possível.Para cada ponto encontrado dentro do círculo, é calculadaa função de Kernel nesse ponto, bem como o valoracumulado da concentração de pontos, resultado que éconvertido para modelo de dados raster. A densidade

J. Santos; L. Azevedo; J. Patriarca; L. Leitão ISSN 1981-6251

IV Simpósio Brasileiro de Geomática – SBG2017II Jornadas Lusófonas - Ciências e Tecnologias de Informação Geográfica - CTIG2017

informa-nos sobre a existência de clusters mas não nosdiz se têm (ou não) significado estatístico.

Uma outra questão frequente, é saber aquantidade de pontos necessários (após agregação) paraque os resultados sejam fiáveis. Entre outros aspetos, arepresentatividade dos dados dependerá sempre da escalade trabalho. A ideia geral é “Quanto mais pontos maisprovável se torna a obtenção de resultados mais fiáveis”.No caso em apreço, seguimos o caminho, ...\Arctoolbox \Spatial Analyst tools \ Density \ Kernel density. Naconfiguração do Wizard (Figura 5) inserimos o tema quetem vindo a ser considerado, com o atributo “SomaFF”.alterámos o valor de resolução “cell size” que vinha pordefeito (16.6530470571816) para 10m, o que contribuipara uma superfície de saída menos pixelizada,visualmente mais suave. No campo seguinteconfiguramos o valor do raio para a pesquisa de vizinhos.O resultado cartográfico final dependerá muito do valorque seja inserido neste campo. Efetuámos vários ensaios econstatámos que existem enormes diferenças entre oslayouts finais.

Figura 5 – Configuração do Wizard no KDE.

De acordo com as metodologias que tivemosoportunidade de investigar nas fontes bibliográficasconsultadas, para a resolução deste problema que, comoanteriormente dissemos, entre outras coisas, depende daescala do trabalho que temos em mãos, percebemos que oArcMap tem uma função que nos ajuda a resolver esteproblema de uma forma expedita. Trata-se de aplicar aferramenta Calculate Distance Band from NeighborCount (Figura 6) que nos permite avaliar com rigor ovalor do raio a inserir neste campo do Wizard.

A funcionalidade Calculate Distance Band fromNeighbor Count produz um Logfile (Figura 7) o qual,aliás, pode ser muito útil também para a implementaçãoda ferramenta Hot Spot Analysis, por fornecer indicaçõessobre a distância mínima, média e máxima para quequalquer ponto tenha, pelo menos, um vizinho. Talsignifica que, obviamente, o valor máximo queobtivermos neste exercício deverá ser o valor a inserir nocampo Search Radius da Figura 5.

Configurado o Wizard, a superfície produzida eque apresenta na Figura 8, mostra uma região contínuaonde as ocorrências (check-ins) parecem ter maiorexpressão. Era expectável que a área da Alta, emparticular, a Universidade e os monumentoshistórico/religiosos mais emblemáticos, constituíssem um

sector de maior densidade de registos como parece sugerira interpretação da Figura 84

Figura 6 – Wizard da ferramenta Calculate DistanceBand from Neighbor Count.

Figura 7 – Logfile produzido pela ferramenta CalculateDistance Band from Neighbor Count.

4 Este tipo de cartografia pode ser amplamente melhoradoquando devidamente articulado com informação de umBasemap adequado a cada caso de estudo, e com a inclusão delimites administrativos e inclusão de labels quando tal sejustifique.

J. Santos; L. Azevedo; J. Patriarca; L. Leitão ISSN 1981-6251

IV Simpósio Brasileiro de Geomática – SBG2017II Jornadas Lusófonas - Ciências e Tecnologias de Informação Geográfica - CTIG2017

Figura 8 – Kernel Density Estimation.

4.2 Optimized Hot-Spot Analysis (OHSA) / InverseDistance Weighting (IDW) interpolation

Quando utilizamos a função Hot Spot Analysis(HSA) significa que estamos perante processos que levamà agregação de dados e valores (presença de clusters),elevados ou fracos, mas com significado estatístico(medido por intervalos de confiança). Tal significa falar,também, na probabilidade de uma distribuição não ocorrerde forma completamente aleatória e definir um padrãoespacial, bem como, em proximidade e em vizinhança. Naimplementação desta técnica de análise geostatística, estesconceitos assumem uma importância notável, talvez poracrescentarem mais e melhor informação, pelo menos,numa perspetiva de SIG visual, quando comparada comoutras metodologias. No entanto, a HSA permite, ainda,ultrapassar dificuldades associadas à representaçãocoroplética clássica (pensemos numa amostra commilhares de pontos, onde cada um desses pontos possarepresentar milhares de ocorrências, por exemplo,chamadas para o Número de Emergência Médica), emque a representação de tanta e tão diversa quantidade deinformação pode resultar num exercício altamenteentrópico que, em vez de servir de suporte à decisão, podetornar-se em mais um obstáculo. Por outro lado, épossível complementar os dados vetoriais (de pontos oude polígonos) geoprocessados pelo operador HSA cominterpoladores que permitam a construção de superfícies(em modelo de dados raster) mais ou menos suaves emfunção do valor que possamos atribuir ao pixel,resultando daí informação cartográfica que permite aanálise de padrões capazes de explicar o comportamentode determinados fenómenos, como é o caso da associaçãoque temos vindo a estabelecer entre o número de check-ins registados em cada um dos 86 POI turísticos emCoimbra. Um dos interpoladores mais frequentementeutilizados como complemento do HSA é o InverseDistance Weighting (IDW), que utilizámos também nesteensaio comparativo. De referir que, este algoritmoapresenta algumas vantagens quando comparado com oalgoritmo que executa as tarefas de HSA, na medida emque o OHSA permite ao utilizador menos experiente e

menos conhecedor dos domínios da geostatística, executarum fluxo de trabalho com parâmetros pré-configurados,diminuindo assim o risco de erro e de incerteza. Estaferramenta está baseada no processo de cálculo estatísticoGetis-Ord Gi* (Gi* deve ler-se G-i-star - recomenda-se aleitura do Help do ArcGIS) e, como referimos, o adjetivo“Optimized” resulta do facto de a própria ferramenta pré-configurar alguns dos parâmetros para processamento.Recordando que temos vindo a trabalhar com a variável(POI) e com um dos seus atributos quantitativos querepresentam incidências com dimensão espacial(ocorrências – check-ins), e que tentamos estabeleceruma correlação entre eles e o fator distância, a ferramentaOHSA foi inicialmente ensaiada para os POI seguindo ocaminho, ...\ Arctoolbox \ Spatial Statistical tools \Mapping clusters \ Optimized Hot Spot Analysis.

Na configuração do Wizard, colocámos o layer“Checkin_Final” e não inserimos nenhum atributo,aceitando o método sugerido, por defeito, ou seja,Incident Data Aggregation Method(Count_Incidents_Within_Fishnet_Polygons). O resultadofoi a produção de células que nos dão indicação de umpadrão de distribuição dos POI que confirma a existênciade um cluster na área da Alta e Universidade (Figura 9).

No passo seguinte, e porque não temos umasuperfície contínua, utilizámos um outro método deagregação de valores –Snap_Nearby_Incidents_to_Create_Weighted_Points, quepermite criar um único ponto ponderado a partir deincidentes próximos. Voltamos, agora, a trabalhar compontos de base vetorial (Figura 10). O peso para cadaponto resulta do número de incidências (check-ins) paracada ponto próximo na vizinhança definida. Confirma-sea localização do cluster com elevado grau de confiança naAlta e Universidade, em função do número de check-insassociados. Procurámos, então, indagar acerca daexistência de tendências, de padrões associados a estadistribuição, com recurso ao interpolador IDW paraestimar superfícies contínuas, voltando ao modelo dedados raster (Figura 11).

Figura 9 – Representação matricial do cluster da Alta eUniversidade segundo o geoprocesso OHSA (Raster).

J. Santos; L. Azevedo; J. Patriarca; L. Leitão ISSN 1981-6251

IV Simpósio Brasileiro de Geomática – SBG2017II Jornadas Lusófonas - Ciências e Tecnologias de Informação Geográfica - CTIG2017

Figura 10 – Representação vetorial do cluster da Alta eUniversidade segundo o geoprocesso OHSA (pontos).

Uma observação final que nos leva a refletirsobre um procedimento que, em nosso entendimento, estáincorreto, e que consiste no estabelecimento de umacorrespondência entre os pontos com elevado valor deocorrências e a existência de um Hot Spot. Apenas aanálise dos dados relativos ao campo Gi-Bin (que estatécnica de OHSA executa e apresenta de modo pré-configurado, como referimos), por atribuir intervalos deconfiança aos resultados, nos pode verdadeiramenteesclarecer sobre a existência de hot e de cold spots.

Figura 11 – Cartograma com a superfície de OHSA &IDW (Geostatistical Analyst tool).

Compreendemos a razão pela qual aquelainterpretação apriorística seja frequente, mas, na verdade,a correspondência nem sempre é assim tão linear. Aestimação de clusters com significado potencial decorrespondência a um Hot Spot está, como antes se disse,dependente da relação de vizinhança; só teremos umverdaderio Hot Spot se um determinado objeto (feature)for agregado a objetos com ocorrências semelhantes, masque se destacam de um conjunto de objetos vizinhos.Ora, se todos os objetos de uma determinada áreaapresentarem valores (ocorrências) elevadas, e se foremsemelhantes, não se destacam da vizinhança e, por essarazão, não definem verdadeiros Hot Spots. Note-se, atítulo de exemplo, que na Figura 11 existem pontos (POI)

que após agregação formam clusters com elevado grau deconfiança (95%) mas que, após a interpolação IDW,acabam por cair dentro de áreas cujo grau de confiança deexistência de um Hot Spot não é necessariamente omesmo; neste caso, estamos perante um valor entre 1,8 e2,1, ainda longe dos valores máximos obtidos para se ter acerteza de existência de hot spots - que se destacam davizinhança. Mutatis Mutandis, a mesma interpretaçãodeve ser aplicada aos cold spots (inexistentes na figura11).

Mas, se tudo até ao momento parece fazersentido, eis um novo confronto com a ideia de facilidadede manipulação de dados em SIG e, por consequência,dos seus resultados cartográficos. A combinação doOHSA com o interpolador IDW, neste caso, foi efetuadacom recurso ao algoritmo do interpolador obtido atravésdo subset de ferramentas Geostatistical Tool, doArctoolbox. Seguimos o caminho Interpolation > IDW. Oresultado cartográfico, apresentado na Figura 12, revela apresença de um Hot Spot bem individualizado na Alta eUniversidade (cfr. Figura 11). Todavia, estaríamos naexpectativa de perceber se nesta área, uma outraconfiguração dos parâmetros e/ou a utilização de outroalgoritmo, nos confrontaria com a existência de um HotSpot ou de um Cold Spot, precisamente por se tratar deuma situação em que temos um conjunto de pontosvizinhos cujos valores de ocorrência não se destacamentre si (Figura 12). Por outro lado, o facto de estespontos aparecerem agregados após a implementação destealgoritmo de interpolação, mas disponível num caminhodiferente poderia, porventura, conduzir à obtenção de umresultado cartográfico diferente (?).

Orientados pelo fluxo de trabalho, ...\Arctoolbox\ Spatial Analyst tools \ Interpolation \ IDW, após aagregação de pontos, veio a comprovar-se a definição deum Hot Spot numa área diferente da obtida na Figura 11,como revela a informação disponibilizada na Figura 12.Admitindo que a configuração dos respectivos wizards edos parâmetros disponíveis possa explicar as diferençascartográficas resultantes e que ambos os mapas,aparentemente paradoxais, possam estar corretos naquiloque pretendem reproduzir, não deixa de ser algosurpreendente a obtenção de resultados tão diferentesquando se recorre à combinação do OHSA com estemesmo interpolador, mas executado a partir de diferentessubsets !

J. Santos; L. Azevedo; J. Patriarca; L. Leitão ISSN 1981-6251

IV Simpósio Brasileiro de Geomática – SBG2017II Jornadas Lusófonas - Ciências e Tecnologias de Informação Geográfica - CTIG2017

Figura 12 – Cartograma com a superfície de OHSA &IDW (executado a partir do subset Spatial Analyst tools).

4.3 Discussão de resultados

Analisando os dados e os resultados obtidos combase na implementação dos processos de modelaçãoespacial em confronto, verificamos a existência de áreasótimas com interesse turístico no Eixo Universidade –Quebra-Costas e também em Espaços Verdes,nomeadamente no Parque Verde da cidade. Todavia, naanálise do ensaio metodológico comparativo em apreço, etendo em conta os check-ins (86 POI) efetuados nas duasRSD analisadas, verificamos que, no caso do estimadorestatístico KDE, é possível identificar uma significativaintensidade do evento / incidência conferida peladensidade de check-ins relativos a POI localizadosnoutras regiões distintas do core Alta e Universidade.Trata-se de um estimador que, por ser probabilístico não-paramétrico, baseia-se na ordem (ranking) dos dados,sendo a sua única premissa básica é a de que, ao avaliar aocorrência de eventos no espaço, pelo que temos queconsiderar a localização desses eventos como aleatóriapodendo, por isso, não refletir da melhor maneira adistribuição espacial dessas ocorrências, nem assegurar oseu significado estatístico. Este facto sublinha anecessidade de estimar convenientemente o valor do raiopara a pesquisa de vizinhos, oque implica um bomconhecimento do terreno. O presente ensaio, revelouainda, que o KDE permitiu a individualização de umcluster na zona da Universidade, mas como não temosinformação precisa para definir com rigor o valor do raio,a superfície produzida vai variar em função do valor quese defina no wizard.

A técnica OHSA/IDW revelou com elevado graude confiança, a existência de um padrão de distribuiçãoespacial muito idêntico ao KDE, ou seja, a presença deuma mancha, uma área ótima com interesse turístico naAlta e Universidade, à qual se atribui um elevadosignificado estatístico, facto que a torna mais credívelquando comparada com as conclusões apresentadas para ainterpretação dos resultados obtidos pelo estimador KDE.Este ensaio comparativo, permite concluir que, qualqueruma das técnicas utilizadas (KDE e OHSA/IDW –

efectuada no Geospatial analyst) parece mostrar umadistribuição espacial semelhante, ou seja, é possívelvisualizar a presença de um cluster e de um Hot Spot,respectivamente. No entanto, porque todo o conjunto daAlta é um imenso cluster no qual os POI que o forma nãose distinguem da vizinhança, procurámos outras soluçõesque permitissem retratar e representar cartograficamente,se tal fosse possível, situação diversa da anterior, na qualum POI não se destaca em relação à vizinhança mas, pelocontrário, faz parte dela. A opção pelas técnicas conjuntasOHSA/IDW – efectuada a partir do Spatial StatisticTools, na qual os parâmetros são configurados de formadiferente, permitiu-me chegar a um layout cartográficotambém diferente, (cfr. Figura 12), mas compatível com adúvida que havíamos colocado anteriormente pelo factode os POI não se distinguirem verdadeiramente davizinhança.

5 CONCLUSÕES

Como primeira conclusão, podemos afirmar que,qualquer que seja a metodologia utilizada para umprocesso de modelação geospacial, é necessário ponderarmuito bem a escolha dos algoritmos e dos parâmetros deconfiguração. Mas também a fiabilidade, exaustividade,consistência e exatidão dos dados de entrada são factoresdeterminantes para garantir a qualidade do trabalho.

Uma outra conclusão passível de reflexãoconsiste no facto de a organização dos dados não ser,porventura, a mais adequada, e o escasso volume de POItomados em linha de conta (36, após agregação) nãopermitir retirar conclusões com maior grau de confiançanas técnicas utilizadas.

Sublinhamos, por fim, que em termos deaplicabilidade dos SIG e da modelação espacial comrecurso a operadores geoestatísticos à análise da dinâmicaturística, a identificação de hot spots e os conceitos deproximidade e efeito de vizinhança poderão ser uma mais-valia para a análise desta temática. Estamos cientes dasvalências destas metodologias e acreditamos que a suautilização para efeitos de apoio à gestão turística deveriaser utilizada como ferramenta de análise, na medida emque, a identificação do “onde” existem mais visitas emaior concentração de ocorrências (check-ins), tornapossível desenvolver estratégias que permitam alargar oleque das ofertas turísticas, de forma a possibilitar que osoperadores turísticos estejam “onde” estão os turistas. Poroutro lado, “onde” não há procura pelos turistas deveconvidar a tentar perceber a razão deste facto, no sentidode encontrar soluções criativas para promover o turismonesses espaços da cidade.

REFERÊNCIAS

ANDRIOTTI, J., Introdução à Geoestatística. EstudosTecnológicos - Acta Geológica Leopoldensia, SãoLeopoldo, v. 11, nº27, p. 5-81, 1988.

J. Santos; L. Azevedo; J. Patriarca; L. Leitão ISSN 1981-6251

IV Simpósio Brasileiro de Geomática – SBG2017II Jornadas Lusófonas - Ciências e Tecnologias de Informação Geográfica - CTIG2017

ANSELIN, L., GETIS, A., Spatial Statistical Analysis and Geographic Information Systems. The Annals of Regional Science, Vol. 26, p. 19-33, 1992. DOI:10.1007/BF01581478 .

ANSELIN, L., Local Indicators of Spatial Association- LISA. Geographical Analysis, Vol. 27, nº2, Ohio State,University Press, p. 93-115, 1995.

ArcGIS Help Desktop 10.3(ESRI)

AZEVEDO, L. Geolocalização, Geocolaboração e Redes Sociais. Estudo de caso aplicado ao turismo no Centro Histórico de Coimbra. Tese de Mestrado, 194 p., 2015, Universidade de Coimbra, Coimbra.

GARCÍA-PALOMARES, Juan Carlos, GUTIERREZ, Javier e MÍNGUEZ, Carmen. Identification of tourist hot spots based on social networks: A comparative analysis of European metropolises using photo-sharing services and GIS. Applied Geography, 63, p. 408-417, Elsevier 2015, também disponível em: https://www.e- education.psu.edu/geog884/sites/www.eeducation.psu.edu.geog884/files/palamoresetal(2015).pdf.

GETIS, A., Spatial Interaction and Spatial Autocorrelation: A Cross-Product Approach.Environment and Planning A 23, p. 1269-77, 1991.

GETIS, A., ORD, K., The Analysis of Spatial Association by Use of Distance Statistics. Geographical Analysis, 24, p. 189-206, 1992.

ÖNSOY, H., BOCQUILLON, C., Interpolation de variables régionales et cartographie automathique: modèle trinagulaire hydrologique (MTH)/Interpolation of regional variables and automatic drawing of isoplets, Hydological Sciences Bulletin, 25/3, 297-306, 2015.

ROCHA, F., Sistemas complexos, modelação e geosimulação da evolução de padrões de uso e ocupação do solo, Dissertação de Doutoramento, 987 p., 2012, Universidade de Lisboa, Lisboa.

TOBLER, W.; A Computer Movie Simulating Urban Growth in the Detroit Region. Economic Geography, Vol. 46, Supplement: Proceedings. International Geographical Union. Commission on Quantitative Methods, Clark University, DOI: 10.2307/143141, p. 234-240, 1970.

ZHIHUI Gu, YAN Zhang, YU, Chen e XIAOMENG Chang; Analysis of Attraction Features of Tourism Destinations in a Mega-City Based on Check-in Data Mining—A Case Study of Shenzhen, China. ISPRS,International Journal of Geo-Information. p. 1-13, MDPI, 2016, disponível também em:http://www.mdpi.com/2220-9964/5/11/210.

J. Santos; L. Azevedo; J. Patriarca; L. Leitão ISSN 1981-6251