anÁlise estatÍstica multivariada aplicada a dados … · 2018-10-26 · tabela 16: medida de...

UNIVERSIDADE DE LISBOA

FACULDADE DE CIÊNCIAS

DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL

ANÁLISE ESTATÍSTICA MULTIVARIADA APLICADA A

DADOS HIDROGEOLÓGICOS

Vânia Sofia Pires Simões Gomes

Dissertação

Mestrado em Estatística

UNIVERSIDADE DE LISBOA

FACULDADE DE CIÊNCIAS

DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL

ANÁLISE ESTATÍSTICA MULTIVARIADA APLICADA A

DADOS HIDROGEOLÓGICOS

Vânia Sofia Pires Simões Gomes

Dissertação orientada pela Prof.ª Doutora Fernanda Diamantino e

coorientada pela Prof.ª Doutora Catarina Silva

Mestrado em Estatística

Índice

Índice de Figuras ............................................................................................................. iii

Índice de Tabelas .............................................................................................................. v

Índice de Anexos ............................................................................................................. vi

Resumo ........................................................................................................................... vii

Abstract ............................................................................................................................ ix

Capítulo 1: Introdução ...................................................................................................... 1

1.1. Objetivos do estudo ........................................................................................... 1

1.2. Enquadramento geológico ................................................................................. 6

Capítulo 2: Metodologia ................................................................................................... 9

2.1. Conceitos de álgebra matricial ............................................................................... 9

2.1.1. Conceito de matriz .......................................................................................... 9

2.1.2. Tipos de matrizes ............................................................................................ 9

2.1.3. Igualdade de matrizes .................................................................................... 10

2.1.4. Operações com matrizes................................................................................ 11

2.1.5. Traço de uma matriz ...................................................................................... 11

2.1.6. Vetores linearmente dependentes e independentes ....................................... 11

2.1.7. Característica de uma matriz ......................................................................... 12

2.1.8. Determinante ................................................................................................. 12

2.1.9. Matriz adjunta e matriz inversa ..................................................................... 13

2.1.10. Matriz ortogonal .......................................................................................... 13

2.1.11. Valores próprios e vetores próprios ............................................................ 13

2.1.12. Decomposição espetral ................................................................................ 14

2.2. Características amostrais .................................................................................. 15

2.2.1. Características amostrais univariadas ....................................................... 15

2.2.2. Características amostrais bivariadas ......................................................... 16

2.3. Técnicas de Análise Multivariada .................................................................... 18

2.3.1. Análise em Componentes Principais ........................................................ 19

2.3.1.1. Introdução ............................................................................................... 19

2.3.1.2. O modelo matemático ............................................................................. 20

2.3.1.3. Número de componentes a reter ............................................................. 22

2.3.2. Análise Fatorial ........................................................................................ 23

2.3.2.1. Introdução ............................................................................................... 23

2.3.2.2. O modelo matemático ............................................................................. 23

2.3.2.3. Número de fatores a reter ....................................................................... 24

2.3.2.4. Rotação dos fatores ................................................................................. 25

2.3.2.5. Método de extração dos fatores .............................................................. 26

2.3.2.6. Validação do modelo de análise fatorial................................................. 27

2.3.2.7. Análise em Componentes Principais versus Análise Fatorial ................ 28

2.3.3. Análise de Clusters ................................................................................... 29

2.3.3.1. Introdução.......................................................................................... 29

2.3.3.2. Medidas de proximidade ................................................................... 30

2.3.3.3. Métodos de agregação ....................................................................... 32

2.3.3.4. Critérios de agregação ....................................................................... 33

Capítulo 3: Análise de dados hidrogeológicos ............................................................... 35

3.1. Análise Exploratória dos Dados ...................................................................... 39

3.1.1. Características amostrais .......................................................................... 39

3.1.2. Correlação linear de Pearson .................................................................... 45

3.1.3. Representações gráficas ............................................................................ 47

3.2. Análise Multivariada ........................................................................................ 63

3.2.1. Análise em Componentes Principais ........................................................ 63

3.2.2. Análise Fatorial ........................................................................................ 71

3.2.3. Análise de Clusters ................................................................................... 78

Capítulo 4: Conclusões ................................................................................................... 89

Considerações Finais ...................................................................................................... 95

Bibliografia ..................................................................................................................... 97

Anexos .......................................................................................................................... 101

Índice de Figuras

Figura 1: Localização geográfica das amostras de água e respetivas formações

geológicas ....................................................................................................... 4

Figura 2: Localização geográfica das amostras de água ................................................ 36

Figura 3: Localização geográfica das amostras de água e respetivas formações

geológicas ....................................................................................................... 37

Figura 4: Diagramas em caixa de bigodes paralelos de cada variável comparando

cada formação geológica ................................................................................. 48

Figura 5: Diagramas em caixa de bigodes paralelos de cada formação geológica,

para cada ião.................................................................................................... 51

Figura 6: Diagramas de dispersão das observações reorganizadas versus cada uma

das variáveis em estudo .................................................................................. 54

Figura 7: Matriz de diagramas de dispersão para cada formação geológica com as

variáveis condutividade elétrica, cálcio, sódio e cloreto ................................. 58

variáveis bicarbonato, cálcio e magnésio ........................................................ 60

variáveis bicarbonato, cálcio e sulfato ............................................................ 61

Figura 10: Diagrama de dispersão para cada formação geológica com as variáveis

nitrato e sulfato ............................................................................................... 62

Figura 11: Scree plot (número de componentes principais versus valores próprios) ..... 65

Figura 12: Representação gráfica dos loadings das duas primeiras componentes

principais....................................................................................................... 67

Figura 13: Representação gráfica dos scores (observações) das duas primeiras

componentes principais ................................................................................ 68

Figura 14: Representação gráfica dos scores (formações geológicas) das duas

primeiras componentes principais ................................................................ 69

Figura 15: Representação gráfica (biplot) dos loadings e dos scores (observações)

das duas primeiras componentes principais .................................................. 70

Figura 16: Representação gráfica (biplot) dos loadings e dos scores (formações

geológicas) das duas primeiras componentes principais .............................. 70

Figura 17: Representação gráfica dos loadings dos 2 primeiros fatores ........................ 75

Figura 18: Dendograma (variáveis estandardizadas) para a amostra global

utilizando o método de Ward ........................................................................ 79

Figura 19: Localização geográfica das amostras de água que constituem os clusters

(cluster1, cluster2 e cluster3) obtidos quando se utiliza o método de

Ward com as variáveis estandardizadas ....................................................... 79

Figura 20: Dendograma (variáveis estandardizadas) para a amostra global

utilizando o método de Complete Linkage ................................................ 80

Complete Linkage com as variáveis estandardizadas ................................... 81

Figura 22: Dendograma (com os scores das 5 primeiras componentes principais)

para a amostra global usando o método de Ward ......................................... 83

Ward com as 5 primeiras componentes principais ....................................... 84

Figura 24: Dendograma (com os scores das 5 primeiras componentes principais)

para a amostra global usando o método de Complete Linkage .................... 85

Complete Linkage com os scores das 5 primeiras componentes

principais....................................................................................................... 86

Figura 26: Dendogramas (observações) para cada formação geológica utilizando o

método de Ward (variáveis estandardizadas) ............................................... 87

Índice de Tabelas

Tabela 1: Escala de avaliação da análise fatorial............................................................ 27

Tabela 2: Proveniência das amostras .............................................................................. 38

Tabela 3: Características amostrais das variáveis (amostra global) ............................... 39

Tabela 4: Características amostrais (média e desvio padrão) das variáveis em cada

grupo de formações geológica ........................................................................ 44

Tabela 5: Valores próprios da matriz de correlações amostral ....................................... 63

Tabela 6: Proporção de variância explicada por cada componente e proporção de

variância acumulada explicada até à componente j. ....................................... 64

Tabela 7: Matriz dos loadings das componentes principais ........................................... 66

Tabela 8: Valores próprios da matriz de correlações amostral ....................................... 71

Tabela 9: Proporção de variância explicada por cada fator e proporção de variância

acumulada pelo fator j ..................................................................................... 72

Tabela 10: Comunalidades iniciais e extraídas através do método das componentes

principais....................................................................................................... 73

Tabela 11: Matriz dos loadings (sem rotação dos fatores) ............................................. 73

Tabela 12: Matriz da transformação ortogonal obtida pelo método de rotação

varimax ....................................................................................................... 74

Tabela 13: Matriz dos loadings (após rotação varimax) ................................................ 74

Tabela 14: Designação dos fatores ................................................................................. 75

Tabela 15: KMO e teste de esfericidade de Bartlett ....................................................... 76

Tabela 16: Medida de adequação amostral para cada variável (MSA) .......................... 77

Tabela 17: Caracterização dos grupos de formações geológicas.................................... 89

Tabela 18: Tabela resumo dos outliers por cada grupo de formação geológica e por

cada variável ................................................................................................. 90

Índice de Anexos

Anexo 1: Matriz dos dados ............................................................................................ 104

Anexo 2: Caracterização dos grupos de formações geológicas .................................... 105

Anexo 3: Tabelas com os valores extremos (os 5 maiores e os 5 menores valores)

para cada variável.......................................................................................... 107

Anexo 4: Matriz de correlações de Peason - amostra gobal.......................................... 108

Anexo 5: Matriz de correlações de Pearson - Aluviões ................................................ 109

Anexo 6: Matriz de correlações de Pearson - Formação de Benfica............................. 110

Anexo 7: Matriz de correlações de Pearson - Complexo Vulcânico de Lisboa ............ 111

Anexo 8: Matriz de correlações de Pearson - Calcários de Entrecampos ..................... 112

Anexo 9: Matriz de correlações de Pearson - Areolas da Estefânia e Areias do Vale

de Chelas ....................................................................................................... 113

Anexo 10: Matriz de correlações de Pearson - Argilas do Forno do Tijolo e Argilas

e Calcários dos Prazeres ................................................................................ 114

Anexo 11: Scores das 5 primeiras componentes principais .......................................... 116

Resumo

Para o presente estudo utilizaram-se análises químicas de 48 amostras de água

subterrânea da cidade de Lisboa das quais se selecionaram 13 variáveis referentes a

espécies dissolvidas (aniões e catiões) e parâmetros físico-químicos.

Este estudo teve como objetivo avaliar a existência de relação entre a composição

química da água subterrânea e as formações geológicas por onde esta circulou, ou seja,

pretendeu-se identificar as espécies dissolvidas que caracterizavam cada formação

geológica, bem como, identificar o que distinguia cada uma das formações geológicas.

Deste modo, numa fase inicial procedeu-se a uma análise exploratória com o intuito de

caracterizar a amostra global e as amostras parciais (correspondentes a cada formação

geológica) e, numa fase final procedeu-se a uma análise multivariada, onde se

utilizaram técnicas de redução de dimensionalidade (análise em componentes principais

e análise fatorial) e técnicas de agrupamento de dados (análise de clusters).

Concluiu-se que as amostras provenientes da Formação de Benfica e do Complexo

Vulcânico de Lisboa tinham composição química idêntica. Relativamente às restantes

formações geológicas, não existia uma homogeneidade entre amostras provenientes da

mesma formação, nem entre amostras provenientes de formações distintas, pelo que, a

caracterização das formações geológicas tornou-se muito complexa.

Como os valores das correlações de Pearson, entre as variáveis, eram baixos, a

aplicação das técnicas de redução de dimensionalidade não surtiu o efeito desejado.

Palavras – chave: Água subterrânea, análise exploratória, análise em componentes

principais, análise fatorial, análise de clusters.

Abstract

For the present study we used chemical analyzes of 48 groundwater samples of Lisbon

in which was selected 13 variables related to dissolved species (anions and cations) and

physico-chemical parameters.

This study aims to evaluate whether there is a relationship between the chemical

composition of the groundwater and the geological formations where it circulated, this

is, it was intended to identify the dissolved species that characterize each geological

formation, as well as to identify what distinguishes each geological formations.

Thus, initially we proceeded with an exploratory analysis in order to characterize the

sample and partial samples (corresponding to each geological formation), and in a final

stage, we applied a multivariate analysis, where techniques were used to reduce the

dimensionality (principal component analysis and factor analysis) and techniques to

data clustering (cluster analysis).

It was concluded that the samples from the Formação de Benfica and Complexo

Vulcânico de Lisboa had identical chemical composition. For the other geological

formations, there was no homogeneity among samples from the same formation, or

between samples from different formations. Therefore, the characterization of the

geologic formations has become very complex.

Since the values of the Pearson correlations among the variables were low, the

application of reduce the dimensionality techniques do not have the desired effect.

Keywords: Groundwater, exploratory analysis, principal component analysis, factor

analysis, cluster analysis

Capítulo 1: Introdução

Este trabalho surge com o intuito de dar resposta a algumas questões relativas à

caracterização de águas subterrâneas da cidade de Lisboa, tendo como ponto de partida

um conjunto de 48 análises de águas subterrâneas recolhidas não especificamente para

este trabalho. Este conjunto resultou de recolhas para a concretização de unidades

curriculares do 1º ciclo de estudos em Geologia da FCUL (Caria et al, 2009, Manca et

al, 2008 e Sanches et a,l 2006) e 2º ciclo de estudos em Geologia Aplicada e do

Ambiente da FCUL (Oliveira, 2010) e em Engenharia do Ambiente do IST (Lopes,

2007). A localização geográfica de, cada amostra de água encontra-se na figura 1, onde

se pode observar a que formação geológica corresponde.

1.1. Objetivos do estudo

Para a realização deste trabalho foram definidos alguns objetivos, nomeadamente:

Calcular, analisar e interpretar as características amostrais;

Aferir sobre a qualidade das águas subterrâneas para consumo humano;

Analisar e interpretar as representações gráficas (análise exploratória);

Identificar as espécies dissolvidas que caracterizam cada formação geológica;

Relacionar a composição química da água subterrânea com a formação

geológica aflorante no local de recolha;

Descrever a variabilidade dos dados com um menor número de variáveis não

correlacionadas;

Explicar através de um menor número de fatores (não observados) as

correlações entre as variáveis;

Utilizar uma análise de clusters para reagrupar as amostras de água subterrânea

de acordo com a sua composição química;

Identificar características distintivas de cada uma das formações geológicas;

Identificar características comuns entre as formações geológicas.

Destaca-se como objetivo principal a caracterização de cada grupo de formações

geológicas, através da análise das concentrações das espécies químicas dissolvidas nas

águas subterrâneas, bem como de alguns parâmetros físico-químicos.

O trabalho será dividido em duas partes. A primeira parte será constituída pelos

capítulos 1 e 2 e corresponderá ao desenvolvimento teórico. A segunda parte será

constituída pelos capítulos 3 e 4 e corresponderá ao desenvolvimento prático.

No capítulo 1 será feito o enquadramento geológico, no qual se fará uma breve

introdução às características das formações geológicas.

No capítulo 2 será abordada a metodologia a desenvolver. Na primeira secção irão

definir-se alguns conceitos de álgebra matricial. Na segunda secção, com o intuito de se

efetuar uma análise exploratória dos dados, irão definir-se algumas características

amostrais. Na terceira e última secção será feita uma breve abordagem das técnicas de

análise multivariada a serem utilizadas, nomeadamente a análise em componentes

principais, a análise fatorial e a análise de clusters.

No capítulo 3 serão apresentados os resultados obtidos.

No capítulo 4 serão apresentadas as conclusões.

A análise estatística será efetuada com a utilização do software SPSS, versão 19.

Figura 1: Localização geográfica das amostras de água e respetivas formações geológicas

1.2. Enquadramento geológico

A composição química da água subterrânea da área de Lisboa está intimamente

relacionada com as características do meio geológico, das condições climáticas e

também das atividades humanas que decorrem na cidade.

O Concelho de Lisboa situa-se na Orla mesocenozóica, a qual é constituída por espessas

séries de sedimentos, onde predominam os sedimentos carbonatados, os arenitos e os

argilitos (Almeida et al., 2000).

Na área do concelho de Lisboa os terrenos mais antigos, cujos principais afloramentos

se encontram nas zonas de Monsanto, Ajuda e Vale de Alcântara, são

predominantemente constituídos por calcários, calcários margosos e margas. A geologia

de Lisboa, de elevada complexidade, pode ser descrita de um modo simplificado em três

setores: Setor SW, Monsanto-Ajuda-Alcântara; Setor NW, Formação de Benfica e

Miocénico; Setor E, Série Miocénica.

Setor SW: Monsanto-Ajuda-Alcântara

As formações calcárias do Cenomaniano, que se apresentam dobradas e fraturadas

(Cabral, 2006), estão sobrepostas por formações basálticas do Complexo Vulcânico de

Lisboa (β1). Neste setor, as formações cretácicas estendem-se desde a zona central e

mais elevada da Serra de Monsanto, seguindo pelo Vale de Alcântara até praticamente

ao Rio Tejo, prolongando-se para SW ao longo da encosta do Bairro da Ajuda,

aflorando no seio do Complexo Vulcânico de Lisboa (Pais et al., 2006).

Esta zona compreende formações do Cretácico superior, como a Formação de Caneças

(C2 cn), constituída por calcários margosos e dolomíticos, datados do Albiano superior a

Cenomaniano médio. Sobre a formação anterior, assenta a Formação de Bica (C2 Bi), do

Cenomaniano superior, representada por calcários compactos e apinhoados, com

nódulos de sílex e com rudistas. No topo do Cretácico superior aflora o Complexo

Vulcânico de Lisboa, constituído por rochas eruptivas básicas (Basaltos), sob a forma

de escoadas lávicas alternando com piroclastos e aglomerados vulcânicos, com idade

provável do Cenomaniano (Pais et al., 2006).

Setor NW: Formação de Benfica e Miocénico

É constituído por formações cenozóicas correspondentes à Formação de Benfica (Φ Bf)

e ao Miocénico. Este setor está na continuidade da estrutura de Monsanto e apresenta

uma sucessão de ondulações suaves.

Sobre o Complexo Vulcânico de Lisboa, assenta, em discordância, a Formação de

Benfica (Φ Bf), constituída por depósitos continentais, onde se intercalam níveis mais

argilosos, detríticos e carbonatados.

Setor Este: Série Miocénica

Compreende intercalações de formações detríticas e carbonatadas da Série Miocénica.

Apresenta-se, de um modo geral, em monoclinal, inclinando suavemente para E-SE.

O Neogénico abrange unidades miocénicas como as Camadas de Prazeres (Mpr), do

Aquitaniano a Burdigaliano inferior, constituídas por argilitos, argilitos siltosos e

margosos, margas e calcários.

Sobrepostas a estas, estão as Areolas de Av. da Estefânia (MEs), datada do Burdigaliano

e constituída por areias finas, siltosas, micáceas (areolas) argilas silto arenosas e

arenitos mais ou menos consolidados. De seguida, depositaram-se os Calcários de

Entrecampos (MEC), formação representada por biocalcarenitos com fração detrítica

abundante, por vezes argilosa, ricos de moldes e/ou fragmentos de moluscos e calcários

margosos, cinzento-esverdeado.

A formação anterior passa superiormente a areias muito finas argilosas, piritosas, e a

siltitos argilosos de cor cinzenta, com moluscos, peixes e abundantes microfósseis,

correspondente à unidade de Argilas de Forno do Tijolo (MFT).

A formação Areias do Vale de Chelas (Mvb) é constituída por areias feldspáticas,

fluviais, incoerentes ou fracamente cimentadas, às vezes grosseiras e compactas; em

posição superior ocorrem areias dunares.

As aluviões (a) do Concelho de Lisboa incluem os depósitos diretamente associados ao

leito principal do Rio Tejo e a todas as ribeiras e linhas de água que a este afluem, na

sua margem direita. As espessuras das aluviões do Tejo são muito variáveis de local

para local. Estas são predominantemente lodosas, com abundante matéria orgânica, ou

arenosas. As aluviões das ribeiras afluentes do Tejo têm composição em muitos casos

dependentes das litologias erodidas, contendo frequentemente, matéria orgânica

(Almeida, 1991).

Capítulo 2: Metodologia

Neste capítulo procede-se ao desenvolvimento teórico das metodologias aplicadas no

estudo a realizar.

2.1. Conceitos de álgebra matricial

Nesta secção relembram-se alguns conceitos cruciais de álgebra matricial que se

utilizam no desenvolvimento das técnicas de análise multivariada. Naturalmente

começa-se com o conceito de matriz (Monteiro, 2001, Searle, 1982 e Timm, 2002).

2.1.1. Conceito de matriz

Designa-se por matriz de ordem n m, a tabela A =

, com n linhas e

m colunas.

Pode denotar-se a matriz A por [ ] com i = 1,…, n e j = 1,…, m.

As entradas aij são os elementos de A, em que i indica a linha e j indica a coluna.

Quando uma matriz tem ordem n 1 ou ordem 1 n designa-se por vetor, ou seja, tem

n linhas e uma coluna ou tem 1 linha e n colunas, respetivamente. No primeiro caso

designa-se por vetor coluna e representa-se do seguinte modo: x =

. No segundo

caso designamos por vetor linha e representa-se do seguinte modo: xT = .

Uma matriz de ordem 1 1 designa-se por escalar.

2.1.2. Tipos de matrizes

No que se segue definem-se alguns tipos de matizes, nomeadamente matriz quadrada,

diagonal, identidade, transposta e simétrica.

Uma matriz quadrada é a matriz em que o número de linhas é igual ao número de

colunas e diz-se que tem ordem n n, ou simplesmente ordem n.

Caso contrário, se o número de linhas for diferente do número de colunas, diz-se que a

matriz é retangular de ordem n m.

Uma matriz quadrada de ordem n, em que

com i, j = 1, …, n, designa-se

por uma matriz diagonal, ou seja, a uma matriz da forma:

Em particular, se d11 = 1,…, dnn = 1, tem-se a matriz Identidade, que se denota por In, e

representa-se da forma:

Para qualquer matriz A quadrada de ordem n, verifica-se a seguinte propriedade:

AI = IA = A.

Seja A uma matriz de ordem n m. Designa-se por matriz transposta de A, e

representa-se por AT, à matriz que se obtém trocando as linhas com as colunas, ou seja,

as linhas de A são as colunas de AT e as colunas de A são as linhas de A

Assim sendo, tem-se que:

se A = de ordem n m, então AT = de ordem m n.

Seja A uma matriz quadrada de ordem n. Diz-se que A é simétrica se e só se A = AT.

2.1.3. Igualdade de matrizes

Duas matrizes são iguais se os elementos de uma coincidirem com os elementos da

outra, tendo ambas, naturalmente, a mesma ordem.

Sejam A e B duas matrizes com a mesma ordem (n m), tais que A = e B = .

Diz-se que as matrizes A e B são iguais se e só se = , para todo i = 1,…, n e

j = 1,…, m.

2.1.4. Operações com matrizes

Por vezes torna-se necessário efetuar algumas operações entre matrizes, como é o caso

da adição, da subtração ou do produto de duas ou mais matrizes, bem como a

multiplicação de um escalar por uma matriz.

Sejam A e B duas matrizes com a mesma ordem (n m), tais que A = e B = .

A sua soma (diferença), A + B (A – B) é igual a C, onde C = =

(C = = ), com i = 1, …, n e j = 1, …, m.

Seja A uma matriz de ordem n m, tal que A = e um escalar. A multiplicação

da matriz A por um escalar representa-se por A ou A e é igual a , com

i = 1, …, n e j = 1, …, m.

Sejam A e B duas matrizes de ordem n m e m p, respetivamente. O produto de A

por B origina C de ordem n p, tal que AB = C = , onde = .

2.1.5. Traço de uma matriz

Seja A uma matriz quadrada de ordem n n, tal que os elementos da diagonal são da

forma aii, com i = 1,…, n. Então o traço de A é igual à soma dos elementos da diagonal,

ou seja, tr(A) = .

2.1.6. Vetores linearmente dependentes e independentes

Os vetores dizem-se linearmente dependentes se for possível escrever o

vetor nulo como combinação linear de sem que os escalares sejam todos

nulos. Se o vetor nulo só se puder escrever como combinação linear de sendo

os escalares todos nulos, então os vetores são linearmente independentes.

2.1.7. Característica de uma matriz

Designa-se por característica de uma matriz A de ordem n n o número de linhas (ou

colunas) linearmente independentes. Representa-se a característica de A por r(A).

2.1.8. Determinante

O determinante de uma matriz quadrada de ordem n é dado

por onde K é o número de inversões1 da

permutação ( e p indica que a soma ocorre sobre todas as permutações de

(1, 2, …, n), ou seja, existem n! permutações. O determinante de uma matriz A pode

denotar-se por detA ou |A|.

Designa-se por menor complemento de um elemento de um determinante, ao

determinante que se obtém, suprimindo a linha e a coluna a que pertence esse elemento

(linha i e coluna j). Representa-se por .

O complemento algébrico de um elemento é igual ao menor complemento ou ao seu

simétrico e representa-se por .

Pode-se calcular o determinante de outra forma.

Teorema de Laplace: Seja A uma matriz quadrada de ordem n, o seu determinante é

igual à soma dos produtos dos elementos de uma linha (ou coluna) pelos respetivos

complementos algébricos. Assim sendo,

, onde é o complemento algébrico de .

1 Dada uma permutação dos inteiros 1, 2, …, n, existe uma inversão quando um inteiro precede outro

menor do que ele.

2.1.9. Matriz adjunta e matriz inversa

À matriz que se obtém calculando os respetivos complementos algébricos para cada

entrada e fazendo a sua transposta, designa-se por matriz adjunta. Representa-se

por adj A.

Uma matriz A quadrada de ordem n é invertível se existir uma matriz B quadrada de

ordem n tal que AB = BA = In. Designamos B por matriz inversa de A e representa-se

por A-1.

Notas:

1) Uma matriz é invertível se e só se o seu determinante for diferente de zero.

2) A matriz inversa é única.

3) Pode ser obtida por: A-1

2.1.10. Matriz ortogonal

Uma matriz A quadrada de ordem n, invertível, diz-se ortogonal se a inversa e a

transposta coincidirem, ou seja, A-1

2.1.11. Valores próprios e vetores próprios

Seja A uma matriz quadrada (n n), um escalar e x um vetor não nulo tal que

Ax = x. Diz-se que é o valor próprio de A e x é um vetor próprio associado.

Considere-se a equação |A I| = 0, cujas soluções são os valores próprios da matriz A.

O polinómio |A I| designa-se por polinómio característico.

Observações:

Uma vez que a matriz A tem ordem n, então o polinómio característico tem n

raízes e deste modo têm-se n valores próprios, sejam , . Após a

determinar os valores próprios determinam-se os vetores próprios, , , …,

, associados a cada valor próprio. Para esse efeito usa-se a igualdade

(A I)x=0.

O vetor próprio obtido associado a cada valor próprio não é único, deste modo se

x for vetor próprio então cx (c é um escalar não nulo) também é vetor próprio.

Notas:

1) A soma dos valores próprios é igual ao traço de A, ou seja, tr(A) = .

2) O produto dos valores próprios é igual ao determinante de A, ou seja,

det(A) = .

2.1.12. Decomposição espetral

Teorema da decomposição espetral: (Decomposição em valores próprios e vetores

próprios)

Seja A uma matriz simétrica e considere-se ainda os valores próprios de A e os vetores

próprios normalizados. Temos que AQ = Q com QTQ = I, onde é a matriz diagonal

dos valores próprios, =

e Q a matriz ortogonal dos vetores próprios. Se

QT = Q

-1, então A = Q Q

2.2. Características amostrais

Nesta secção definem-se algumas características amostrais a utilizar na análise

exploratória dos dados.

2.2.1. Características amostrais univariadas

Para se caracterizar um conjunto de dados, começa-se por calcular algumas

características amostrais, de localização e de dispersão. No que se segue, definem-se

algumas dessas características amostrais. Mais precisamente, a média, o desvio padrão,

os extremos, a mediana e os quartis (Murteira, 2007).

Dado um conjunto de observações (x1, …, xn), diz-se que

é a média

amostral e que =

é a variância amostral. O desvio padrão

amostral é dado pela raiz quadrada positiva da variância, ou seja, .

A média amostral é uma medida de localização, a variância e o desvio padrão amostrais

são medidas de dispersão. Estas permitem medir a variabilidade dos em torno da média

amostral.

Um conjunto de observações (x1, x2, …, xn) pode ser ordenado ordenado de modo

ascendente, tal que x1:n x2:n … xn:n, sendo x1:n o mínimo e xn:n o máximo.

Tendo um conjunto ordenado de observações, pode-se calcular a mediana do seguinte

Define-se quantil de ordem p por:

onde [np] designa a parte inteira de np.

Observações:

1) O quantil de ordem 0,5 designa-se por mediana.

2) Os quantis de ordem 0,25 e 0,75 designam-se por primeiro quartil e terceiro

quartil respetivamente.

3) Os quantis de ordem 0,1; … ; 0,9 designam-se por decis.

4) Os quantis de ordem 0,01; …; 0,99 designam-se por percentis.

Uma representação gráfica usual para representar os extremos, os quartis e a mediana é

o diagrama em caixa de bigodes.

2.2.2. Características amostrais bivariadas

Na secção anterior definiram-se algumas características amostrais (no caso univariado).

Nesta secção definem-se as características amostrais para o caso bivariado, ou seja,

características que permitem comparar as variáveis duas a duas, de forma a avaliar o

grau de associação entre as duas variáveis. Neste caso, calculam-se as covariâncias e

correlações amostrais.

Considere-se um par de observações (xi, yi), com i, j = 1, …, n. Pode-se proceder à sua

representação gráfica num referencial cartesiano. Esse gráfico designa-se por diagrama

de dispersão.

Esta representação gráfica permite avaliar o grau de associação entre duas variáveis.

Para quantificar essa associação podem usar-se duas medidas: a covariância amostral e /

ou coeficiente de correlação linear.

A covariância amostral é dada por cov(x,y) =

. Também

pode ser denotada por .

A covariância é uma estatística bivariada utilizada para quantificar a associação linear

entre duas variáveis. Porém, é influenciada pelas unidades de medida. Neste caso, teria

de se proceder à estandardização do conjunto de dados, ou por outro lado, calcular-se o

coeficiente de correlação amostral.

O coeficiente de correlação ou coeficiente de correlação de Pearson é dado por

, ou seja,

O coeficiente de correlação varia entre -1 e 1 e é usado para variáveis quantitativas.

Se as variáveis não forem quantitativas, usa-se o coeficiente de correlação de

Spearman.

Para calcular o coeficiente de correlação de Spearman procede-se de igual modo, mas

substituem-se as observações (qualitativas) pelas respetivas ordens.

2.3. Técnicas de Análise Multivariada

Nesta secção procede-se ao desenvolvimento teórico das técnicas de análise

multivariada a utilizar neste estudo, nomeadamente, a análise em componentes

principais (ACP), a análise fatorial (AF) e a análise de clusters (AC).

Com estas técnicas pretende-se resumir a informação contida nos dados, de forma a

tornar mais fácil a sua interpretação.

As duas primeiras técnicas (ACP e AF) relacionam-se diretamente com as variáveis,

designam-se por análise modo-R, ao passo que a última técnica (AC) relaciona-se com

os indivíduos, designa-se por análise modo-Q.

Mais claramente, a análise-modo R permite identificar as variáveis que mais contribuem

para a explicação da variabilidade dos dados, com a menor perda de informação. A

análise modo-Q é usada para agrupamento de indivíduos em classes/grupos

homogéneos, através de características comuns entre os indivíduos.

2.3.1. Análise em Componentes Principais

2.3.1.1. Introdução

A análise em componentes principais é uma técnica de análise multivariada introduzida

pelo estatístico Karl Pearson em 1901 e mais tarde desenvolvida por Hotelling em 1933

(Mardia et al, 1979).

A análise em componentes principais é um método de análise multivariada que consiste

em transformar um conjunto de variáveis originais correlacionadas num conjunto de

novas variáveis não correlacionadas: as componentes principais. As variáveis originais e

as componentes principais têm a mesma dimensão.

O principal objetivo da ACP é a redução da dimensionalidade, ou seja, a diminuição do

número de componentes, de forma a explicar a variabilidade dos dados. Esta redução

consegue-se uma vez que as variáveis originais estão correlacionadas, sendo algumas

delas redundantes, ao passo que as componentes principais são não correlacionadas,

podendo explicar a informação dada pelas variáveis originais com um menor número de

componentes. Caso as variáveis originais estejam fracamente correlacionadas, as

componentes principais vão coincidir com as variáveis originais.

Estas novas variáveis (as componentes principais) são uma combinação linear das

variáveis originais, com uma ordem decrescente de importância. A primeira

componente principal é a mais importante, uma vez que descreve a maior parte da

variabilidade dos dados.

Pretende-se que este número de componentes principais seja o menor possível, ou seja,

parte-se de p variáveis originais para k componentes principais, com k muito inferior a

p, de modo que a perda de informação seja a menor possível.

Assim sendo, se as variáveis originais estiverem muito correlacionadas, o número de

componentes principais que expliquem a variabilidade é reduzido. Caso as variáveis

originais estejam pouco correlacionadas essa redução é pouco significativa.

2.3.1.2. O modelo matemático

Considere-se o modelo matemático para as componentes principais

Yj = a1jX1 + a2jX2 + … + apjXp

ou, Y = AX, em que X1, …, Xp são as variáveis originais, Y1, …, Yp são as

componentes principais não correlacionadas e de variância decrescente e aij é o peso da

j-ésima variável com a i-ésima componente principal, representados na matriz A de

ordem p (Chatfield, 1980).

Para a determinação das componentes principais tem de se utilizar a matriz de

covariâncias amostral ou a matriz de correlações amostral. Quando as escalas de medida

das variáveis são diferentes usa-se a matriz de correlações amostral. Desta forma torna-

se possível a comparação.

De salientar que, pelo facto de não existir invariância de escala na ACP, as componentes

obtidas são diferentes quando se usa a matriz de covariâncias e quando se usa a matriz

de correlações. As componentes principais obtidas também são diferentes quando a

unidade de medida das variáveis originais é alterada (Gnanadesikan,1997).

Para determinar as componentes principais, começa-se por calcular os valores próprios

da matriz de correlações amostral, seguidamente determinam-se os vetores próprios

associados a cada valor próprio.

Desta forma, cada componente principal é um vetor próprio associado a cada um dos

valores próprios. Mais precisamente, a primeira componente principal corresponde ao

vetor próprio associado ao maior valor próprio. A segunda componente principal

corresponde ao vetor próprio associado ao segundo maior valor próprio e, assim por

diante, de modo que as componentes principais sejam ortogonais entre si.

Designam-se os valores próprios da matriz de correlações amostral por , e

tem-se que 0. Estes valores próprios representam a variância das

componentes principais, ou seja, var(Yj) = . A ordenação das componentes principais

é feita através da ordenação dos valores próprios, de modo que à i-ésima componente

principal corresponda o i-ésimo maior valor próprio.

No modelo matemático para as componentes principais

com j = 1, …, p, os aij são estimados de modo que a primeira componente contenha a

maior variância (maior valor próprio) e assim por diante. Esses pesos são dados pelos

vetores próprios associados a cada valor próprio. Tem-se que,

= 1 com i = 1, …, p e,

ai1aj1 + … + aipajp = 0 para todo o i diferente de j.

Os pesos das componentes principais (aij) representam a importância relativa das

variáveis originais em cada componente principal.

Os yj observados designam-se por scores das componentes principais.

A correlação entre as variáveis originais e as componentes principais designa-se por

loading. Estes fornecem a indicação de como as variáveis originais são importantes para

a formação das componentes principais. Assim sendo, loadings próximos de um

indicam que essa variável é importante na formação da componente principal, enquanto

loadings próximos de zero indicam que a variável não é importante na formação da

componente principal. Os loadings são significantes se forem maiores que 0,3 em valor

absoluto. O loading da j-ésima variável com a i-ésima componente principal é dado por

, em que aij é o peso da j-ésima variável com a i-ésima componente

principal, é o valor próprio da i-ésima componente principal e sj é o desvio padrão da

j-ésima variável.

A comunalidade da j-ésima variável é dada por

, que se refere à proporção

de variância das variáveis que são explicadas pelas componentes principais.

Neste processo, a variância é preservada, uma vez que a soma das variâncias das

variáveis originais é igual à soma das variâncias das componentes principais.

2.3.1.3. Número de componentes a reter

Ao usar esta técnica de análise multivariada tem de se decidir o número de componentes

a reter, ou seja, quantas componentes são necessárias para explicar a variabilidade dos

dados. Desta forma, existem algumas regras para decidir o número de componentes

principais a reter, de modo que estas expliquem a variabilidade dos dados e que a perda

de informação seja a menor possível.

Um primeiro critério é reter o número de componentes principais que expliquem pelo

menos 80% da variabilidade total. Sendo a variância da j-ésima componente principal

e a variância total, tem-se que

é a proporção explicada pela j-

ésima componente principal e

é a proporção explicada pelas k primeiras

componentes principais. Este valor deve ser superior a 80%.

O segundo critério (critério de Kaiser, proposto em 1960) consiste em excluir as

componentes principais cujos valores próprios sejam inferiores à sua média aritmética

(quando usada a matriz de correlações, a média dos valores próprios é um).

O terceiro critério consiste em utilizar uma representação gráfica do número de

componentes principais versus os valores próprios. Este gráfico designa-se por scree

plot, proposto por Cattell em 1966. O gráfico tem a forma de um “cotovelo”. Deve-se

reter o número de componentes principais até o gráfico se tornar praticamente paralelo

ao eixo Ox, uma vez que esses valores próprios são muito reduzidos e praticamente

iguais, pouco ou nada contribuem para a explicação da variabilidade dos dados

(Rencher, 1995).

2.3.2. Análise Fatorial

A Análise Fatorial começou a ser desenvolvida pelo psicólogo Charles Spearman em

1904, para testar os fatores de inteligência e habilidade nos jovens, quando realizados

testes a diferentes áreas do conhecimento (ciências e humanidades). Mais tarde foi

também desenvolvida por Thurstone em 1931 (Harman, 1976).

A Análise Fatorial é uma técnica de análise multivariada que consiste em escrever p

variáveis y1, y2, … , yp como combinação linear de novas variáveis f1, f2, … , fm, com m

menor que p. Estas novas variáveis designam-se por fatores latentes, sendo não

observadas. As variáveis y1, y2, … , yp são moderadamente correlacionadas (Rencher,

1995).

O objetivo da análise fatorial é reduzir o número de fatores latentes, de forma a explicar

a maior correlação existente no conjunto de dados. Pretende-se exprimir o que de

comum existe nas variáveis iniciais, de modo a perder-se a menor informação possível.

2.3.2.2. O modelo matemático

Considere-se o modelo matemático para a análise fatorial:

Ou, alternativamente, usando notação matricial, Y = , onde

y = [y1, y2, … , yp]T

é o vetor das variáveis, f = [f1, f2, … , fm]T

é o vetor dos fatores

comuns , T é o vetor dos fatores específicos e

a matriz dos pesos fatoriais, que não é única.

Assim sendo, cada variável é decomposta em duas: a parte comum e a parte específica.

Os coeficientes são designados por loadings ou pesos, que permitem mostrar de que

modo a variável yi depende do fator fj. Estes loadings representam a covariância entre

as variáveis e os fatores, ou seja, cov(yi, fj) = com i = 1, … , p e j = 1, … , m desde

que cov(y, f) = .

Tem-se que E(fj) = 0, var(fj) = 1, cov(fi, fj) = 0, i j.

O é a parte residual de Yi, tendo-se E( ) = 0, var( = , que é a variância

específica, cov( ) = 0, i j e cov( fj) = 0 para todo i e j.

Tem-se ainda que var(Yi) = +

+ … + + =

, em que é a

comunalidade, que se refere à variância comum e é a variância específica ou única,

que se refere à variância residual (Rencher, 1995).

Se a matriz de correlações tiver valores elevados significa que as variáveis têm bastante

em comum, formando grupos homogéneos. Se os valores das correlações forem

reduzidos, significa que as variáveis têm pouco ou nada em comum, formando grupos

heterogéneos.

2.3.2.3. Número de fatores a reter

Na análise em componentes principais tinha de se selecionar um número de

componentes mais reduzido, ou seja, era necessário analisar o número de componentes a

reter de modo que estas explicassem a variabilidade dos dados, mas também que o seu

número fosse bastante reduzido. Teria de se encontrar uma relação parcimoniosa, no

sentido de não se usar um número excessivo de componentes, mas também de não se

perder informação preciosa. Na análise fatorial pretende-se fazer algo semelhante,

decidir o número de fatores a reter de modo a explicar pelo menos 80% da variabilidade

total. Escolher um número de fatores igual ao número de valores próprios maiores que a

média dos valores próprios. Se for utilizada a matriz de correlações (R), a média é 1, se

for utilizada a matriz de covariâncias (S), a média é

, em que é o valor próprio

da matriz S. À semelhança da análise em componentes principais, pode-se usar o teste

do scree plot dos valores próprios de S ou R versus o número de fatores. O gráfico

obtido apresenta inicialmente uma acentuada inclinação e no final uma reduzida

inclinação, pelo que os valores próprios serão praticamente iguais e reduzidos. Deve-se

então reter o número de fatores (m) a partir dos quais o gráfico fica uma reta paralela ao

eixo das abcissas, tendo este gráfico a forma de um “cotovelo” (Rencher, 1995).

2.3.2.4. Rotação dos fatores

Para uma melhor interpretação dos fatores obtidos inicialmente, recorre-se à rotação dos

eixos. Existem várias técnicas de rotação.

Este método de rotação consiste na transformação da solução inicial através da

multiplicação de uma matriz de rotação ortogonal pela matriz dos loadings, de modo

que a solução seja interpretada de uma forma mais eficiente. Com esta rotação pretende-

se aumentar os valores absolutos dos grandes loadings e reduzir os valores absolutos

dos pequenos loadings, distinguindo assim loadings significantes de loadings

insignificantes.

As rotações podem ser ortogonais ou oblíquas. As mais utlizadas são as ortogonais,

destacando-se, a rotação varimax, a rotação quartimax e a rotação equimax.

Com o método varimax pretende-se maximizar a variância dos loadings de cada coluna

da matriz , de forma a existirem alguns loadings significativos e todos os

outros próximos de zero. Pretende-se maximizar V, com a restrição das comunalidades

permanecerem inalteradas.

Para um dado fator j, tem-se

, onde é a variância da comunalidade das

variáveis no fator j, é o quadrado do loading da i-ésima variável no j-ésimo fator,

é a média do quadrado dos loadings para o fator j, p é o número de

variáveis e k é o número de fatores.

A variância total V de todos os fatores é dada por:

Este método, desenvolvido por Kaiser em 1958, tornou-se muito popular.

Com o método quartimax pretende-se simplificar as linhas da matriz de loadings, ou

seja, tornar os loadings de cada variável elevados para um pequeno número de fatores e

próximos de zero para os restantes. Pretende-se maximizar Q, com a restrição das

comunalidades não se alterarem.

Para uma dada variável i, tem-se

, onde é a variância da comunalidade na

variável i e

é a média do quadrado dos loadings na variável i.

A variância total Q de todas as variáveis é dada por:

Com o método equamax pretende-se fazer uma mistura dos dois anteriores métodos

(Afifi, 1996, Harman, 1976, Rencher, 1995, Sharma, 1996 e Timm, 2002).

2.3.2.5. Método de extração dos fatores

Os métodos de extração dos fatores disponíveis no SPSS são: método das componentes

principais (principal components), método da máxima verosimilhança (maximum

likelihood), método dos mínimos quadrados (unweighted least squares and generalized

least squares), principal axis factoring, alpha factoring e image factoring.

Com estes métodos procede-se à extração dos fatores e consequentemente à estimação

dos loadings e das comunalidades.

O método das componentes principais é bastante usual. O SPSS utiliza-o por defeito.

2.3.2.6. Validação do modelo de análise fatorial

Para avaliar a qualidade da análise efetuada realizam-se alguns testes. A análise fatorial

é usada para descrever as correlações entre as variáveis. Deste modo, torna-se

necessário que a matriz de correlações seja significativamente diferente da matriz

identidade, efetuando-se o teste de esfericidade de Bartlett. Este teste usa-se para

testar H0: R = I versus H1: R I, em que R é a matriz de correlações amostral e I a

matriz identidade.

A estatística de teste é – (n – 1 –

com distribuição qui-

quadrado com

p (p - 1) graus de liberdade (Rencher, 1995).

Para avaliar se a análise fatorial é adequada aos dados usa-se a “medida de adequação

de amostragem de Kaiser-Meyer-Olkin (KMO)” ou measure of sampling adequacy

(MSA), proposta por Kaiser em 1970. Define-se por:

KMO / MSA =

onde R = e Q = = DR-1

D, com D =

O KMO toma valores entre 0 e 1. Recomendam-se valores superiores a 0.8. Na tabela 1

encontra-se a escala de avaliação da análise fatorial efetuada (Maroco, 2007, Reis, 2001

e Timm, 2002).

KMO / MSA AF

0.9 – 1 Muito boa

0.8 – 0.9 Boa

0.7 – 0.8 Média

0.6 – 0.7 Medíocre

0.5 -0.6 Má

< 0.5 Inaceitável

Tabela 1: Escala de avaliação da análise fatorial

2.3.2.7. Análise em Componentes Principais versus Análise Fatorial

Na análise fatorial escrevem-se as variáveis como combinação linear dos fatores,

enquanto na análise em componentes principais escrevem-se as componentes principais

como combinação linear das variáveis, são procedimentos inversos. A análise em

componentes principais permite explicar a maior parte da variabilidade total das

variáveis, enquanto na análise fatorial pretende-se explicar as correlações entre as

variáveis. No caso da ACP as componentes principais obtidas são únicas, no caso da AF

os fatores dependem da rotação efetuada. No caso da ACP a solução obtida pode ser

diferente se usada uma escala de medição diferente, enquanto na AF, há invariância de

escala, ou seja, as soluções são invariantes com a mudança da escala de medição.

Quando se aumenta o número de componentes retidas, as primeiras componentes

principais mantêm-se inalteradas, enquanto na análise fatorial, os fatores podem tornar-

se bastante diferentes quando o número de fatores retidos é modificado. (Everitt, 2011 e

Maroco, 2007).

2.3.3. Análise de Clusters

A análise de clusters é uma técnica de análise multivariada que tem como principal

objetivo o agrupamento de elementos. Este agrupamento é efetuado de forma que

elementos pertencentes ao mesmo grupo tenham características semelhantes e

elementos de diferentes grupos tenham características dissemelhantes. Genericamente,

parte-se de um conjunto com n observações e pretende-se formar k grupos com um

menor número de observações.

Para a construção desses grupos usam-se métodos hierárquicos ou métodos não

hierárquicos. Entre os métodos hierárquicos, estes podem ser aglomerativos ou

divisivos.

Considere-se um conjunto de n observações e p variáveis dispostos na seguinte matriz

de ordem n p,

O elemento representa o valor do objeto (indivíduo) i na variável j.

Seguidamente constrói-se a matriz D de ordem n, dada por

que dkl representa a distância entre os objetos k e l, com k, l = 1, …, n. Esta matriz

designa-se por matriz de proximidade.

Deste modo, o passo que se segue é escolher a medida de proximidade entre os

indivíduos (Everitt et al, 2001, Maroco, 2007 e Reis, 1997).

2.3.3.2. Medidas de proximidade

Para a construção da matriz de proximidade D, definida anteriormente, é necessário

selecionar uma medida de proximidade, podendo ser uma medida de distância, de

dissemelhança ou de semelhança.

Segundo Everitt (2001), dois indivíduos estão próximos se a dissemelhança ou a

distância entre eles é pequena ou, se a semelhança entre eles é grande.

Uma medida de semelhança caracteriza-se pelas seguintes propriedades:

1) 0 1

2) = 1

onde denota a medida de semelhança entre os indivíduos i e j.

Nos dados categóricos é habitual usar-se uma medida de semelhança.

Uma medida de dissemelhança caracteriza-se pelas seguintes propriedades:

2) = 0

onde denota a medida de dissemelhança entre os indivíduos i e j.

Uma medida de distância caracteriza-se pelas seguintes propriedades:

2) = 0

4) (desigualdade triangular)

onde denota a medida de distância entre os indivíduos i e j.

Apresentam-se em seguida algumas medidas de distância (Everitt et al, 2001 Maroco,

2007, Reis, 1997 e Timm, 2002).

1) Distância Euclidiana

2) Quadrado da Distância Euclidiana

3) Distância de Manhattan ou distância absoluta ou City-Block Metric

4) Distância de Minkowski

é uma generalização da distância Euclidiana e coincidem quando r = 2.

5) Distância de Mahalanobis

onde S denota a matriz de covariâncias amostral.

A medida de distância mais usada é a euclidiana.

Em seguida, definem-se algumas medidas de dissemelhança.

1) Correlação de Pearson:

2) Separação Angular

2.3.3.3. Métodos de agregação

Um dos objetivos da análise de clusters é reduzir a distância dentro dos grupos e

aumentar a distância entre os grupos.

Após selecionada a medida de proximidade e construída a respetiva matriz de

proximidade, pretende-se saber quantos clusters se obtém. Assim sendo, para a

determinação desses k grupos usam-se métodos hierárquicos ou métodos não

hierárquicos. Quanto aos métodos hierárquicos, estes podem ser aglomerativos ou

divisivos. Um processo diz-se aglomerativo se no final do processo se obtém um único

cluster com todos os elementos e diz-se divisivo se no fim do processo existirem n

clusters com um único elemento cada.

Em qualquer dos métodos tem-se como objetivo a escolha da solução ótima, ou seja,

número ótimo de clusters. Essa decisão fica a cargo do investigador.

As etapas resultantes deste processo hierárquico (aglomerativo ou divisivo) podem ser

representadas através de um gráfico – o dendograma (Everitt, 2001).

Os métodos aglomerativos são os mais utilizados.

2.3.3.4. Critérios de agregação

Após definidas as medidas de proximidade entre dois elementos, é necessário definir

medidas de proximidade entre os clusters, ou seja, definir critérios de agregação entre os

grupos (Everitt et al, 2001 Maroco, 2007, Reis, 1997 e Timm, 2002).

1) Complete Linkage ou método do vizinho mais afastado

A distância entre dois grupos é medida como sendo a distância máxima entre um par de

objetos, entre todos os clusters. Utilizando este critério os clusters obtidos são mais

compactos.

2) Single Linkage ou método do vizinho mais próximo

A distância entre dois grupos é medida como sendo a distância mínima entre um par de

objetos, entre todos os clusters. Utilizando este critério os clusters obtidos são

desequilibrados e desalinhados, em particular quando o número de dados é elevado.

3) Average Linkage

A distância entre dois grupos é medida como sendo a média da distância entre todos os

pares de objetos dos dois grupos. Utilizando este critério os clusters obtidos têm

pequenas variâncias.

Este é um critério intermédio entre o Complete Linkage e o Single Linkage, sendo

relativamente robusto.

4) Critério do Centróide

A distância entre dois grupos é medida como sendo a distância entre os seus centróides.

Cada centróide corresponde à média ponderada dos elementos dos dois grupos.

5) Critério de Ward

Neste método não são calculadas distâncias, formam-se os clusters de modo a

minimizar a soma dos quadrados dos erros.

No que se segue, apresentam-se as etapas do método hierárquico aglomerativo.

Agrupamento hierárquico (método aglomerativo):

Dada a matriz de proximidades D = [dij] de ordem n n, seguem-se os passos seguintes

(Timm, 2002):

1. Começa-se com n clusters, cada um deles com um elemento.

2. Usando a matriz D, escolhemos os elementos mais semelhantes, digamos i e j.

3. Juntam-se esses dois elementos, i e j, formando um novo cluster (ij).

Recalculam-se as distâncias entre o novo cluster (ij) e os elementos já existentes,

usando o critério de agregação selecionado. Obtém-se uma nova matriz de

proximidade de ordem (n – 1) (n – 1).

4. Repetem-se os passos 2 e 3, (n – 1) vezes.

Nota: O agrupamento não hierárquico não será considerado neste trabalho.

Capítulo 3: Análise de dados hidrogeológicos

O estudo baseia-se num conjunto de 48 amostras de água subterrânea recolhidas em

furos, minas, nascentes e poços da cidade de Lisboa, conforme se pode visualizar na

figura 2. Utilizam-se as análises químicas dessas 48 amostras de água e selecionam-se

13 variáveis referentes a parâmetros físico-químicos e espécies dissolvidas (aniões e

catiões). Mais precisamente:

Os parâmetros físico-químicos: o pH, a condutividade elétrica (C.E.) e o

potencial redox (Eh);

As espécies dissolvidas: o bicarbonato ( ), o cálcio (Ca

2+), o sódio (Na

potássio (K+)

, o magnésio (Mg2+

), o fluoreto ( ), o cloreto ( ), o brometo

( ), o nitrato ( ) e o sulfato (

As amostras de águas subterrâneas agora utilizadas não foram recolhidas

especificamente para este trabalho, resultaram de recolhas para a concretização de

unidades curriculares do 1º ciclo de estudos em Geologia da FCUL (Caria et al, 2009,

Manca et al, 2008 e Sanches et al, 2006) e 2º ciclo de estudos em Geologia Aplicada e

do Ambiente da FCUL (Oliveira, 2010) e em Engenharia do Ambiente do IST (Lopes,

2007).

Figura 2: Localização geográfica das amostras de água

Como já foi referido anteriormente, a geologia de Lisboa é de grande complexidade,

pelo que, para facilitar a análise estatística das amostras de água, as formações

geológicas foram agrupadas, tendo em conta as suas semelhanças litológicas, da

seguinte forma: Aluviões (1); Formação de Benfica (2); Complexo Vulcânico de Lisboa

(CVL) (3); Calcários de Entrecampos (4); Areolas da Estefânia e Areias do Vale de

Chelas (5) e Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres (6).

Na figura 3 encontram-se as localizações das amostras recolhidas e a respetiva formação

geológica aflorante.

Figura 3: Localização geográfica das amostras de água e respetivas formações geológicas

A partir da figura 3 pode construir-se a tabela 2 em que se indica a proveniência de cada

amostra.

Grupos de formações geológicas Amostras recolhidas

(1) Aluviões Lis10/ Lis11/ Lis12/ Lis13/ Lis16 / Lis37

(2) Formação de Benfica Lis23/ Lis24/ Lis25/ Lis26/ Lis28/ Lis31/

Lis33/ Lis34/ Lis35/ Lis36/ Lis46

(3) CVL Lis27/ Lis29/ Lis30/ Lis32/ Lis44/ Lis47/ Lis48

(4) Calcários de Entrecampos Lis1/ Lis2/ Lis5/ Lis14/ Lis17/ Lis19

(5) Areolas da Estefânia e Areias

do Vale de Chelas

Lis3/ Lis4/ Lis6/ Lis15/ Lis18/ Lis20/ Lis21/

Lis38/ Lis39/ Lis40/ Lis41/ Lis45

(6) Argilas do Forno do Tijolo e

Argilas e Calcários dos Prazeres

Lis7/ Lis8/ Lis9/ Lis22/ Lis42/ Lis43

Tabela 2: Proveniência das amostras

3.1. Análise Exploratória dos Dados

3.1.1. Características amostrais

Na tabela 3 encontram-se algumas características amostrais obtidas para as 48 amostras

de água provenientes de 6 grupos de formações geológicas distintas:

Variáveis Média Desvio

Padrão Mediana 1º Quartil 3º Quartil Mínimo Máximo

pH 7,53 0,80 7,460 6,985 8,030 6,13 10,45

C.E. 1161,96 364,27 1174,500 953,500 1411,500 395,00 2220,00

Eh 30,43 151,13 34,250 -102,100 187,000 -258,10 248,00

359,3 111,55 374,000 291,120 426,500 43,00 575,00

123,17 49,39 114,500 82,000 152,500 40,00 245,60

Na+ 99,31 52,83 89,450 67,650 132,000 9,70 275,40

K+ 16,40 23,21 8,550 3,035 17,200 0,00 109,00

32,39 20,45 28,650 17,650 42,300 0,00 91,40

0,26 0,22 0,185 0,132 0,335 0,00 1,01

93,48 43,72 88,100 58,950 118,900 18,50 195,00

0,44 0,83 0,180 0,000 0,385 0,00 3,40

43,35 48,13 30,800 5,785 52,250 0,00 206,00

138,20 111,88 113,700 71,800 160,750 6,10 653,00

Tabela 3: Características amostrais das variáveis (amostra global)

Da análise da tabela 3, podem-se observar algumas características amostrais para as 13

variáveis em estudo. O pH das amostras recolhidas varia entre 6.13 e 10.45, as amostras

de água Lis4, Lis13, Lis5, Lis6 e Lis9 têm valores de pH 6.13, 6.20, 6.25, 6.26 e 10.45,

respetivamente, que estão fora dos valores paramétricos, de acordo com o Decreto – Lei

306-2007 da qualidade da água para consumo humano (o pH deve estar compreendido

entre 6.5 e 9, inclusive). A condutividade elétrica varia entre 395 e 2220 S/cm e a sua

mediana (1174.5 S/cm) é superior à média (1161.96 S/cm). O Eh varia entre -258.1 e

248 mV e tem mediana (34.25 mV) superior à média (30.43 mV). Como existem

valores Eh positivos e negativos a variabilidade em torno da média é muito grande,

sendo o desvio padrão elevado (151.13 mV) e a média relativamente baixa (30.43 mV).

As concentrações do ião bicarbonato variam entre 43 e 575 mg/L, apresentando uma

mediana (374 mg/L) superior à média (359.3 mg/L). As concentrações do ião cálcio

variam entre 40 e 245,6 mg/L, existindo um grande número de amostras de água com

concentrações deste ião superiores ao valor paramétrico (100 mg/L), mais precisamente

29 amostras de água. As concentrações do ião sódio variam entre 9.7 e 275.4 mg/L e

apresentam uma grande variabilidade em torno da média, sendo o desvio padrão 52.83

mg/L. As amostras Lis21 e Lis31 apresentam concentrações, deste ião, de 275.4 e 217

mg/L, respetivamente, acima do valor paramétrico (200 mg/L). As concentrações do ião

potássio variam entre 0 e 109 mg/L. O desvio padrão é elevado (23.21 mg/L), em

comparação com a média (16.4 mg/L). Das 48 amostras, 19 apresentam concentrações

do ião potássio acima do valor paramétrico (12 mg/L) e 20 amostras têm concentrações

inferiores a 6 mg/L. Deste modo, a variabilidade em torno da média é muito grande. As

concentrações do ião magnésio variam entre 0 e 91.4 mg/L. Nas amostras Lis22, Lis16,

Lis20, Lis48, Lis47, Lis43 e Lis30 as concentrações deste ião são 91.4, 73.5, 69.5, 65.1,

65, 60.3 e 57.5 mg/L, respetivamente. Todas essas concentrações são superiores ao

valor paramétrico (50 mg/L). As concentrações do ião fluoreto variam entre 0 e 1.01

mg/L. A variabilidade em torno da média é muito elevada, sendo a média de 0.26 mg/L

e o desvio padrão de 0.22 mg/L. As concentrações do ião cloreto variam entre 18.5 e

195 mg/L. As concentrações do ião brometo variam entre 0 e 3.4 mg/L. Das 48

amostras, 40 apresentam concentrações deste ião inferior a 0.5 mg/L e em 17 dessas 40

amostras não se deteta a presença deste ião (0 mg/L). Desta forma, a variabilidade em

torno da média é muito grande, sendo o desvio padrão de 0.83 mg/L e a média de

0.44mg/L. As concentrações do ião nitrato variam entre 0 e 206 mg/L. Das 48 amostras,

12 apresentam uma concentração superior ao valor paramétrico (50 mg/L). A

variabilidade em relação à média é elevada, sendo a média e o desvio padrão 43.35 e

48.13 mg/L, respetivamente. As concentrações do ião sulfato variam entre 6.1 e 653

mg/L. Nas amostras Lis21, Lis9, Lis42 e Lis37 as concentrações deste ião são 653,

459.2, 329 e 271 mg/L, respetivamente, todas superiores ao valor paramétrico (250

mg/L). O desvio padrão muito grande (111.88 mg/L) é indicador de uma grande

variabilidade em torno da média.

Sobre a qualidade da água para consumo humano pode-se aferir que, das 48 amostras de

água, apenas 8 (Lis7, Lis12, Lis27, Lis29, Lis30, Lis33, Lis36 e Lis44) são

consideradas apropriadas para o consumo humano, embora fosse necessário averiguar

se, do ponto de vista bacteriológico, estariam de acordo com as recomendações da

legislação que regula a qualidade das águas para o consumo humano.

Tal como sugere a tabela 2, a amostra global das 48 amostras de água pode ser

subdividida em 6 amostrais parciais, correspondendo a cada grupo de formações

geológicas. Desta forma, na tabela 4 encontram-se as características amostrais (média e

desvio padrão) das 48 amostras de água separadas pelos grupos de formações

geológicas a que pertencem.

Por observação da tabela 4, pode afirmar-se que o pH médio nas Aluviões e nas Areolas

da Estefânia e Areias do Vale de Chelas é praticamente igual, 7.39 e 7.38,

respetivamente. A variabilidade em torno da média é inferior nas Areolas da Estefânia e

Areias do Vale de Chelas. A maior média e o maior desvio padrão surgem no grupo de

formações geológicas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres,

tomando os valores de 7.87 e de 1.49, respetivamente. Os Calcários de Entrecampos

apresentam o menor pH médio de valor 7.2. O menor desvio padrão surge na Formação

de Benfica, cujo valor é 0.32. Embora a média seja relativamente alta, cujo valor é 7.71.

Quanto à condutividade elétrica, na Formação de Benfica e no CVL as médias são

inferiores a 950 S/cm, enquanto nas restantes formações geológicas as médias

ultrapassam os 1200 S/cm. A menor variabilidade em torno da média verifica-se no

CVL, onde o desvio padrão é 131.79 S/cm e a maior variabilidade em torno da média

ocorre nas Aluviões, onde o desvio padrão é 466.19 S/cm.

Quanto ao Eh, a sua média é positiva na Formação de Benfica e no CVL, sendo 192.34

e 143.71 mV, respetivamente; a média é negativa nas restantes formações.

Relativamente à variabilidade em torno da média é menor na Formação de Benfica e

nos Calcários de Entrecampos, cujo desvio padrão é 42.34 mV e 41.59 mV,

respetivamente.

Quanto ao ião bicarbonato, verifica-se a maior variabilidade em torno da média nas

Argilas e a menor no CVL, sendo o desvio padrão de 189.99 e 48.72 mg/L,

respetivamente. A maior concentração média encontra-se nos Calcários de Entrecampos

(415.17 mg/L) e a menor na Formação de Benfica (278.61 mg/L).

Quanto ao ião de cálcio, observa-se que a maior concentração média é nas Aluviões

(172.97 mg/L), enquanto as menores concentrações médias são na Formação de Benfica

e no CVL, cujos valores são 88.15 e 80.86 mg/L, respetivamente. Também estas duas

últimas apresentam a menor variabilidade em torno da média, uma vez que os seus

desvios padrão são os menores, 15.88 mg/L no CVL e 29.21 mg/L na Formação de

Benfica.

Quanto ao ião sódio, a menor concentração média é no CVL (58.69 mg/L) e a maior é

na Areolas da Estefânia e Areias do Vale de Chelas (123.58 mg/L). A menor

variabilidade em torno da média surge nos Calcários de Entrecampos, onde o desvio

padrão é 21.72 mg/L.

Quanto ao ião potássio, as suas concentrações médias tomam valores bastante

diferentes, nomeadamente, as Aluviões e o CVL têm médias mais reduzidas (5.7 e 3.7

mg/L, respetivamente), enquanto os Calcários de Entrecampos e as Areolas da Estefânia

e Areias do Vale de Chelas têm médias muito elevadas (27.35 e 33.54 mg/L,

respetivamente). Para este ião, em todas as formações geológicas verifica-se uma

grande variabilidade em torno da média, visível através do seu desvio padrão elevado,

destacando as Areolas da Estefânia e Areias do Vale de Chelas com o maior desvio

padrão (34.13 mg/L).

Quanto ao ião magnésio, nas Aluviões a média não é muito elevada (28.63 mg/L), mas

a variabilidade em torno da média é muito elevada, uma vez que o seu desvio padrão é

23.61 mg/L. No CVL a concentração média é a mais elevada (53.63 mg/L), mas a

variabilidade em torno da média é a menor, uma vez que o desvio padrão é 10.04 mg/L.

A menor média (21.20 mg/L) é nos Calcários de Entrecampos e a maior variabilidade

em torno da média é nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres,

cujo desvio padrão é 29.20 mg/L.

Quanto ao ião fluoreto, a menor concentração média (0.11 mg/L) surge no CVL,

enquanto a maior concentração média (0.39 mg/L) surge nas Argilas. O mesmo se pode

afirmar quanto à variabilidade em torno da média, pois o desvio padrão no CVL é 0.08

mg/L e nas Argilas é 0.33 mg/L. Os Calcários de Entrecampos e as Areolas da Estefânia

e Areias do Vale de Chelas apresentam a mesma concentração média (0.31 mg/L), mas

a variabilidade em torno da média é muito inferior nos Calcários de Entrecampos, uma

vez que o desvio padrão é consideravelmente inferior, sendo 0.13 mg/L nos Calcários

de Entrecampos e 0.30 mg/L nas Areolas da Estefânia e Areias do Vale de Chelas.

Quanto ao ião cloreto, o CVL aparece como a formação geológica com a menor

concentração média deste ião (61.16 mg/L). As Aluviões, as Areolas da Estefânia e

Areias do Vale de Chelas e as Argilas aparecem com as maiores concentrações médias

deste ião, em torno dos 100 mg/L, destacando as Aluviões cuja concentração média é a

mais elevada (105.13 mg/L). A maior variabilidade em torno da média ocorre nas

Aluviões e nas Argilas, onde os desvios padrão são 61.65 e 70.93 mg/L, respetivamente,

em oposição à menor variabilidade que ocorre nos Calcários de Entrecampos, cujo

desvio padrão é 18.12 mg/L.

Quanto ao ião brometo, a variabilidade em torno da média é bastante elevada, em

particular nas Aluviões, nas Areolas da Estefânia e Areias do Vale de Chelas e nas

Argilas, onde os desvios padrão tomam os valores de 1.23, de 1.06 e de 1.23 mg/L,

respetivamente. As concentrações médias, deste ião, também são elevadas nestas

formações geológicas, nas Aluviões é 0.85 mg/L, nas Areolas é 0.66 mg/L e nas Argilas

é 0.82 mg/L. Nos Calcários de Entrecampos a concentração média é bem menor (0.14

mg/L), mas a variabilidade em torno da média é muito elevada (0.17 mg/L). O CVL

aparece como a formação geológica que tem a menor concentração média deste ião,

cujo valor é 0.05 mg/L.

Quanto ao ião nitrato, as Argilas apresentam a menor concentração média (5.67 mg/L),

por sua vez a variabilidade em torno da média é muito elevada (7.9 mg/L). A maior

concentração média (79.72 mg/L) deste composto ocorre na Formação de Benfica. As

Aluviões e as Areolas da Estefânia e Areias do Vale de Chelas apresentam

concentrações médias próximas dos 50 mg/L e desvios padrão elevados.

Quanto ao ião sulfato, a maior concentração média (223.7 mg/L) deste composto ocorre

nas Argilas e a menor concentração média (71.73 mg/L) no CVL. A formação de

Benfica e o CVL apresentam valores médios e desvios padrão semelhantes e baixos.

Tabela 4: Características amostrais (média e desvio padrão) das variáveis em cada grupo de formações geológica

Formações geológicas

1 2 3 4 5 6

Média

Desvio

Padrão Média

Desvio

Padrão Média

Desvio

Padrão Média

Desvio

Padrão Média

Desvio

Padrão Média

Desvio

Padrão

pH 7,39 0,95 7,71 0,32 7,59 0,34 7,20 0,80 7,38 0,83 7,87 1,49

C.E. 1266,33 466,19 934,45 298,32 844,71 131,79 1226,33 194,72 1333,92 343,64 1436,50 314,94

Eh -76,15 109,83 192,34 42,35 143,71 108,16 -113,18 41,59 -27,44 133,30 -32,62 131,83

360,33 95,85 278,61 108,39 382,12 48,72 415,17 137,02 378,25 52,49 385,83 189,99

172,97 60,00 88,15 29,21 80,86 15,88 124,00 38,40 141,28 42,07 149,87 46,15

Na+ 78,88 36,76 94,32 53,33 58,69 24,38 108,15 21,72 123,58 62,02 118,87 68,66

K+ 5,70 4,70 10,08 7,12 3,70 5,60 27,35 29,56 33,54 34,13 8,27 9,40

28,63 23,61 25,15 11,90 53,63 10,04 21,20 12,76 27,48 18,71 45,67 29,20

0,32 0,16 0,18 0,09 0,11 0,08 0,31 0,13 0,31 0,30 0,39 ,33

105,13 61,65 93,77 38,08 61,16 22,58 87,90 18,12 103,98 38,40 103,57 70,93

0,85 1,23 0,18 0,12 0,05 0,05 0,14 0,17 0,66 1,06 0,82 1,23

49,02 43,92 79,72 68,93 18,90 20,50 30,43 14,48 46,76 41,81 5,67 7,90

171,15 95,55 81,53 24,97 71,73 26,02 116,57 30,58 180,53 152,99 223,70 160,79

3.1.2. Correlação linear de Pearson

Na amostra global as correlações apresentam valores baixos, inferiores a 0.8 em

módulo, veja-se o anexo 4.

As tabelas da matriz de correlações entre as variáveis, em cada um dos grupos de

formações geológicas, encontram-se em anexo (anexo 5 a 10).

Nas Aluviões, apenas 7 pares de variáveis têm valores de correlação superiores a 0.8,

salientando a condutividade elétrica com o sódio e o sódio com o cloreto que

apresentam valores de correlações muito elevados. Deste modo, pode afirmar-se que

amostras com menores concentrações de sódio têm menor condutividade elétrica e

menores concentrações de cloreto, assim como amostras com maiores concentrações de

sódio têm maior condutividade elétrica e maiores concentrações de cloreto.

Na Formação de Benfica, apenas 4 pares de variáveis apresentam valores de correlação

linear superior a 0.8. Existem 10 pares de variáveis cujos valores das correlações são

inferiores a 0.8, em módulo, porém, significantes2. O cloreto com o sódio, com a

condutividade elétrica e o com brometo e o magnésio com a condutividade elétrica.

Assim sendo, nestas amostras, quanto maior for a concentração de cloreto, maior é a

concentração de sódio e de brometo, bem como os níveis de condutividade elétrica.

No Complexo Vulcânico de Lisboa existem 5 pares de variáveis com valores de

correlação superiores a 0.8, em módulo, dos quais dois pares têm valores de correlação

negativos. O Eh correlaciona-se negativamente com o cálcio e com o magnésio, ou seja,

à medida que os valores de Eh aumentam as concentrações de cálcio e de magnésio

diminuem. O sódio correlaciona-se positivamente com o bicarbonato e com o nitrato.

Deste modo, amostras com pequenas (ou grandes) concentrações de sódio têm pequenas

(ou grandes) concentrações de bicarbonato e de nitrato. Existe um par de variáveis com

valor de correlação abaixo de 0.8, mas significante.

Nos Calcários de Entrecampos existem 8 pares de variáveis com valores de correlação

superiores a 0.8, em módulo. Desses valores, dois são negativos. O fluoreto

correlaciona-se negativamente com a condutividade elétrica e com o magnésio. A

2 Uma correlação diz-se significante, se ao nível de significância 0.05 se rejeitar a hipótese nula no teste

condutividade elétrica e o magnésio correlacionam-se positivamente, tal como o nitrato

com o sulfato, com o Eh, com o bicarbonato e com o cálcio.

Nas Areolas da Estefânia e Areias do Vale de Chelas existem 4 pares de variáveis com

valores de correlação maiores que 0.8. A condutividade elétrica correlaciona-se

positivamente com o sódio e com o sulfato. Também existem 8 pares de variáveis com

valores de correlações inferiores a 0.8, mas significantes.

Nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres existem 8 pares de

variáveis que têm valores de correlação superiores a 0.8, em módulo. Desses valores,

quatro são negativos, nomeadamente, o pH e o bicarbonato, o bicarbonato com o

potássio e com o nitrato e este último com o sódio, e quatro são positivos; o pH com o

potássio e com o nitrato, a condutividade elétrica com o magnésio e o nitrato com o

potássio.

Mais à frente, na secção 3.1.3 (representações gráficas) será efetuada uma análise dos

diagramas de dispersão para alguns pares de variáveis.

3.1.3. Representações gráficas

Nas figuras que se seguem podem observar-se os diagramas em caixa de bigodes

paralelos e os diagramas de dispersão. Na figura 4 encontram-se os diagramas em caixa

de bigodes paralelos para cada variável (comparando por formação geológica) e na

figura 5 encontram-se os diagramas em caixa de bigodes paralelos para cada formação

geológica (comparando por variáveis).

Figura 4: Diagramas em caixa de bigodes paralelos de cada variável comparando cada formação

geológica

Para o pH, a amostra de água Lis30 é considerada outlier severo superior do CVL,

apesar de não ser o máximo da amostra global. Excluindo essa observação os valores do

pH no CVL são muito próximos, como é visível no respetivo diagrama em caixa de

bigodes. Em relação às Aluviões, Calcários de Entrecampos e Areolas da Estefânia e

Areias do Vale de Chelas a variação dos valores do pH é muito similar. Nas Argilas, se

excluir a amostra de água Lis9, cujo valor de pH é 10.45, também se encontra uma

distribuição idêntica às anteriores.

Para a condutividade elétrica, a amostra de água Lis21 é outlier moderado superior das

Areolas da Estefânia e Areias do Vale de Chelas e também o maior valor da amostra

global. As amostras de água do CVL são caracterizadas por apresentar baixa

condutividade elétrica.

Para o Eh, a amostra de água Lis37 é outlier moderado superior das Aluviões e a

amostra de água Lis46 é outlier severo inferior na Formação de Benfica, não sendo o

máximo nem o mínimo da amostra global, respetivamente. As amostras de água

recolhidas nas Aluviões caracterizam-se pelos valores de Eh negativos, com exceção da

amostra de água Lis37 que apresenta valor positivo. Nas amostras da Formação de

Benfica, se excluir o outlier, o Eh apresenta valores muito próximos e elevados, em

relação às outras formações geológicas. Nas amostras do CVL os valores de Eh são

maioritariamente positivos. Nas amostras dos Calcários de Entrecampos os valores de

Eh são negativos. Nas amostras das Areolas e das Argilas o Eh apresenta valores, quer

positivos, quer negativos.

Quanto ao ião bicarbonato, as amostras de água Lis24 e Lis46 surgem como outliers da

Formação de Benfica, o primeiro é severo superior e o segundo é moderado inferior. As

amostras Lis44 e Lis47 aparecem como outliers do CVL, o primeiro é severo inferior e

o segundo é moderado superior. Nas amostras de água do CVL, excluindo os outliers,

as concentrações deste ião apresentam valores muito próximos. Nas amostras de água

recolhidas nas outras formações geológicas a concentração deste ião apresenta uma

maior disparidade de valores, destacando as Argilas pela elevada variabilidade.

Quanto ao ião de cálcio, as amostras Lis24 e Lis47 são outliers moderados superiores da

Formação de Benfica e do CVL, respetivamente. As amostras de águas do CVL

caracterizam-se por baixas concentrações deste ião e pela pequena variabilidade

relativamente às outras formações geológicas, enquanto as amostras das Aluviões

caracterizam-se por concentrações mais elevadas deste ião.

Quanto ao ião sódio, a amostra Lis31 representa um outlier moderado superior da

Formação de Benfica e a amostra Lis21 é um outlier moderado superior das Argilas. As

amostras do CVL caracterizam-se por menores concentrações deste ião, em relação às

outras formações geológicas.

Quanto ao ião potássio, as amostras Lis32, Lis14 e Lis9 representam outliers para as

formações CVL, Calcários de Entrecampos e Argilas, respetivamente, sendo os dois

primeiros severos superiores e o último moderado superior. Por observação do diagrama

em caixa de bigodes constata-se que nenhum destes outliers é máximo na amostra

global. É nas Areolas da Estefânia e Areias do Vale de Chelas que a concentração e a

variabilidade são maiores. Sem considerar os outliers, as amostras do CVL e das

Argilas apresentam concentrações deste ião muito baixas, bem como pequenas

variabilidades.

Quanto ao ião magnésio, a amostra Lis16 é outlier moderado superior das Aluviões. As

amostras de água das Areolas e das Argilas apresentam grande variabilidade. As

amostras de água provenientes do CVL caracterizam-se por valores mais altos do ião

magnésio.

Quanto ao ião fluoreto, as amostras do CVL apresentam baixas concentrações deste ião,

relativamente às restantes formações geológicas. As amostras de água das Areolas e das

Argilas apresentam uma grande variabilidade e diagramas em caixa de bigodes

idênticos.

Quanto ao ião cloreto, a amostra Lis48 é outlier severo superior do CVL. As amostras

do CVL caracterizam-se por baixas concentrações e pequena variabilidade. Nas

amostras das Aluviões e das Argilas as concentrações deste ião e a variabilidade são

grandes. Os diagramas em caixa de bigodes relativos às amostras de água da Formação

de Benfica e dos Calcários de Entrecampos são idênticos.

Quanto ao ião brometo, as amostras Lis13, Lis3 e Lis7 são outliers, respetivamente, das

Aluviões, Areolas e Argilas, o primeiro é severo superior e os dois últimos são

moderados superiores. As amostras do CVL, da Formação de Benfica e dos Calcários

de Entrecampos apresentam baixas concentrações deste ião.

Quanto ao ião nitrato, as amostras Lis45 e Lis9 são outliers nas Areolas e nas Argilas,

respetivamente, o primeiro é moderado superior e o segundo é severo superior. As

Argilas caracterizam-se por reduzidas concentrações deste ião. As amostras do CVL e

dos Calcários de Entrecampos têm pequenas concentrações deste ião. As amostras da

Formação de Benfica apresentam concentrações muito elevadas deste ião, bem como

uma grande variabilidade.

Quanto ao ião sulfato, as amostras Lis2 e Lis5 são outliers dos Calcários de

Entrecampos, sendo o primeiro severo inferior e o segundo moderado superior. A

amostra Lis21 é outlier severo superior das Areolas. As amostras da Formação de

Benfica e do CVL caracterizam-se por baixas concentrações deste ião, enquanto as

amostras das Argilas têm concentrações muito elevadas deste ião e com uma grande

variabilidade. Nas amostras dos Calcários de Entrecampos, se excluir os outliers, a

variabilidade é reduzida.

Figura 5: Diagramas em caixa de bigodes paralelos de cada formação geológica, para cada ião

A análise dos diagramas em caixa de bigodes paralelos da figura 5 permite comparar as

concentrações dos iões dissolvidos nas diferentes amostras de água, por cada formação

geológica, para se compreender quais os iões que apresentam maiores concentrações e

quais os iões que apresentam menores concentrações. É unânime afirmar que o ião

bicarbonato apresenta as maiores concentrações, relativamente às concentrações dos

outros iões, qualquer que seja a formação geológica, enquanto os iões fluoreto e

brometo apresentam concentrações mais reduzidas, comparando com as concentrações

dos demais iões dissolvidos nas amostras de água. As concentrações dos iões cálcio,

sódio e cloreto também são altas, comparando com os restantes iões. Particularmente,

em cada formação geológica, pode ser efetuada uma comparação de concentrações dos

diferentes iões, para além do referido.

Nas Aluviões os iões sulfato e nitrato apresentam altas concentrações, em oposição aos

iões potássio e magnésio, cujas concentrações são inferiores.

Na Formação de Benfica o ião nitrato apresenta elevadas concentrações, em oposição as

concentrações dos iões potássio e magnésio são menores.

No CVL o ião potássio apresenta baixas concentrações e o ião magnésio,

comparativamente aos demais iões, apresenta concentrações mais altas, muito

semelhantes às concentrações dos iões cálcio, sódio e cloreto. Ainda se pode observar a

existência de reduzida variabilidade.

Nos Calcários de Entrecampos as concentrações dos iões não são muito elevadas.

Nas Areolas da Estefânia e Areias do Vale de Chelas os iões potássio e nitrato

apresentam concentrações altas.

Nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres as concentrações do

ião sulfato são elevadas, em oposição às concentrações dos iões potássio e nitrato, que

são menores.

Nas representações gráficas seguintes pode observar-se a distribuição das amostras de

água em cada formação geológica e para cada variável em estudo. Desta forma, a figura

6 contempla os diagramas de dispersão das observações reorganizadas (por formação

geológica) versus cada uma das variáveis em estudo.

Argilas e

Calcários dos

Prazeres

Argilas

do Forno

do Tijolo

Figura 6: Diagramas de dispersão das observações reorganizadas versus cada uma das variáveis em

estudo

À partida seria espectável que amostras de água provenientes da mesma formação

geológica teriam idêntica composição química e amostras de água provenientes de

diferentes formações geológicas teriam diferente composição química, permitindo a

natural separação das amostras por cada um dos grupos de formações geológicas, ou por

outras palavras, o natural agrupamento das amostras de água provenientes do mesmo

grupo de formações geológicas.

Ao analisar-se os 13 diagramas de dispersão, pode concluir-se que na maioria das

variáveis observadas não existe esse agrupamento natural, ou essa separação natural,

como seria esperado. Na figura 6, têm-se as distribuições das concentrações dos iões e

das características físico-químicas em cada amostra de água, para cada formação

geológica, donde se pode observar a grande ou pequena dispersão, bem como formação

ou não de grupos. Esta visualização pode trazer muitas informações, mas todas do ponto

de vista univariado. Na secção seguinte (3.2.), procede-se à análise multivariada.

Quanto ao pH, as amostras de água provenientes das Aluviões, dos Calcários de

Entrecampos, das Areolas e das Argilas apresentam grande variabilidade, enquanto na

Formação de Benfica e no CVL a variabilidade é inferior. Desta forma, o pH caracteriza

estas duas últimas formações. Também é evidente a inexistência de grupos.

Quanto à condutividade elétrica, as amostras de água apresentam grande variabilidade,

exceto as provenientes do CVL e dos Calcários de Entrecampos. Não é visível uma

natural separação dos elementos pelas formações geológicas.

Quanto ao Eh, existem dois grupos, um com amostras de Eh positivo e outro com

amostras de Eh negativo. O Eh permite caracterizar a Formação de Benfica e os

Calcários de Entrecampos, uma vez que, nas amostras provenientes da Formação de

Benfica o Eh é sempre positivo e nas amostras dos Calcários de Entrecampos é sempre

negativo. Nas Argilas também existe uma separação. As amostras provenientes das

Argilas do Forno do Tijolo têm Eh negativo e as amostras provenientes das Argilas e

Calcários dos Prazeres têm Eh positivo, como se pode observar na figura 6 (diagrama

relativo ao Eh). Nas Aluviões apenas a amostra Lis37 tem valor de Eh positivo (132.2

mV). No CVL todas as amostras apresentam valor positivo, com exceção das amostras

Lis47 e Lis48 que apresentam os valores -19 mV e 0 mV, respetivamente.

Quanto ao ião bicarbonato, a dispersão é elevada. As concentrações deste ião são

normalmente altas, embora existam duas amostras com reduzidas concentrações deste

ião, uma proveniente da Formação de Benfica e outra das Argilas. Para cada formação

geológica a variabilidade é grande, o que não permite a caracterização das formações

geológicas com este ião. Não é evidente a existência de grupos.

Quanto ao ião cálcio, existe uma grande dispersão e a maioria das amostras de água

têm concentrações elevadas deste ião. Ao observar a figura 6 (diagrama relativo ao

cálcio) é visível o elevado número de amostras que têm concentração deste ião acima do

valor paramétrico assinalado na representação gráfica. Apenas na Formação de Benfica

e no CVL a maioria das amostras tem concentrações abaixo do valor paramétrico. Ainda

de notar que no CVL a variabilidade é reduzida. Este ião não permite caracterizar as

formações geológicas.

Quanto ao ião sódio, existe uma grande dispersão, mas apenas duas amostras têm

concentrações elevadas. As amostras provenientes do CVL têm menores concentrações

deste ião, comparativamente às amostras dos Calcários de Entrecampos. Também as

amostras provenientes destas últimas formações geológicas têm menor variabilidade.

Quanto ao ião potássio, existe uma grande dispersão e um grande número de amostras

de água com concentrações superiores ao valor paramétrico (12 mg/L) assinalado na

representação gráfica da figura 6 (diagrama relativo ao potássio). As concentrações do

ião potássio nas amostras de água provenientes do CVL e das Aluviões são reduzidas e

idênticas. Se excluir a amostra de água dos Calcários de Entrecampos com elevada

concentração e considerar as restantes amostras dos Calcários de Entrecampos, as

amostras da Formação de Benfica e as amostras das Argilas, estas têm dispersão

idêntica. Nas Areolas da Estefânia e Areias do Vale de Chelas as concentrações e a

variabilidade deste ião são elevadas.

Quanto ao ião magnésio, existe grande dispersão, com exceção das amostras

provenientes do CVL. Este ião não permite a caracterização das formações geológicas.

Quanto ao ião fluoreto, as amostras de água apresentam grande variabilidade. As

concentrações deste ião nas amostras provenientes do CVL são reduzidas. Nas Aluviões

e nos Calcários de Entrecampos a distribuição é idêntica. As amostras provenientes das

Areolas e Argilas apresentam grande variabilidade, onde duas amostras, uma das

Areolas e outras das Argilas, têm elevadas concentrações deste ião.

Quanto ao ião cloreto, a dispersão é grande, com exceção das amostras provenientes do

CVL. Se excluir a amostra do CVL assinalada na figura 6 (diagrama relativo ao

cloreto), a variabilidade no CVL é muito reduzida. Nas Aluviões e nas Argilas a

variabilidade é muito grande e a distribuição é idêntica, o mesmo sucede com a

Formação de Benfica e as Areolas, onde a variabilidade é grande e a distribuição é

idêntica.

Quanto ao ião brometo, a variabilidade é muito grande, resultado de três amostras (uma

das Aluviões, uma das Areolas e uma das Argilas) com concentrações muito elevadas.

No CVL a variabilidade é muito reduzida, bem como as concentrações deste ião. Na

Formação de Benfica e nos Calcários de Entrecampos as concentrações deste ião e a

variabilidade são baixas.

Quanto ao ião nitrato, existe uma grande dispersão e um número considerável de

amostras com concentração superior a 50 mg/L, como se pode observar na figura 6

(diagrama relativo ao nitrato). As amostras provenientes das Argilas apresentam

concentrações e variabilidade reduzidas. As amostras de água provenientes do CVL e

dos Calcários de Entrecampos apresentam baixas concentrações deste ião (sempre

abaixo dos 50 mg/L). Nas amostras das Aluviões, da Formação de Benfica e das

Areolas a variabilidade é muito grande, deste modo existem amostras com baixas

concentrações deste ião e outras com elevadas concentrações, o que não permite a

caracterização destas amostras a partir deste ião.

Quanto ao ião sulfato, a variabilidade é muito acentuada, mas este comportamento não é

sempre o mesmo nas diferentes formações geológicas. Nas amostras da Formação de

Benfica, do CVL e dos Calcários de Entrecampos a variabilidade é menor e as

concentrações deste ião estão abaixo de 200 mg/L. Nas amostras provenientes das

Areolas, se excluir a amostra assinalada na figura 6 (diagrama relativo ao sulfato), com

concentração muito elevada (superior a 600 mg/L), as restantes amostras têm

concentrações abaixo dos 200 mg/L. Nas Argilas a variabilidade é mais acentuada, as

amostras, ora têm concentrações baixas, ora elevadas.

Nas representações gráficas que se seguem estão as matrizes de diagramas de dispersão

para alguns pares de variáveis, para cada formação geológica. Mais precisamente, na

figura 7 encontram-se os diagramas de dispersão em matriz para as variáveis

condutividade elétrica, cálcio, sódio e cloreto (consideradas duas a duas). Na figura 8,

estão os diagramas de dispersão em matriz para as variáveis bicarbonato, cálcio e

magnésio. Na figura 9, estão os diagramas de dispersão em matriz para as variáveis

bicarbonato, cálcio e sulfato. Por último, na figura 10 encontram-se os diagramas de

dispersão das variáveis nitrato e sulfato.

Aluviões (1)

Formação de Benfica (2)

CVL (3)

Calcários de Entrecampos (4)

Areolas da Estefânia e Areias do Vale

de Chelas (5)

Argilas do Forno do Tijolo e Argilas e

Calcários dos Prazeres (6)

Figura 7: Matriz de diagramas de dispersão para cada formação geológica com as variáveis condutividade

elétrica, cálcio, sódio e cloreto

Ao observar-se a figura 7 para as variáveis consideradas, nas Aluviões é visível através

dos diagramas de dispersão em matriz uma associação linear positiva entre os pares de

variáveis. Essa associação é mais significativa para os pares condutividade elétrica /

sódio, condutividade elétrica / cloreto e sódio / cloreto, onde os valores dos coeficientes

de correlação de Pearson são 0.912, 0.814 e 0.910, respetivamente. No caso do cálcio /

cloreto e cálcio / sódio essa associação seria mais significativa, se as observações

assinaladas fossem excluídas. Na Formação de Benfica, pode observar-se, na figura 7,

que a correlação é mais significativa para os pares condutividade elétrica / sódio,

condutividade elétrica / cloreto e sódio / cloreto, onde os coeficientes de correlação de

Pearson tomam os valores 0.753, 0.809 e 0.884, respetivamente. Quanto ao par

condutividade elétrica / cálcio essa associação é fraca, (0.522 é o valor do coeficiente de

correlação de Pearson). Para os restantes pares de variáveis não existe uma associação

linear. No CVL as associações entre pares de variáveis são mais significativos para os

pares condutividade elétrica / cálcio e cálcio / sódio, cujos valores dos coeficientes de

correlação de Pearson são 0.804 e 0.767, respetivamente. Para os restantes pares de

variáveis a correlação é fraca e pouco significativa. Nos Calcários de Entrecampos pode

observar-se, através da matriz dos diagramas de dispersão da figura 7 para as variáveis

indicadas, que não existe qualquer associação linear entre as variáveis, uma vez que os

pontos não estão alinhados sobre uma reta. Nas Areolas da Estefânia e Areias do Vale

de Chelas as correlações são mais significantes para os pares de variáveis condutividade

elétrica / cálcio, condutividade elétrica / sódio e condutividade elétrica / cloreto, cujos

valores dos coeficientes de correlação de Pearson são 0.613, 0.927 e 0.649,

respetivamente. Nos restantes pares de variáveis a associação é fraca. Nas Argilas do

Forno do Tijolo e Argilas e Calcários dos Prazeres não existem correlações

significantes.

Aluviões

Formação de Benfica

Calcários de Entrecampos

Areolas e Areias

Argilas

Figura 8: Matriz de diagramas de dispersão para cada formação geológica com as variáveis bicarbonato,

cálcio e magnésio

Na figura 8 apresentam-se os diagramas de dispersão em matriz, para cada formação

geológica e para as variáveis bicarbonato, cálcio e magnésio. Nas Aluviões não é visível

a existência de uma associação linear entre esses pares de variáveis, mas se excluir a

observação assinalada (amostra Lis12), o valor do coeficiente de correlação de Pearson

entre o bicarbonato / cálcio é igual a - 0.966. Neste caso, passa a existir uma forte

associação linear negativa entre o bicarbonato e o cálcio, ou seja, à medida que as

concentrações de bicarbonato aumentam, as concentrações de cálcio diminuem. Na

Formação de Benfica é visível a existência de associação linear forte entre os pares de

variáveis bicarbonato / cálcio e bicarbonato / magnésio, cujos valores dos coeficientes

de correlação de Pearson são 0.758 e 0.743, respetivamente. No CVL não existe

claramente associação linear entre os pares de variáveis, porém se excluir a observação

assinalada (amostra Lis44) no diagrama de dispersão do par bicarbonato / cálcio a

correlação passa a ser significativa, sendo o valor do coeficiente de correlação de

Pearson 0.859. Nos Calcários de Entrecampos não existe uma associação linear entre os

pares de variáveis. Nas Areolas da Estefânia e Areias do Vale de Chelas não existe uma

associação linear entre os pares de variáveis, mas se eliminar a observação assinalada

(amostra Lis20) no diagrama de dispersão para o par de variáveis cálcio / magnésio, o

valor do coeficiente de correlação linear passa a ser 0.663. Nas Argilas do Forno do

Tijolo e Argilas e Calcários dos Prazeres a associação linear entre as variáveis é nula.

Aluviões

Areolas e Areias

Argilas

Figura 9: Matriz de diagramas de dispersão para cada formação geológica com as variáveis bicarbonato,

cálcio e sulfato

Na figura 9 apresentam-se os diagramas de dispersão em matriz, para as variáveis

bicarbonato, cálcio e sulfato. Nas Aluviões existe apenas uma forte associação linear

entre o par cálcio / sulfato, onde o valor do coeficiente de correlação de Pearson é

0.815, mas se excluir a observação assinalada (amostra Lis13), o valor do coeficiente de

correlação de Pearson entre o bicarbonato e o sulfato passa a 0.907. Na Formação de

Benfica apenas existe forte associação linear entre o bicarbonato e o cálcio, cujo valor

do coeficiente de correlação de Pearson é 0.798. No CVL não existe associação linear

entre os pares de variáveis considerados, mas se excluir a observação assinalada

(amostra Lis44), o valor do coeficiente de correlação de Pearson entre o bicarbonato e o

cálcio passa a ser 0.859. Nos Calcários de Entrecampos existe uma forte associação

linear entre o bicarbonato e o sulfato, onde o valor do coeficiente de correlação de

Pearson é 0.886. Nas Areolas da Estefânia e Areias do Vale de Chelas apenas existe

associação linear entre as variáveis cálcio e sulfato, cujo valor do coeficiente de

correlação de Pearson é 0.786. Nas Argilas do Forno do Tijolo e Argilas e Calcários dos

Prazeres não há associação linear entre as variáveis consideradas.

Aluviões

Areolas e Areias

Argilas

Figura 10: Diagrama de dispersão para cada formação geológica com as variáveis nitrato e sulfato

Na figura 10 estão representados os diagramas de dispersão para o par nitrato / sulfato,

em cada formação geológica. A existência de associação linear significativa para este

par de variáveis ocorre apenas nos Calcários de Entrecampos, onde o valor do

coeficiente de correlação linear é 0.851.

3.2. Análise Multivariada

3.2.1. Análise em Componentes Principais

Como já referido anteriormente, este estudo tem por base 48 amostras de água

subterrânea e 13 variáveis correspondentes a espécies dissolvidas e características

físico-químicas.

Nesta etapa começa-se por efetuar uma análise em componentes principais com o

objetivo principal: a redução da dimensionalidade. Mais precisamente, parte-se de um

conjunto com 13 variáveis correlacionadas (moderadamente) e pretende-se encontrar

um novo conjunto de variáveis não correlacionadas, as componentes principais. Estas

são uma combinação linear das variáveis originais. Deste modo, um menor número

destas variáveis poderá explicar uma percentagem significativa da variabilidade dos

dados. Caso a explicação fosse total, teríamos de usar as 13 componentes principais e o

estudo seria desnecessário.

Em primeiro lugar são determinados os valores próprios da matriz de correlações

amostral, como se pode observar na tabela 5.

Componentes Valores próprios

1 4,095

2 2,024

3 1,706

4 1,328

5 1,256

6 0,648

7 0,548

8 0,476

9 0,299

10 0,245

11 0,176

12 0,152

13 0,048

Tabela 5: Valores próprios da matriz de correlações amostral

Em seguida, tem de se decidir o número de componentes a reter. Deste modo, usam-se

três critérios (apresentados anteriormente).

Critério 1: Proporção da variância explicada por cada componente principal

Componentes Proporção de

variância explicada

Proporção de variância

explicada acumulada

1 31,5 31,5

2 15,6 47,1

3 13,1 60,2

4 10,2 70,4

5 9,7 80,1

6 5,0 85,1

7 4,2 89,3

8 3,7 92,9

9 2,3 95,2

10 1,9 97,1

11 1,4 98,5

12 1,2 99,6

13 0,4 100,0

Tabela 6: Proporção de variância explicada por cada componente e proporção de variância acumulada

explicada até à componente j.

Na tabela 6 encontra-se calculada a proporção de variância explicada por cada uma das

13 componentes principais e a proporção de variância explicada acumulada até à j-

ésima componente principal. A componente 1 explica 31.5% da variabilidade total. A

componente 2 explica 15.6% da variabilidade total ainda não explicada pela

componente1 e, assim por diante. Para a proporção de variância explicada ser superior a

80%, têm de se reter as 5 primeiras componentes principais.

Critério 2: Critério de Kaiser

Este critério, proposto por Kaiser em 1960, sugere que se devem reter as componentes

principais cujos valores próprios sejam superiores a um. Na tabela 5 pode observar-se

que os 5 primeiros valores próprios são maiores do que um. Deste modo, devem reter-se

as 5 primeiras componentes principais.

Critério 3: Scree plot

Este critério, proposto por Cattell em 1966, sugere que o número de componentes a

reter deve ser aquele que antecede o momento em que o declive atenua, ou seja, quando

os valores próprios forem próximos entre si e de zero.

Figura 11: Scree plot (número de componentes principais versus valores próprios)

Analisando a figura 11, o número de componentes a reter dever ser 5, uma vez que a

partir desse momento os valores próprios estão muito próximos de zero.

Com base nos critérios, devem reter-se as 5 primeiras componentes principais, a

redução de dimensionalidade é de 13 para 5.

0 1 2 3 4 5 6 7 8 9 10 11 12 13

Número de componentes principais

Scree plot

Componentes Principais

1 2 3 4 5

pH -0,140 0,691 -0,101 0,266 -0,449 0,780

C.E. 0,926 0,184 0,010 -0,006 0,108 0,904

Eh -0,499 0,653 0,052 -0,256 -0,097 0,753

0,447 0,155 0,480 0,128 0,612 0,846

0,706 0,151 -0,043 0,594 0,087 0,883

Na+ 0,730 0,180 -0,042 -0,499 0,045 0,818

K+ -0,056 -0,032 -0,596 -0,014 0,643 0,773

0,261 0,304 0,785 -0,188 0,024 0,813

0,565 -0,562 -0,145 -0,158 -0,286 0,762

0,680 0,470 -0,138 -0,291 -0,095 0,796

0,624 -0,311 -0,141 -0,364 -0,234 0,694

-0,063 0,514 -0,611 -0,207 0,179 0,717

0,700 0,126 -0,235 0,503 -0,237 0,870

4,095 2,024 1,706 1,328 1,256

Tabela 7: Matriz dos loadings das componentes principais

Na tabela 7 encontram-se os loadings das componentes principais para cada uma das 13

variáveis. Para cada variável selecionou-se o maior loading, em valor absoluto, para

compreender qual ou quais as variáveis mais importantes na formação de cada uma das

5 primeiras componentes (ver na tabela o sombreado mais escuro). Deste modo, para a

primeira componente as variáveis que mais contribuíram para a sua formação foram: a

condutividade elétrica, o cálcio, o sódio, o fluoreto, o cloreto, o brometo e o sulfato.

Para a segunda componente principal foram o pH e o Eh. Para a terceira componente

foram o magnésio e o nitrato. Para a quarta componente principal nenhum teve

contribuição importante e para a quinta componente principal foram o bicarbonato e o

potássio. Ainda se podem observar na tabela 7 (sombreado mais claro) os loadings

maiores que 0.3 em valor absoluto. Assim sendo, todas as variáveis originais, exceto o

potássio, são determinantes na formação das duas primeiras componentes.

Na última linha da tabela 7 constam as somas dos quadrados dos elementos de cada

coluna, que coincidem sempre com os valores próprios. Na última coluna da tabela 7

constam as somas dos quadrados dos elementos de cada linha, que representam as

comunalidades, ou seja, a proporção de variância das variáveis originais que é explicada

Soma dos

quadrados

das linhas

Soma dos

quadrados

das colunas

pelas componentes retidas. O valor das comunalidades é superior a 0.694. Caso se

considerassem todas as componentes principais a comunalidade de cada variável seria

igual a 1, mas não se estaria a reduzir a dimensionalidade.

Na figura 12 encontra-se a representação gráfica dos loadings das duas primeiras

componentes.

Figura 12: Representação gráfica dos loadings das duas primeiras componentes principais

Analisando a figura 12, pode visualizar-se quais as variáveis que mais contribuíram para

as duas primeiras componentes principais. Na tabela 7 essa análise tinha sido efetuada

para as cinco primeiras componentes. O potássio não contribuiu para a formação das

duas primeiras componentes. O bicarbonato e o magnésio têm uma pequena

contribuição. Relativamente à componente 2, o fluoreto e o brometo estão em oposição

à condutividade elétrica, cálcio, sódio, sulfato e cloreto. Em relação à componente 1, o

Eh, o pH e o nitrato estão em oposição à condutividade elétrica, cálcio, sódio, sulfato e

cloreto.

Nas figuras 13 e 14 podem observar-se as representações gráficas dos scores para as

duas primeiras componentes principais. No primeiro caso, a legenda refere-se o número

da amostra a que pertencem, ou seja, 23 representa a amostra Lis23, por exemplo. No

segundo caso os indivíduos estão representados pela formação geológica a que

pertencem.

Figura 13: Representação gráfica dos scores (observações) das duas primeiras componentes principais

Constata-se que as amostras Lis12 e Lis21 estão afastadas da nuvem de pontos. De um

modo geral, a amostra Lis12 tem reduzidas concentrações na maioria dos iões, em

oposição, a amostra Lis21 tem altas concentrações na maioria dos iões.

É visível um grande grupo de elementos, essencialmente provenientes da Formação de

Benfica, do CVL, das Areolas e das Argilas, como se pode observar na figura 14.

Observam-se uns grupos mais pequenos (com menos elementos), essencialmente

provenientes das Aluviões, dos Calcários, das Areolas e das Argilas.

Figura 14: Representação gráfica dos scores (formações geológicas) das duas primeiras componentes

principais

Nas figuras 15 e 16 estão representados os biplots3 dos loadings e dos scores das duas

primeiras componentes principais. No primeiro caso, a legenda corresponde ao número

da amostra e no segundo caso, a legenda corresponde às formações geológicas. Deste

modo, pretende-se compreender qual ou quais os iões que caracterizam uma

determinada formação geológica. Devido à complexa litologia de Lisboa não existe uma

separação evidente e natural dos elementos (amostras) pelas seis formações geológicas.

Existe uma separação em termos de localização geográfica, ou seja, amostras

localmente mais próximas “aparentam” características semelhantes. Nas amostras de

água provenientes da Formação de Benfica e do CVL, a proximidade não é apenas

geográfica. Nas figuras 15 e 16 pode observar-se a proximidade destas amostras e

também que, na componente 2 estas amostras são caracterizadas pelo pH, Eh e nitratos.

As amostras das Aluviões são caracterizadas na componente 1 pelo fluoreto e pelo

3 Biplot é uma dupla representação gráfica, em que constam os loadings das variáveis, representados

através dos vetores e os scores de cada observação, representados através de pontos.

cloreto. Quanto às restantes formações geológicas não é visível a caracterização, uma

vez que existe uma maior dispersão.

Figura 15: Representação gráfica (biplot) dos loadings e dos scores (observações) das duas primeiras

componentes principais

Figura 16: Representação gráfica (biplot) dos loadings e dos scores (formações geológicas) das duas

primeiras componentes principais

3.2.2. Análise Fatorial

Nesta secção irá efetuar-se uma análise fatorial que permita explicar as correlações

existentes entre as variáveis, ou seja, parte-se de um conjunto de 13 variáveis e

pretende-se encontrar um menor número de fatores que expliquem essas correlações.

Por um lado pretende-se que a perda de informação seja a menor possível, por outro o

número de fatores não pode ser muito elevado.

Utiliza-se o método das componentes principais para a extração dos fatores e a rotação

varimax para a rotação dos fatores.

Começa-se pela determinação dos valores próprios da matriz de correlações. Esses

valores próprios encontram-se na tabela 8.

Fatores Valores Próprios

1 4,039

2 1,885

3 1,692

4 1,528

5 1,078

6 0,776

7 0,533

8 0,498

9 0,417

10 0,248

11 0,176

12 0,100

13 0,030

Tabela 8: Valores próprios da matriz de correlações amostral

Note-se que a matriz de correlações amostral usada é a mesma, tanto na análise em

componentes principais, como na análise fatorial. O modelo matemático da análise em

componentes principais é Y = AX (Y as componentes principais e X as variáveis

originais), enquanto o modelo matemático da análise fatorial é Y = , ou seja,

Y = (Y as variáveis originais e f os fatores). Deste modo, há uma pequena

diferença nos valores próprios.

Na tabela 9 encontra-se a proporção de variância explicada pelos fatores.

Fatores Proporção de

variância explicada

Proporção de variância

explicada acumulada

1 31,1 31,1

2 14,5 45,6

3 13,0 58,6

4 11,8 70,3

5 8,3 78,6

6 6,0 84,6

7 4,1 88,7

8 3,8 92,5

9 3,2 95,7

10 1,9 97,6

11 1,4 99,0

12 0,8 99,8

13 0,2 100,0

Tabela 9: Proporção de variância explicada por cada fator e proporção de variância acumulada pelo fator j

Pela análise das tabelas 8 e 9, os 5 primeiros fatores têm valores próprios superiores a

um e a variância explicada é 78.6%. Deste modo, deve prosseguir-se a análise com os

cinco fatores.

Na tabela 10 encontram-se as comunalidades iniciais (com todos os fatores) e as

extraídas (com 5 fatores). Observa-se que todas as comunalidades têm um valor alto.

Deste modo, as variáveis são bem explicadas pelos fatores da análise fatorial.

Comunalidades

Iniciais Extraídas

pH 1,000 0,828

C.E. 1,000 0,933

Eh 1,000 0,734

1,000 0,860

1,000 0,807

Na+ 1,000 0,797

K+ 1,000 0,677

1,000 0,763

1,000 0,752

1,000 0,785

1,000 0,698

1,000 0,727

1,000 0,861

Tabela 10: Comunalidades iniciais e extraídas através do método das componentes principais

Na tabela 11 encontram-se os loadings que permitem avaliar a correlação entre as

variáveis e os fatores, assinalando os que têm um valor superior a 0.7, em módulo.

Fatores

1 2 3 4 5

pH -0,146 0,539 0,466 -0,546 0,012

C.E. 0,932 0,219 0,008 0,065 -0,111

Eh -0,469 0,632 -0,125 0,081 0,304

0,444 0,151 -0,628 0,205 -0,452

0,722 0,057 0,252 -0,149 -0,445

Na+ 0,763 0,201 -0,078 0,226 0,344

K+ -0,002 0,056 0,322 0,669 -0,350

0,307 0,355 -0,664 -0,318 0,017

0,626 -0,532 0,179 -0,050 0,208

0,642 0,540 -0,016 0,126 0,257

0,509 -0,405 -0,059 0,235 0,465

-0,117 0,456 0,409 0,579 0,057

0,679 0,069 0,498 -0,383 -0,033

Tabela 11: Matriz dos loadings (sem rotação dos fatores)

Por observação da tabela 11, apenas 3 loadings verificam essa condição. Logo, é

necessário proceder à rotação dos fatores, através da rotação varimax.

1 2 3 4 5

1 0,644 0,610 0,381 0,248 -0,080

2 -0,132 0,602 -0,771 0,090 0,131

3 0,459 -0,047 -0,120 -0,736 0,481

4 -0,354 0,160 0,352 0,245 0,816

5 -0,482 0,488 0,348 -0,573 -0,283

Tabela 12: Matriz da transformação ortogonal obtida pelo método de rotação varimax

Na tabela 12 encontra-se a matriz ortogonal obtida pelo método varimax, que é utilizada

para obter a matriz dos loadings após rotação, que se pode visualizar na tabela 13. A

matriz da tabela 13 é obtida pelo produto das matrizes das tabelas 11 e 12. A matriz dos

loadings da tabela 13 permite uma melhor interpretação, uma vez que existe um maior

número de loadings significativos (maiores que 0.7 em módulo).

Fatores

1 2 3 4 5

pH 0,236 0,132 -0,716 -0,471 -0,143

C.E. 0,605 0,656 0,170 0,325 0,043

Eh -0,618 0,262 -0,517 -0,122 0,040

0,123 0,204 0,042 0,895 -0,022

0,840 0,222 -0,006 0,218 0,076

Na+ 0,183 0,794 0,344 0,123 0,015

K+ 0,071 -0,046 0,031 0,131 0,807

-0,050 0,389 -0,184 0,509 -0,562

0,473 0,146 0,682 -0,156 -0,133

0,166 0,862 -0,036 0,103 0,041

0,047 0,333 0,758 -0,076 -0,062

-0,180 0,304 -0,222 -0,180 0,721

0,808 0,354 0,000 -0,266 -0,109

Tabela 13: Matriz dos loadings (após rotação varimax)

Deste modo, o fator 1 está associado ao ião cálcio e o ião sulfato, o fator 2 está

associado ao ião sódio e ao ião cloreto, o fator 3 está associado ao pH e ao ião brometo,

o fator 4 está associado ao ião bicarbonato e o fator 5 está associado ao potássio e ao ião

nitrato (tabela 14).

Fatores Variáveis

1 Cálcio e sulfato

2 Sódio e cloreto

3 pH e brometo

4 Bicarbonato

5 Potássio e nitrato

Tabela 14: Designação dos fatores

Figura 17: Representação gráfica dos loadings dos 2 primeiros fatores

Na figura 17 tem-se a representação gráfica dos loadings do fator 1 versus fator 2,

quando se extraem 2 fatores. Estes dois fatores explicam apenas 45.6% da variação, o

que é muito reduzido.

Na tabela 15 estão indicados o valor do KMO e o resultado do teste de esfericidade de

Bartlett.

Kaiser-Meyer-Olkin Measure of

Sampling Adequacy 0,478

Teste de

esfericidade

de Bartlett

Estatística de teste 348,578

Graus de liberdade 78

Valor p 0,000

Tabela 15: KMO e teste de esfericidade de Bartlett

Deste modo, o valor do KMO é inferior a 0.5, pelo que a análise fatorial não é aplicável

aos dados. O KMO é uma medida de adequação de amostragem e este baixo valor pode

estar relacionado com a reduzida dimensão da amostra face ao número de variáveis. O

teste de esfericidade de Bartlett permite rejeitar a hipótese da matriz de correlações ser

igual à matriz identidade, uma vez que o valor p é reduzido, significa que as variáveis

estão correlacionadas.

O KMO é uma medida de adequação amostral global, enquanto o MSA é uma medida

de adequação amostral individual, que permite avaliar a adequação de cada uma das

variáveis para a análise fatorial. Para a análise fatorial ser boa ou muito boa, o MSA de

cada variável deve ser superior a 0.8. Observando a tabela 16, nenhum é superior a 0.8,

embora alguns se considerem aceitáveis (superiores a 0.5), nomeadamente, para a

condutividade elétrica, o Eh, o fluoreto, o cloreto, o brometo e o sulfato. Se fossem

utilizadas apenas essas variáveis o KMO aumentaria, mas muita informação era perdida.

Deste modo, não se refaz a análise fatorial com essas variáveis.

Variáveis MSA

pH 0,404

C.E. 0,544

Eh 0,562

Na+ 0,480

K+ 0,124

Tabela 16: Medida de adequação amostral para cada variável (MSA)

3.2.3. Análise de Clusters

Nesta secção pretende-se reagrupar o conjunto de dados (amostras de água) de acordo

com a sua composição química.

O conjunto de dados, inicialmente, está subdividido em seis grupos (cada um dos

grupos de formações geológicas) e pretende-se efetuar um novo agrupamento.

Para determinar a distância entre dois indivíduos usa-se o quadrado da distância

euclidiana e os critérios de agregação usados são: critério de Ward e critério do

Complete Linkage. Numa primeira fase usam-se todas as variáveis e numa segunda fase

usam-se as cinco primeiras componentes principais (os scores).

Como as variáveis têm variâncias muito diferentes, usam-se as variáveis

estandardizadas. Na figura 18 encontra-se o dendograma referente à análise de clusters

para a amostra global, usando o critério de agregação de Ward. A amostra Lis21

encontra-se afastada das restantes não sendo incluída em nenhum cluster. Assim sendo,

são visíveis 3 clusters: cluster1, cluster2 e cluster3. No cluster1 encontram-se,

maioritariamente, amostras provenientes da Formação de Benfica e do CVL. A amostra

Lis 24 da Formação de Benfica e Lis47 e Lis48 do CVL não pertencem a este cluster.

Neste cluster não aparecem amostras provenientes dos Calcários de Entrecampos. No

cluster2 apenas não existem amostras provenientes dos Calcários de Entrecampos. No

cluster3 não existem amostras provenientes da Formação de Benfica e do CVL.

Desta forma, pode afirmar-se que as amostras provenientes da Formação de Benfica e

do CVL apresentam características distintas das outras formações geológicas, em

particular dos Calcários de Entrecampos, pois não existem clusters que tenham

simultaneamente amostras dessas formações. As amostras de água provenientes da

Formação de Benfica e do CVL apresentam, entre si, características idênticas. Quanto

às amostras provenientes das Aluviões, das Areolas e das Argilas estão presentes em

todos os clusters. Observando a figura 19 pode dizer-se que as amostras que constituem

o cluster3 estão geograficamente próximas, donde as suas características poderão ser

idênticas.

cluster1 cluster2 cluster3

Figura 18: Dendograma (variáveis estandardizadas) para a amostra global utilizando o método de Ward

Figura 19: Localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e

cluster3) obtidos quando se utiliza o método de Ward com as variáveis estandardizadas

Na figura 20 encontra-se o dendograma relativo à análise de clusters para a amostra

global usando o critério de Complete Linkage (ou vizinho mais afastado). As amostras

Lis9 e Lis21 não se inserem em nenhum dos clusters, uma vez que se encontram muito

afastadas, o mesmo se tinha verificado anteriormente para a amostra Lis21. São visíveis

3 clusters: cluster1, cluster2 e cluster3. No cluster1 encontram-se as amostras

provenientes da Formação de Benfica e do CVL, na sua maioria. De salientar que,

apenas, as amostras Lis24 e Lis31 provenientes da Formação de Benfica não constam

neste cluster. Este cluster, também não tem amostras provenientes dos Calcários de

Entrecampos nem das Argilas. Nos cluster2 e cluster3 encontram-se amostras

provenientes das restantes formações geológicas. Note-se que as amostras provenientes

do CVL apenas se encontram no cluster1. As amostras provenientes dos Calcários de

Entrecampos não pertencem ao mesmo cluster das amostras provenientes do CVL.

Figura 20: Dendograma (variáveis estandardizadas) para a amostra global utilizando o método de

Complete Linkage

Na figura 21 encontra-se o mapa com a localização geográfica das amostras de água que

constituem os clusters (cluster1, cluster2 e cluster 3) obtidos, quando se utiliza o método

Complete Linkage com as variáveis estandardizadas.

cluster3) obtidos quando se utiliza o método de Complete Linkage com as variáveis

estandardizadas

Analisando as figuras 18 e 20 pode concluir-se que em ambos os casos o cluster1 é mais

uniforme, ou seja, é constituído por amostras provenientes de duas formações

geológicas, que na sua maioria não tem representatividade nos outros dois clusters

(cluster2 e cluster3). Comparando os mapas geológicos das figuras 19 e 21 conclui-se

que no primeiro caso, os cluster2 e cluster3 não apresentam uma uniformidade de

formações geológicas, mas apresentam uma uniformidade geográfica, contrariamente,

no segundo caso, os cluster2 e cluster3 não apresentam uniformidade geográfica nem a

nível das formações geológicas.

Nestes dois primeiros casos, os clusters têm praticamente a mesma dimensão, variando

entre 11 e 19 elementos.

Numa segunda fase, usam-se os scores das cinco primeiras componentes principais em

vez das treze variáveis. As 5 primeiras componentes principais retidas explicam 80.1%

da variabilidade total, pelo que alguma informação será perdida.

Na figura 22 encontra-se o dendograma obtido da análise de clusters efetuada, quando

se utilizam os scores das cinco primeiras componentes principais e o critério de Ward.

Fazendo uma primeira análise poderia considerar-se a existência de 5 ou 6 clusters, mas

observando a constituição de cada um deles, rapidamente se constata que não existe

uniformidade quanto à proveniência das amostras. Deste modo, considera-se a divisão

em 3 clusters: cluster1, cluster2 e cluster3, indicados na figura 22. O cluster1 tem na sua

maioria, amostras provenientes do CVL, da Formação de Benfica e das Areolas,

enquanto os cluster2 e cluster3 não apresentam essa homogeneidade de proveniência.

Assim sendo, observa-se, mais uma vez que, o cluster1 tem maioritariamente amostras

provenientes da Formação de Benfica e do CVL, não tendo amostras provenientes das

Aluviões. No cluster1 existem 5 amostras provenientes das Areolas e uma dos Calcários

de Entrecampos. Os cluster2 não apresenta amostras provenientes do CVL e cluster3

não apresenta amostras provenientes da Formação de Benfica nem do CVL. As

amostras Lis 36 e Lis 46 da Formação de Benfica encontram-se no cluster2 e amostras

Lis9 e Lis21 encontram-se no cluster3.

Neste caso, a separação por formação geológica não é tão evidente.

Os clusters obtidos não têm igual dimensão. O cluster1 tem 23 elementos e os clusters2

e cluster3 têm 12 e 13 elementos, respetivamente.

Figura 22: Dendograma (com os scores das 5 primeiras componentes principais) para a amostra global

usando o método de Ward

de Ward com as com os scores das 5 primeiras componentes principais.

cluster3) obtidos quando se utiliza o método de Ward com as 5 primeiras componentes

principais

Na figura 24 encontra-se o dendograma obtido para a análise de clusters efetuada,

quando se utilizam os scores das 5 primeiras componentes principais e o critério de

Complete Linkage. Observando o dendograma são visíveis 3 clusters: cluster1, cluster2

e cluster3. O número de elementos que constituem os clusters é muito diferente. O

cluster1 tem 30 elementos, o cluster2 tem 5 elementos e o cluster3 tem 13 elementos. O

cluster2 é o mais homogéneo, contendo maioritariamente amostras provenientes das

Areolas, embora seja constituído apenas por cinco elementos. Os elementos do cluster3

provêm das Aluviões, dos Calcários de Entrecampos, das Areolas e das Argilas. As

amostras provenientes da Formação de Benfica e do CVL pertencem todas ao cluster1,

mas existem muitos elementos das outras formações geológicas.

Figura 24: Dendograma (com os scores das 5 primeiras componentes principais) para a amostra global

usando o método de Complete Linkage

de Complete Linkage com os scores das com as 5 primeiras componentes principais.

Assim sendo, a separação dos elementos, quer pelas formações geológicas, quer pela

localização geográfica não é evidente.

Analisando os clusters obtidos nestes dois últimos casos, verifica-se que o cluster3 em

ambos os casos é constituído pelos mesmos elementos. Os cluster1 e cluster2 diferem

um pouco.

cluster3) obtidos quando se utiliza o método de Complete Linkage com os scores das 5

primeiras componentes principais

Após se terem analisado os 4 dendogramas, pode concluir-se que não existe uma clara

separação por formação geológica, porém existe uma separação geográfica (visível

quando se utiliza o método de Ward e as variáveis estandardizadas). Também é ponto

comum a separação da Formação de Benfica e do CVL das restantes formações

geológicas, o que reforça a proximidade destas duas formações geológicas. Em

particular estas duas formações geológicas distanciam-se dos Calcários de Entrecampos.

Existindo esta heterogeneidade dentro de cada formação geológica, realizou-se uma

análise de clusters para as amostras provenientes de cada formação geológica. Os

dendogramas obtidos usando o critério de Ward e as variáveis estandardizadas

encontram-se na figura 26.

Aluviões (1) Formação de Benfica (2)

CVL (3) Calcários (4)

Areolas e Areias (5) Argilas (6)

Figura 26: Dendogramas (observações) para cada formação geológica utilizando o método de Ward

(variáveis estandardizadas)

Observando cada um dos seis dendogramas existe uma clara formação de grupos dentro

de cada formação geológica, o que permite concluir que existe alguma heterogeneidade

dentro das formações geológicas. Nas Aluviões são visíveis dois grupos, em que o

primeiro contém as amostras Lis11, Lis16, Lis37 e Lis10 e o segundo contém as

amostras Lis12 e Lis13. Na Formação de Benfica também existe alguma

heterogeneidade, salientando a separação das amostras Lis36 e Lis46 das restantes. Essa

separação também é geográfica (figura 1). No CVL as amostras Lis47 e Lis48 afastam-

se das restantes e curiosamente, quando se realizou a análise de clusters com a amostra

global, usando as treze variáveis estandardizadas e o critério de Ward (ver figura 18)

estas duas amostras não pertenciam ao cluster1, ou seja, apresentam uma menor

proximidade em relação às restantes amostras dessa formação geológica. Nos Calcários

de Entrecampos as amostras Lis1 e Lis2 afastam-se das restantes. Nas Areolas destaca-

se o enorme afastamento da amostra Lis21 em relação às restantes. Esta amostra

apresenta características bastante diferenciadas, quer em relação às restantes amostras

das Areolas, quer em relação à amostra global. Em análises anteriores já tinha sido

referida como outlier (ver diagrama em caixa de bigodes da figura 4), porém as

restantes observações das Areolas apresentam algumas diferenças, sendo possível

separar em dois grupos, um com as amostras Lis 39, Lis41, Lis45, Lis38, Lis40 e Lis20

e o outro com as amostras Lis3, Lis15, Lis4, Lis6 e Lis18. Nas Argilas a amostra Lis9

apresenta-se bastante afastada das demais amostras desta formação. As restantes

amostras revelam alguma proximidade, em particular as amostras Lis22, Lis43 e Lis42.

Capítulo 4: Conclusões

As amostras de água provenientes das Aluviões caracterizam-se por elevadas

concentrações dos iões cálcio, cloreto e brometo, em relação aos restantes grupos de

formações geológicas. As amostras de água provenientes da Formação de Benfica

caracterizam-se por baixas concentrações do ião bicarbonato, elevadas concentrações do

ião nitrato e elevado pH e Eh, em relação aos restantes grupos de formações geológicas.

As amostras de água provenientes do CVL caracterizam-se por baixa condutividade

elétrica, baixas concentrações dos iões cálcio, sódio, potássio, fluoreto, brometo e

sulfato e elevadas concentrações do ião magnésio, em relação aos restantes grupos de

formações geológicas. As amostras de água provenientes dos Calcários de Entrecampos

caracterizam-se por baixo pH e Eh, baixas concentrações do ião magnésio e elevadas

concentrações do ião bicarbonato, em relação aos restantes grupos de formações

geológicas. As amostras de água provenientes das Areolas da Estefânia e Areias do Vale

de Chelas caracterizam-se por elevadas concentrações dos iões sódio e potássio, em

relação aos restantes grupos de formações geológicas. As amostras de água provenientes

das Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres caracterizam-se por

baixas concentrações do ião nitrato, elevada condutividade elétrica e elevadas

concentrações dos iões sulfato e fluoreto, em relação aos restantes grupos de formações

geológicas. Na tabela 17, encontra-se sintetizada toda a informação descrita

anteriormente.

pH C.E. Eh HCO3 Ca Na K Mg F Cl Br NO3 SO4

1 --- --- --- --- E --- --- --- --- E E --- ---

2 E --- E B --- --- --- --- --- --- --- E ---

3 --- B --- --- B B B E B B B --- B

4 B --- B E --- --- --- B --- --- --- --- ---

5 --- --- --- --- --- E E --- --- --- --- --- ---

6 --- E --- --- --- --- --- --- E --- --- B E

1 – Aluviões, 2 – Formação de Benfica, 3 – CVL, 4 – Calcários de Entrecampos, 5 – Areolas da Estefânia

e Areias do Vale de Chelas e 6 – Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres

B – baixa concentração (ou baixo valor) e E – elevada concentração (ou elevado valor)

Tabela 17: Caracterização dos grupos de formações geológicas

De um modo geral, pode concluir-se que as amostras provenientes do CVL e da

Formação de Benfica caracterizam-se por baixas concentrações da maioria das espécies

dissolvidas em relação aos restantes grupos de formações geológicas, embora no CVL

essas concentrações sejam na sua maioria inferiores. Nestas duas formações geológicas

existe um grande número de variáveis, cuja variabilidade em torno da média é reduzida

quando comparada com a variabilidade das variáveis nos outros grupos de formações

geológicas. Nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres, em

oposição, a maioria das variáveis apresenta uma grande variabilidade.

Na tabela 18 encontram-se indicados os outliers severos e moderados, por cada grupo

de formações geológicas e para cada variável em estudo. Existem 25 outliers, mas

apenas, 4 desses outliers são máximos (ou mínimos) na amostra global.

Formações Geológicas

1 2 3 4 5 6

pH Lis30

C.E. Lis21

Eh Lis37 Lis46

Lis24/Lis46 Lis44/Lis47

Lis24 Lis47

Na+ Lis31 Lis21

K+ Lis32 Lis14 Lis9

Lis13 Lis3 Lis7

Lis45 Lis9

Lis2/Lis5 Lis21

Legenda:

Outlier severo superior

Outlier severo inferior

Outlier moderado superior

Outlier moderado inferior

Tabela 18: Tabela resumo dos outliers por cada grupo de formação geológica e por cada variável

Pode concluir-se que as amostras de água provenientes do CVL têm um maior número

de outliers, em particular outliers severos, enquanto nos outros grupos de formações

geológicas o número de outliers é menor. As amostras de água Lis9 e Lis21 aparecem

algumas vezes como outliers. A amostra Lis21 caracteriza-se por valores elevados em

algumas variáveis, nomeadamente na condutividade elétrica, cálcio, sódio, fluoreto,

brometo e sulfato. A amostra Lis12 caracteriza-se por baixos valores em algumas

variáveis, nomeadamente, na condutividade elétrica, Eh, bicarbonato, sódio, cloreto,

nitrato e sulfato. A amostra Lis9, numas vezes surge com valores elevados (pH e

sulfato) e, noutras vezes com valores baixos (bicarbonato, sódio, magnésio e cloreto),

com se pode ver na tabela do anexo 3.

Sobre a qualidade da água para consumo humano pode-se aferir que, das 48 amostras de

água, apenas 8 (Lis7, Lis12, Lis27, Lis29, Lis30, Lis33, Lis36 e Lis44) são

consideradas apropriadas para o consumo humano, embora fosse necessário averiguar

se, do ponto de vista bacteriológico, estariam de acordo com as recomendações da

legislação que regula a qualidade das águas para o consumo humano.

Com o intuito de reduzir a dimensionalidade foi efetuada uma análise em componentes

principais. Nesta análise transformou-se um conjunto de 13 variáveis correlacionadas

num conjunto de 5 variáveis não correlacionadas: as componentes principais. Estas

permitiram descrever a variabilidade dos dados, usando um menor número de variáveis

e perdendo a menor informação possível. Para que a proporção de variância explicada

fosse superior 80% eram necessárias 5 componentes principais. A primeira componente

principal explicava 31.5% da variabilidade total e a segunda componente principal

explicava 15.6% da variabilidade total, ainda não explicada. Assim sendo, as duas

primeiras componentes principais explicavam menos de 50% da variabilidade total.

As variáveis em estudo são bem descritas pelas 5 componentes retidas, com exceção das

variáveis brometo e nitrato, uma vez que as suas comunalidades são inferiores a 0.75.

Quanto à análise fatorial, procedeu-se à validação do modelo obtido e concluiu-se que,

apesar da matriz de correlações ser diferente da matriz identidade, a análise fatorial foi

considerada não aplicável aos dados

Com o objetivo de reagrupar as amostras de água de acordo com a sua composição

química, efetuou-se uma análise de clusters. Com esta análise pretendia-se formar novos

grupos (os clusters), de modo que elementos do mesmo cluster tivessem características

idênticas e elementos de clusters diferentes tivessem características diferentes.

Deste modo, a análise foi dividida em duas partes: na primeira parte utilizaram-se todas

as variáveis (estandardizadas) em estudo e na segunda parte utilizaram-se os scores das

5 primeiras componentes principais. Em ambas as situações foram obtidos 3 clusters,

que se designaram por: cluster1, cluster2 e cluster3.

Analisando os dendogramas e os mapas das localizações geográficas, concluiu-se que as

amostras de água provenientes da Formação de Benfica e do CVL pertenciam,

maioritariamente, ao cluster1 e não tinham representatividade nos outros dois clusters.

Também se observou que as amostras provenientes dos Calcários de Entrecampos não

pertenciam ao cluster1. Assim sendo, concluiu-se que as amostras de água provenientes

da Formação de Benfica e do CVL, tinham características idênticas entre si, ou seja,

tinham idêntica composição química. Quando comparadas as amostras, provenientes da

Formação de Benfica e do CVL com os restantes grupos de formações geológicas era

notória uma diferenciação. Em particular, as amostras de água provenientes dos

Calcários de Entrecampos tinham composição química bastante diferente. Quando se

observou a constituição dos clusters, de um modo geral, os clusters que continham as

amostras de água provenientes da Formação de Benfica e do CVL não tinham amostras

de água provenientes dos Calcários de Entrecampos. Os outros dois clusters eram

constituídos, maioritariamente, por amostras de água provenientes das Aluviões, dos

Calcários de Entrecampos, das Areolas da Estefânia e Areias do Vale de Chelas e das

Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres. Quando se analisou o

mapa das formações geológicas era visível uma proximidade geográfica das amostras de

água que constituíam o cluster3.

Foi efetuada uma análise de clusters para cada grupo de formações geológicas, obtendo-

se os seis dendogramas respetivos. Nas Aluviões, as amostras Lis12 e Lis13

apresentavam uma diferenciação das restantes amostras dessa formação. A amostra

Lis12 era caracterizada por baixas concentrações de espécies dissolvidas. Na Formação

de Benfica as amostras Lis36 e Lis46 apresentavam características que as separavam

das restantes amostras. Essa separação também é geográfica. No CVL as amostras Lis47

e Lis48 apresentavam diferente composição química das restantes amostras do CVL.

Nos Calcários de Entrecampos as amostras Lis1 e Lis2 também tinham uma

diferenciação. Nas Areolas da Estefânia e Areias do Vale de Chelas, a amostra Lis21

apresentava características muito diferentes, mais precisamente, era uma amostra cujas

concentrações dos iões eram bastante elevadas. Nas Argilas do Forno do Tijolo e

Argilas e Calcários dos Prazeres, a amostra Lis9 também apresentava uma diferenciação

em relação às restantes amostras deste grupo.

De um modo geral, e ao contrário do que se poderia esperar, as amostras de água

provenientes do mesmo grupo de formações geológicas não tinham idêntica composição

química. Desta forma, a sua caracterização era muito complexa. Quando se separou o

estudo por formação geológica foi visível essa heterogeneidade. Ao realizar a análise

exploratória verificou-se que existia, para a maioria das variáveis, uma grande

variabilidade, com exceção da Formação de Benfica e do CVL, onde as variáveis

apresentavam menor variabilidade e, consequentemente, maior homogeneidade na

composição química.

Considerações Finais

O principal objetivo do estudo não foi conseguido, nomeadamente, a caracterização de

cada grupo de formações geológicas através da análise das concentrações das espécies

químicas dissolvidas nas águas subterrâneas e dos parâmetros físico-químicos

considerados.

Pretendia-se efetuar uma análise fatorial com o intuito de encontrar um conjunto de

novas variáveis, não correlacionadas, não observadas e em menor número, que

explicassem as correlações existentes entre as variáveis, o que não se verificou. A

reduzida dimensão da amostra impediu a realização de uma análise fatorial com os

dados de cada formação geológica. Segundo (Everitt, 2011), a dimensão da amostra

deveria ser, no mínimo, na proporção de 5 para 1 (5 observações para cada variável

considerada), o que não se verificou nos dados analisados.

Tal como já foi referido anteriormente, a amostra não foi recolhida especificamente para

este trabalho, resultou de um conjunto de amostras que tinham sido recolhidas para a

elaboração de outros trabalhos. Em termos temporais, também não foram recolhidas no

mesmo período. A recolha decorreu entre os anos de 2006 e 2009.

Sendo a água um recurso natural e vital para a sobrevivência da espécie humana, todos

os estudos que se realizem serão de extrema importância. Para que as conclusões

obtidas sejam mais relevantes, o primeiro aspeto a ter em consideração será a seleção da

amostra. Sendo a litologia da cidade de Lisboa tão complexa, a amostra global deverá

ter uma dimensão elevada, bem como cada uma das amostras parciais (por formação

geológica).

Bibliografia

[1] Afifi, A. e Clark, V., (1996), Computer – Aided Multivariate Analysis,

Chapman e Hall, Londres, 3ª edição.

[2] Almeida, C.; Mendonça, J.J.L.; Jesus, M.R.; Gomes, A.J., (2000), Sistemas

Aquíferos de Portugal Continental. Instituto da Água. pp 661.

[3] Almeida, I.M. (1991), Características geotécnicas dos solos de Lisboa.

Dissertação apresentada à Universidade de Lisboa para obtenção do grau de

doutor em Geologia, na especialidade de Geotecnia. FCUL, Lisboa. pp 485.

[4] Anderson, T., (2003), An introduction to multivariate statistical analysis,

Wiley, Nova Jérsia.

[5] Arabie, P. e Hubert, LJ., (1995), Clustering from the perspective of

combinatorial data analysis. In Recent Advances in Descriptive Multivariate

Analysis, p.1 – 13, Oxford Science Publications, Nova Iorque.

[6] Bargmann, R., (1969), Exploratory techniques involving artificial variables.

In Multivariate Analysis – Volume II, p.567 – 580, Academia Press, Nova

Iorque.

[7] Caria, C., Oliveira, J., Henriques, J., Vasconcelos, M., Gonçalves, V., (2009),

Introdução ao Estudo Hidrogeológico da Sub-Bacia Hidrográfica de

Alcântara – Lisboa. Relatório de Projecto da Licenciatura em Geologia

Aplicada e do Ambiente. FCUL. Lisboa. 110 pp.

[8] Cattell, R., (1966), The scree test for the number of factos, Multivariate

Behavioral Research, p. 245-276 in http://dx.doi.org/10.1207/s15327906mbr

0102_10 consultado a 27 de julho de 2011.

[9] Chatfield, C. e Collins, A. J., (1980), Introduction to Multivariate Analysis,

Science Paperbacks, Londres.

[10] David, J., (1973), Statistics and data analysis in Geology, Wiley, Canada.

[11] Everitt, B. e Hothorn, T, (2011), An Introduction to Applied Multivariate

Analysis with R, Springer, Nova Iorque.

[12] Everitt, B., Landau, S. e Leese, M., (2001), Cluster Analysis, Arnold,

Londres.

[13] Flury, B.D., (1995), Developments in principal component analysis. In

Recent Advances in Descriptive Multivariate Analysis, p.14 – 33, Oxford

Science Publications, Nova Iorque.

[14] Flury, B.D., (1997), A first course in Multivariate Analysis, Springer, Nova

Iorque.

[15] Gnanadesikan, R. e Wilk, M.B., (1969), Data Analysis Methods in

Multivariate Statistical Analysis. In Multivariate Analysis – Volume II, p.593

– 638, Academia Press, Nova Iorque.

[16] Gnanadesikan, R., (1997), Methods for Statistical Data Analysis of

Multivariate Observations, Wiley, 2ª edição, Nova Iorque.

[17] Gnanadesikan, R., (2000), Cluster Analysis: an overview of aims, aids and

challenges. In A Estatística em Movimento Actas do VIII Congresso Anual

da Sociedade Portuguesa da Estatística, p. 39 – 57, Edições SPE, Lisboa.

[18] Harman, H., (1976), Modern Factor Analysis, The University of Chicago

Press, 3ªedição, Chicago.

[19] Hotelling, H., (1933), Simplified Calculation of Principal Components,

Psychometrika, vol. 1, No 1, p.27-35.

[20] http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in

+Factor+Analysis, consultado em 25 de setembro de 2013

[21] Jackson, J., (2003), A User’s Guide to Principal Components, Wiley, Nova

Jérsia.

[22] Jobson, J., (1992), Applied Multivariate Data Analysis, Volume II –

Categorical and Multivariate methods, Springer, Nova Iorque.

[23] Johnson, D., (1998), Applied Multivariate Methods for Data Analysts,

Duxbury Press, California.

[24] Jolliffe, I.T., (1986), Principal Component Analysis, Springer, Nova Iorque.

[25] Kendall, M., (1980), Multivariate Analysis, Charles Griffin, Londres.

[26] Krzanowski, W.J., (2003), Principles of Multivariate Analysis, Oxford, Nova

Iorque.

[27] Lopes, P., (2007), Avaliação Quantitativa e Qualitativa das Águas

Subterrâneas da Área Urbana do Lumiar. Dissertação apresentada à

Universidade Técnica de Lisboa para obtenção do grau de Mestre em

Engenharia do Ambiente. Universidade Técnica de Lisboa, Instituto Superior

Técnico. Lisboa, 98 pp.

[28] Manca, F., Ferreira, H., Silva, J., Francisco, L., Gonzalez, V., (2008), Estudo

Hidrogeológico das freguesias de São Domingues de Benfica e Nossa

Senhora de Fátima – Lisboa. Relatório de Projeto da Licenciatura em

Geologia Aplicada e do Ambiente. FCUL. Lisboa. 153 pp e anexos.

[29] Mardia, K., Kent, J. e Bibby, J., (1979), Multivariate Analysis, Academia

Press, Londres.

[30] Maroco, J., (2007), Análise Estatística com utilização do SPSS, Edições

Sílabo, Lisboa.

[31] Maxwell, A.E., (1977), Multivariate Analysis in Behavioural Research,

Chapman e Hall, Nova Iorque.

[32] McGarigal, K., Cushman, S. e Stafford, S., (2000), Multivariate Statistics for

Wildlife and Ecology Research, Springer, Nova Iorque.

[33] Mckillup, S. e Dyar, M., (2010), Geostatistics Explained An Introduction

guide for Earth Scientists, Cambridge, Cambridge.

[34] Monteiro, A., (2001), Álgebra Linear e Geometria Analítica, McGraw-Hill,

Amadora.

[35] Morrison, D., (1990), Multivariate Statistical Methods, McGraw-Hill,

3ªedição, Singapura.

[36] Murteira, B et al, (2007), Introdução à Estatística, 2ª edição, McGraw-Hill,

Lisboa.

[37] Okamoto, M., (1969), Optimality of Principal Components. In Multivariate

Analysis – Volume II, p.673 – 685, Academia Press, Nova Iorque.

[38] Oliveira, M., (2010), Estudo Hidrogeológico da Sub Bacia Hidrográfica de

Alcântara-Lisboa. Dissertação para obtenção do grau de Mestre em Geologia

Aplicada, na especialidade de Hidrogeologia. Faculdade de Ciências da

Universidade de Lisboa, Lisboa, 209 p.

[39] Pais, J., Moniz, C., Cabral, J., Cardoso, J. L., Legoinha, P., Machado, S.,

Morais, M.A., Lourenço C., Ribeiro, M.L., Henriques, P., Falé, P., (2006),

Carta Geológica de Portugal na escala 1: 50.000. Notícia Explicativa da Folha

34-D (Lisboa). Serv. Geol. Portugal, Lisboa. pp 74.

[40] Pestana, D. e Velosa, F., (2002), Introdução à Probabilidade e à Estatística –

Volume I, Fundação Calouste Gulbenkian, Lisboa.

[41] Reis, E., (1997), Estatística Multivariada Aplicada, Edições Sílabo, Lisboa.

[42] Rencher, A.,(1995), Methods of Multivariate Analysis, Wiley, Canada.

[43] Sanches, F., Marques, J., Latas P., Cardoso S., (2006), Breve estudo

hidrogeológico da zona de Telheiras-Lisboa. Relatório de Projeto da

Licenciatura em Geologia Aplicada e do Ambiente. FCUL. Lisboa. 88 pp. e

anexos.

[44] Searle, S., (1982), Matrix Algebra useful for Statistics, Wiley, Nova Iorque.

[45] Sharma, S., (1996), Applied Multivariate Techniques, Wiley, Nova Iorque.

[46] Srivastava, M.S. & Carter, E.M., (1983), An Introduction to Applied

Multivariate Statistics, North Holland, Nova Iorque.

[47] Srivastava, M.S., (2002), Methods of Multivariate Statistics, Wiley, Nova

Iorque.

[48] Stone, J., (2004), Independent Component Analysis – A tutorial introduction,

Londres.

[49] Timm, N. H.,(2002), Applied Multivariate Analysis, Springer, Nova Iorque.

[50] Wackernagel, H., (1995), Multivariate Geostatistics, Springer, Nova Iorque.

[51] Diário da República nº 164, série I - Decreto-Lei nº306/2007 de 27 de Agosto

de 2007, p.5747-5765.

Anexos

Ref Tipo

Formação

Geológica

pH C.E. Eh Ca

mic.zim mV mg/L mg/L mg/L mg/L mg/L mg/L mg/L mg/L mg/L mg/L

Lis1 poço 4 6,85 982 -112 298 85,6 100 25,2 0,0 0,44 64,5 0,00 21,4 115,4

Lis2 poço 4 7,11 1025 -174 210 74,4 138 12,2 14,3 0,47 108,4 0,00 6,9 57,8

Lis3 poço 5 6,50 1273 -115 316 104 167 25,9 15,2 0,62 90,2 3,40 44,9 162

Lis4 poço 5 6,13 1543 -127 384 151 178 8,2 33,9 0,19 87,2 0,45 13,9 158

Lis5 poço 4 6,25 1356 -86 575 126 133 13,5 27,4 0,33 94,6 0,40 39,6 147

Lis6 poço 5 6,26 1067 -258 322 126 98,2 5,6 16,0 0,17 52,6 0,17 29,3 82,9

Lis7 poço 6 6,70 1353 -84 372 75,2 140 9,4 43,3 0,53 123,4 3,20 1,6 37,7

Lis8 poço 6 6,61 1403 -170 472 204 60,5 1,1 42,3 1,00 25,7 0,27 5,2 243

Lis9 poço 6 10,45 930 -125 43 140 9,7 26 3,4 0,11 32,4 0,00 21,4 459,2

Lis10 mina 1 7,17 1580 -135 283 246 74,9 1,6 9,1 0,57 100 0,20 78 176

Lis11 poço 1 8,52 1100 -92 401 192 62 2,9 17,0 0,15 90,3 0,44 56,7 225,4

Lis12 poço 1 6,60 447 -183 214 79,2 19,4 8,9 13,6 0,42 18,5 0,00 0,44 6,1

Lis13 poço 1 6,20 1236 -116 482 129 84 13,8 33,2 0,34 72,7 3,30 19,4 122

Lis14 poço 4 6,65 1492 -153 470 130 99 85,8 37,4 0,14 89 0,00 29,8 127

Lis15 poço 5 6,59 1452 -146 376 131 123 76,6 37,7 0,53 96 1,40 55 142

Lis16 poço 1 8,44 1762 -62,9 401 179 122 3,7 73,5 0,25 158,3 0,32 21,6 226,4

Lis17 mina 4 8,31 1270 -74,7 426 154 89,6 4,9 24,5 0,21 103 0,23 38 127,3

Lis18 nascente 5 8,16 1165 -58,9 334 165 78,7 8,4 18,3 0,49 86,4 0,74 42,7 175,3

Lis19 nascente 4 8,00 1233 -79,4 512 174 89,3 22,5 23,6 0,28 67,9 0,19 46,9 124,9

Lis20 poço 5 8,16 1436 -91,7 427 96 114,7 2,7 69,5 0,27 128,5 0,00 4,45 159,5

Lis21 poço 5 8,31 2220 -90,2 318 240 275,4 9,6 41,3 1,01 157 1,81 6,05 653

Lis22 poço 6 8,59 1871 -81 333 144 147 8,7 91,4 0,21 170,2 0,37 2,49 216

Lis23 poço 2 7,87 1028 172 233 106 72,9 16,6 25,5 0,15 71,8 0,08 206 52,9

Lis24 poço 2 7,19 1184 188 529,5 150 71,3 3,17 42,2 0,12 81,1 0,21 38,5 70

Lis25 poço 2 8,05 1154 197 219,6 84 132 23,3 19,9 0,27 117,8 0,22 119,5 123

Anexo 1: Matriz dos dados

Lis26 poço 2 7,92 1289 202 300,1 96 132 3,83 41,2 0,31 153,7 0,40 152 70,9

Lis27 poço 3 7,43 944 200 401,4 84 51,4 3,61 55,5 0,20 53,9 0,07 13,93 98,3

Lis28 poço 2 7,86 730 227 251,3 67,5 65,3 16,2 29,9 0,14 71,1 0,11 40,1 90,1

Lis29 furo 3 7,44 734 226 367,2 73,3 46,3 2,2 49,9 0,15 45 0,10 4,53 97,6

Lis30 mina 3 8,30 728 165 386,7 67 48,5 0 57,5 0,12 49 0,10 5,52 96,4

Lis31 poço 2 7,98 1244 203 361,1 63,5 217 6,13 36,8 0,15 149 0,26 39 110

Lis32 poço 3 7,58 802 248 396,5 70,3 71,2 16,1 40,1 0,14 57,1 0,09 47,1 55,5

Lis33 poço 2 7,35 834 204 284,3 89 86,1 9,15 20,2 0,10 116,7 0,28 31,8 78,3

Lis34 poço 2 7,39 963 230 295,2 116 73,9 17,8 18,5 0,11 85 0,23 155,6 74

Lis35 poço 2 7,88 975 222 274,5 77,6 121 6,9 27,0 0,35 101,7 0,24 88 112

Lis36 poço 2 7,32 483 195,1 234 80 32 5 6,3 0,24 36,6 0,00 3,8 42,9

Lis37 poço 1 7,38 1473 132,2 381 213 111 3,3 25,4 0,17 191 0,83 118 271

Lis38 poço 5 7,31 1273 101,9 447 181 86 12,9 24,2 0,11 171 0,00 6,5 197

Lis39 mina 5 8,19 892 163,5 358 108 48 58,9 0,9 0,00 55,6 0,00 48,1 87,8

Lis40 poço 5 7,32 1225 98,2 477 169 93 28,1 44,1 0,12 120 0,00 71,3 123

Lis41 poço 5 8,20 996 125,5 383 120 70 56,6 9,7 0,00 68,3 0,00 91,9 95,8

Lis42 poço 6 6,86 1420 131 536 194 175 1,7 33,3 0,31 195 1,10 0 329

Lis43 poço 6 8,01 1642 133,7 559 142 181 2,7 60,3 0,18 74,7 0,00 3,3 57,3

Lis44 nascente 3 7,51 707 186 287 72 23 2,3 42,3 0,00 51,3 0,00 1,4 31,8

Lis45 poço 5 7,48 1465 68,5 397 104 151 109 18,9 0,15 135 0,00 147 130

Lis46 poço 2 7,98 395 75,6 82 40 34 2,8 9,2 0,06 47 0,00 2,6 72,7

Lis47 nascente 3 7,25 993 -19 448 113 99,7 0,6 65,0 0,00 60,8 0,00 49,5 61,6

Lis48 nascente 3 7,60 1005 0 388 86,4 70,7 1,1 65,1 0,14 111 0,00 10,3 60,9

pH C.E. Eh HCO3 Ca Na K Mg F Cl Br NO3 SO4 FormGeol

Média 7,39 1266,33 -76,15 360,33 172,97 78,88 5,70 28,63 ,32 105,13 ,85 49,02 171,15

Aluviões Mínimo 6,20 447,00 -183,00 214,00 79,20 19,40 1,60 9,10 ,15 18,50 ,00 ,44 6,10

Máximo 8,52 1762,00 132,20 482,00 245,60 122,00 13,80 73,50 ,57 191,00 3,30 118,00 271,00

Média 7,71 934,45 192,34 278,61 88,15 94,32 10,08 25,15 ,18 93,77 ,18 79,72 81,53 Formação de

Benfica Mínimo 7,19 395,00 75,60 82,00 40,00 32,00 2,80 6,30 ,06 36,60 ,00 2,60 42,90

Máximo 8,05 1289,00 230,00 529,48 150,00 217,00 23,30 42,20 ,35 153,70 ,40 206,00 123,00

Média 7,59 844,71 143,71 382,12 80,86 58,69 3,70 53,63 ,11 61,16 ,05 18,90 71,73

CVL Mínimo 7,25 707,00 -19,00 287,00 67,00 23,00 ,00 40,10 ,00 45,00 ,00 1,40 31,80

Máximo 8,30 1005,00 248,00 448,00 113,00 99,70 16,10 65,10 ,20 111,00 ,10 49,50 98,30

Média 7,20 1226,33 -113,18 415,17 124,00 108,15 27,35 21,20 ,31 87,90 ,14 30,43 116,57 Calcários de

Entrecampos Mínimo 6,25 982,00 -174,00 210,00 74,40 89,30 4,90 ,00 ,14 64,50 ,00 6,90 57,80

Máximo 8,31 1492,00 -74,70 575,00 174,00 138,00 85,80 37,40 ,47 108,40 ,40 46,90 147,00

Média 7,38 1333,92 -27,44 378,25 141,28 123,58 33,54 27,48 ,31 103,98 ,66 46,76 180,53 Areolas da

Estefânia e Areias

do Vale de Chelas

Mínimo 6,13 892,00 -258,10 316,00 96,00 48,00 2,70 ,90 ,00 52,60 ,00 4,45 82,90

Máximo 8,31 2220,00 163,50 477,00 240,00 275,40 109,00 69,50 1,01 171,00 3,40 147,00 653,00

Média 7,87 1436,50 -32,62 385,83 149,87 118,87 8,27 45,67 ,39 103,57 ,82 5,67 223,70 Argilas do Forno

do Tijolo e Arg. e

Calc. Prazeres

Mínimo 6,61 930,00 -170,00 43,00 75,20 9,70 1,10 3,40 ,11 25,70 ,00 ,00 37,70

Máximo 10,45 1871,00 133,70 559,00 204,00 181,00 26,00 91,40 1,00 195,00 3,20 21,40 459,20

Médio

Elevado

Anexo 2: Caracterização dos grupos de formações geológicas

Amostra Valor

Maiores

valores

1º 9 10,45

Maiores

valores

1º 21 2220

2º 22 8,59

2º 22 1871

3º 11 8,52

3º 16 1762

4º 16 8,44

4º 43 1642

5º 17 8,31

5º 10 1580

Menores

valores

1º 4 6,13

Menores

valores

1º 46 395

2º 13 6,20

2º 12 447

3º 5 6,25

3º 36 483

4º 6 6,26

4º 44 707

5º 3 6,50

5º 30 728

Amostra Valor

Maiores

valores

1º 32 248,0

Maiores

valores

1º 5 575,00

2º 34 230,0

2º 43 559,00

3º 28 227,0

3º 42 536,00

4º 29 226,0

4º 24 529,48

5º 35 222,0

5º 19 512,00

Menores

valores

1º 6 -258,1

Menores

valores

1º 9 43,00

2º 12 -183,0

2º 46 82,00

3º 2 -174,0

3º 2 210,00

4º 8 -170,0

4º 12 214,00

5º 14 -153,0

5º 25 219,60

Amostra Valor

Maiores

valores

1º 10 245,6

Maiores

valores

1º 21 275,4

2º 21 240,0

2º 31 217,0

3º 37 213,0

3º 43 181,0

4º 8 204,0

4º 4 178,0

5º 42 194,0

5º 42 175,0

Menores

valores

1º 46 40,0

Menores

valores

1º 9 9,7

2º 31 63,5

2º 12 19,4

3º 30 67,0

3º 44 23,0

4º 28 67,5

4º 36 32,0

5º 32 70,3

5º 46 34,0

Amostra Valor

K Maiores

valores

1º 45 109,0

Mg Maiores

valores

1º 22 91,4

2º 14 85,8

2º 16 73,5

3º 15 76,6

3º 20 69,5

4º 39 58,9

4º 48 65,1

5º 41 56,6

5º 47 65,0

K Menores

valores

1º 30 ,0

Mg Menores

valores

1º 1 ,0

2º 47 ,6

2º 39 ,9

3º 48 1,1

3º 9 3,4

4º 8 1,1

4º 36 6,3

5º 10 1,6

5º 10 9,1

Amostra Valor

Maiores

valores

1º 21 1,01

Maiores

valores

1º 42 195,0

2º 8 1,00

2º 37 191,0

3º 3 ,62

3º 38 171,0

4º 10 ,57

4º 22 170,2

5º 7 ,53

5º 16 158,3

Menores

valores

1º 47 ,00

Menores

valores

1º 12 18,5

2º 44 ,00

2º 8 25,7

3º 41 ,00

3º 9 32,4

4º 39 ,00

4º 36 36,6

5º 46 ,06

5º 29 45,0

Amostra Valor

Maiores

valores

1º 3 3,40

Maiores

valores

1º 23 206,00

2º 13 3,30

2º 34 155,60

3º 7 3,20

3º 26 152,00

4º 21 1,81

4º 45 147,00

5º 15 1,40

5º 25 119,50

Menores

valores

1º 48 ,00

Menores

valores

1º 42 ,00

2º 47 ,00

2º 12 ,44

3º 46 ,00

3º 44 1,40

4º 45 ,00

4º 7 1,60

5º 44 ,00

5º 22 2,49

Amostra Valor

Maiores

valores

1º 21 653,0

2º 9 459,2

3º 42 329,0

4º 37 271,0

5º 8 243,0

Menores

valores

1º 12 6,1

2º 44 31,8

3º 7 37,7

4º 36 42,9

5º 23 52,9

Anexo 3: Tabelas com os valores extremos (os 5 maiores e os 5 menores valores) para cada variável

Anexo 4: Matriz de correlações de Peason - amostra gobal

pH C.E. Eh Ca

pH 1 -,023 ,254 -,355* ,026 -,144 -,065 ,074 -,266 ,060 -,337

* ,102 ,344

C.E. -,023 1 -,378**

,453**

,691**

,752**

,121 ,390**

,450**

,656**

,326* ,040 ,583

Eh ,254 -,378**

1 -,043 -,375**

-,145 -,092 ,055 -,499**

,063 -,285* ,336

* -,288

* ,453

** -,043 1 ,384

** ,288

* ,047 ,441

** ,009 ,242 ,121 -,134 -,022

,026 ,691**

-,375**

,384**

1 ,263 -,055 ,021 ,385**

,377**

,136 ,037 ,666**

Na+ -,144 ,752

** -,145 ,288

* ,263 1 ,060 ,248 ,398

** ,664

** ,384

** ,033 ,395

K+ -,065 ,121 -,092 ,047 -,055 ,060 1 -,275 -,096 -,004 -,005 ,325

* -,019

,074 ,390**

,055 ,441**

,021 ,248 -,275 1 -,038 ,285* ,010 -,261 ,015

-,266 ,450**

-,499**

,009 ,385**

,398**

-,096 -,038 1 ,091 ,491**

-,166 ,453**

,060 ,656**

,063 ,242 ,377**

,664**

-,004 ,285* ,091 1 ,215 ,173 ,379

-,337* ,326

* -,285

* ,121 ,136 ,384

** -,005 ,010 ,491

** ,215 1 -,100 ,228

,102 ,040 ,336

* -,134 ,037 ,033 ,325

* -,261 -,166 ,173 -,100 1 -,130

* ,583

** -,288

* -,022 ,666

** ,395

** -,019 ,015 ,453

** ,379

** ,228 -,130 1

*. Correlation is significant at the 0.05 level (2-tailed).

**. Correlation is significant at the 0.01 level (2-tailed).

Anexo 5: Matriz de correlações de Pearson - Aluviões

pH C.E. Eh Ca

pH 1 ,429 ,267 ,168 ,486 ,389 -,744 ,401 -,556 ,502 -,536 ,224 ,678

C.E. ,429 1 ,479 ,491 ,780 ,912* -,473 ,537 -,111 ,814

* ,076 ,480 ,796

Eh ,267 ,479 1 ,371 ,474 ,690 -,351 ,207 -,631 ,877* ,040 ,769 ,762

,168 ,491 ,371 1 ,160 ,645 ,262 ,491 -,576 ,422 ,735 ,090 ,531

,486 ,780 ,474 ,160 1 ,570 -,792 -,041 -,037 ,684 -,235 ,812* ,815

Na+ ,389 ,912

* ,690 ,645 ,570 1 -,288 ,697 -,400 ,910

* ,217 ,437 ,810

K+ -,744 -,473 -,351 ,262 -,792 -,288 1 ,035 ,115 -,546 ,762 -,627 -,646

,401 ,537 ,207 ,491 -,041 ,697 ,035 1 -,368 ,486 ,122 -,292 ,327

-,556 -,111 -,631 -,576 -,037 -,400 ,115 -,368 1 -,498 -,090 -,225 -,578

,502 ,814* ,877

* ,422 ,684 ,910

* -,546 ,486 -,498 1 -,069 ,692 ,902

-,536 ,076 ,040 ,735 -,235 ,217 ,762 ,122 -,090 -,069 1 -,148 -,062

,224 ,480 ,769 ,090 ,812

* ,437 -,627 -,292 -,225 ,692 -,148 1 ,734

,678 ,796 ,762 ,531 ,815

* ,810 -,646 ,327 -,578 ,902

* -,062 ,734 1

Anexo 6: Matriz de correlações de Pearson - Formação de Benfica

pH C.E. Eh Ca

pH 1 ,158 -,243 -,512 -,634* ,466 ,219 ,102 ,291 ,334 ,044 ,255 ,543

C.E. ,158 1 ,479 ,650* ,522 ,753

** ,165 ,816

** ,338 ,809

** ,795

** ,557 ,408

Eh -,243 ,479 1 ,503 ,387 ,362 ,362 ,376 ,415 ,401 ,538 ,275 ,268

-,512 ,650

* ,503 1 ,758

** ,326 -,213 ,743

** ,018 ,353 ,498 ,005 ,039

-,634* ,522 ,387 ,758

** 1 -,099 ,094 ,442 -,008 ,064 ,332 ,410 -,295

Na+ ,466 ,753

** ,362 ,326 -,099 1 ,037 ,577 ,340 ,884

** ,674

* ,192 ,692

K+ ,219 ,165 ,362 -,213 ,094 ,037 1 -,169 ,000 ,017 -,014 ,541 ,313

,102 ,816**

,376 ,743**

,442 ,577 -,169 1 ,174 ,647* ,669

* ,249 ,259

,291 ,338 ,415 ,018 -,008 ,340 ,000 ,174 1 ,346 ,363 ,287 ,306

,334 ,809**

,401 ,353 ,064 ,884**

,017 ,647* ,346 1 ,909

** ,302 ,565

,044 ,795**

,538 ,498 ,332 ,674* -,014 ,669

* ,363 ,909

** 1 ,354 ,422

,255 ,557 ,275 ,005 ,410 ,192 ,541 ,249 ,287 ,302 ,354 1 -,018

,543 ,408 ,268 ,039 -,295 ,692

* ,313 ,259 ,306 ,565 ,422 -,018 1

pH C.E. Eh Ca

pH 1 -,451 ,199 -,127 -,603 -,312 -,122 ,015 ,198 -,079 ,447 -,386 ,307

C.E. -,451 1 -,742 ,681 ,804* ,738 -,141 ,732 ,109 ,669 -,508 ,433 -,007

Eh ,199 -,742 1 -,447 -,800* -,648 ,524 -,845

* ,410 -,678 ,739 -,247 ,235

-,127 ,681 -,447 1 ,635 ,890

** ,058 ,616 ,227 ,181 ,106 ,683 ,404

-,603 ,804* -,800

* ,635 1 ,767

* -,319 ,682 -,380 ,308 -,609 ,549 -,127

Na+ -,312 ,738 -,648 ,890

** ,767

* 1 ,127 ,567 -,090 ,382 -,238 ,827

* -,023

K+ -,122 -,141 ,524 ,058 -,319 ,127 1 -,670 ,279 -,125 ,331 ,542 -,250

,015 ,732 -,845* ,616 ,682 ,567 -,670 1 -,006 ,540 -,351 ,047 ,307

,198 ,109 ,410 ,227 -,380 -,090 ,279 -,006 1 ,109 ,649 -,196 ,681

-,079 ,669 -,678 ,181 ,308 ,382 -,125 ,540 ,109 1 -,561 ,018 -,280

,447 -,508 ,739 ,106 -,609 -,238 ,331 -,351 ,649 -,561 1 -,118 ,727

-,386 ,433 -,247 ,683 ,549 ,827

* ,542 ,047 -,196 ,018 -,118 1 -,253

,307 -,007 ,235 ,404 -,127 -,023 -,250 ,307 ,681 -,280 ,727 -,253 1

Anexo 7: Matriz de correlações de Pearson - Complexo Vulcânico de Lisboa

Anexo 8: Matriz de correlações de Pearson - Calcários de Entrecampos

pH C.E. Eh Ca

pH 1 -,143 ,426 -,060 ,559 -,622 -,386 -,023 -,234 ,002 ,047 ,319 -,085

C.E. -,143 1 ,168 ,797 ,612 -,197 ,566 ,953**

-,887* ,186 ,392 ,596 ,650

Eh ,426 ,168 1 ,638 ,705 -,473 -,458 ,048 -,267 -,327 ,760 ,844* ,736

-,060 ,797 ,638 1 ,779 -,250 ,180 ,692 -,660 -,170 ,748 ,907

* ,886

,559 ,612 ,705 ,779 1 -,641 ,042 ,606 -,745 -,185 ,541 ,928**

Na+ -,622 -,197 -,473 -,250 -,641 1 -,251 -,097 ,586 ,537 ,116 -,538 -,434

K+ -,386 ,566 -,458 ,180 ,042 -,251 1 ,490 -,554 -,198 -,475 -,018 ,177

-,023 ,953**

,048 ,692 ,606 -,097 ,490 1 -,840* ,360 ,350 ,503 ,432

-,234 -,887* -,267 -,660 -,745 ,586 -,554 -,840

* 1 -,062 -,207 -,634 -,613

,002 ,186 -,327 -,170 -,185 ,537 -,198 ,360 -,062 1 ,157 -,324 -,349

,047 ,392 ,760 ,748 ,541 ,116 -,475 ,350 -,207 ,157 1 ,712 ,641

,319 ,596 ,844

* ,907

* ,928

** -,538 -,018 ,503 -,634 -,324 ,712 1 ,851

-,085 ,650 ,736 ,886

* ,651 -,434 ,177 ,432 -,613 -,349 ,641 ,851

pH C.E. Eh Ca

pH 1 ,050 ,567 ,080 ,176 -,134 ,059 ,048 ,045 ,229 -,271 ,081 ,325

C.E. ,050 1 -,337 -,133 ,613* ,927

** -,152 ,558 ,755

** ,649

* ,372 -,277 ,871

Eh ,567 -,337 1 ,521 -,027 -,435 ,421 -,305 -,516 ,183 -,442 ,433 -,168

,080 -,133 ,521 1 -,026 -,345 ,097 ,440 -,549 ,452 -,596

* ,132 -,302

,176 ,613* -,027 -,026 1 ,485 -,422 ,201 ,517 ,519 ,116 -,410 ,786

Na+ -,134 ,927

** -,435 -,345 ,485 1 -,146 ,359 ,769

** ,451 ,567 -,213 ,804

K+ ,059 -,152 ,421 ,097 -,422 -,146 1 -,350 -,247 -,079 -,110 ,854

** -,294

,048 ,558 -,305 ,440 ,201 ,359 -,350 1 ,294 ,531 -,038 -,391 ,314

,045 ,755**

-,516 -,549 ,517 ,769**

-,247 ,294 1 ,321 ,779**

-,339 ,797**

,229 ,649* ,183 ,452 ,519 ,451 -,079 ,531 ,321 1 ,019 -,146 ,568

-,271 ,372 -,442 -,596* ,116 ,567 -,110 -,038 ,779

** ,019 1 -,184 ,398

,081 -,277 ,433 ,132 -,410 -,213 ,854

** -,391 -,339 -,146 -,184 1 -,387

,325 ,871

** -,168 -,302 ,786

** ,804

** -,294 ,314 ,797

** ,568 ,398 -,387 1

Anexo 9: Matriz de correlações de Pearson - Areolas da Estefânia e Areias do Vale de Chelas

pH C.E. Eh Ca

pH 1 -,344 -,186 -,805 -,163 -,508 ,849* -,250 -,697 -,296 -,535 ,831

* ,554

C.E. -,344 1 ,320 ,609 ,062 ,736 -,655 ,974**

-,020 ,524 -,069 -,755 -,567

Eh -,186 ,320 1 ,612 ,115 ,778 -,442 ,140 -,476 ,497 -,049 -,452 -,236

-,805 ,609 ,612 1 ,334 ,764 -,973

** ,450 ,341 ,336 ,106 -,862

* -,583

-,163 ,062 ,115 ,334 1 -,116 -,413 -,077 ,319 -,069 -,626 -,049 ,502

Na+ -,508 ,736 ,778 ,764 -,116 1 -,681 ,625 -,216 ,737 ,293 -,859

* -,641

K+ ,849

* -,655 -,442 -,973

** -,413 -,681 1 -,517 -,484 -,328 -,093 ,880

* ,537

-,250 ,974**

,140 ,450 -,077 ,625 -,517 1 -,018 ,456 -,029 -,662 -,582

-,697 -,020 -,476 ,341 ,319 -,216 -,484 -,018 1 -,323 ,224 -,284 -,196

-,296 ,524 ,497 ,336 -,069 ,737 -,328 ,456 -,323 1 ,384 -,652 -,141

-,535 -,069 -,049 ,106 -,626 ,293 -,093 -,029 ,224 ,384 1 -,422 -,481

* -,755 -,452 -,862

* -,049 -,859

* ,880

* -,662 -,284 -,652 -,422 1 ,673

,554 -,567 -,236 -,583 ,502 -,641 ,537 -,582 -,196 -,141 -,481 ,673 1

Anexo 10: Matriz de correlações de Pearson - Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres

Scores

Amostra Componentes

1 2 3 4 5

1 -,249 -1,386 -,846 ,293 ,255

2 -,099 -1,359 -,811 -,962 -,587

3 1,046 -1,916 -1,252 -1,796 -,270

4 ,811 -,811 ,515 -,254 ,682

5 ,769 -,613 ,427 -,346 1,437

6 -,377 -1,418 ,296 ,466 ,347

7 ,722 -1,666 ,895 -2,473 -,600

8 1,205 -1,500 ,795 1,785 ,202

9 -,560 -,246 -1,533 3,266 -1,469

10 ,767 -,722 -1,082 1,503 -,427

11 ,245 ,496 -,127 1,714 -,465

12 -1,438 -2,528 ,187 ,123 -,551

13 ,766 -1,962 ,398 -,360 ,796

14 ,384 -,575 -,131 ,449 2,759

15 1,007 -1,432 -1,181 -,999 1,259

16 1,388 1,076 1,138 ,581 -,572

17 ,328 ,301 -,074 ,788 -,452

18 ,559 -,552 -,512 ,751 -1,225

19 ,263 ,125 -,015 1,347 ,761

20 ,520 ,556 1,454 -,309 -,170

21 2,759 ,171 -,494 ,062 -2,327

22 1,504 1,213 ,900 -,149 -,937

23 -1,087 ,959 -1,268 -,380 -,250

24 -,312 ,472 1,196 ,313 ,976

25 -,187 ,925 -1,658 -1,068 -,443

26 ,027 1,511 -,523 -1,734 -,655

27 -,842 ,007 1,560 ,176 ,030

28 -1,303 ,376 -,173 -,396 -,662

29 -1,293 -,038 1,147 ,020 -,236

30 -1,302 ,526 1,363 ,203 -,715

31 ,244 1,223 ,085 -1,621 -,647

32 -,973 ,411 ,732 -,433 ,592

33 -,609 ,404 -,167 -,861 -,668

34 -,694 ,821 -1,175 -,549 ,144

35 -,272 ,661 -,620 -1,296 -1,114

36 -1,620 -,696 -,187 ,082 -1,152

37 1,091 1,293 -1,083 ,594 -,484

38 ,561 ,884 -,118 ,874 ,313

39 -1,391 ,328 -1,099 ,639 1,446

40 ,304 1,135 ,078 ,484 1,515

41 -,945 ,787 -1,723 ,402 1,744

42 1,693 ,425 ,488 ,394 -,316

43 ,491 1,008 1,801 ,018 ,950

44 -1,612 -,132 1,396 -,155 -,353

45 ,361 1,237 -1,832 -,994 2,160

46 -2,004 -,370 -,297 ,172 -1,409

47 -,288 ,207 1,605 -,029 ,916

48 -,356 ,383 1,526 -,334 -,129

Anexo 11: Scores das 5 primeiras componentes principais

anÁlise estatÍstica multivariada aplicada a dados … · 2018-10-26 · tabela 16: medida de...

Documents

r multivariada

cálculo amostral

multivariada - ufla

estadística multivariada

analise multivariada

regressão multipla - análise multivariada

distribuição da proporção amostral. uma distribuição...

análise multivariada no statistica

amostragem - peso amostral

distribuição amostral da média

análise multivariada - trabalho

suficiência amostral - ufrgs

regressão multivariada

avaliação amostral da aprendizagem dos estudantes o...

sÉrie: estatística básica1.2. distribuição amostral dos...

analise ´ estatistica multivariada · analise estat´...

aula 9 – distribuição amostral

pdtu 2013 - plano amostral

geovisualização multivariada

análise multivariada - aquifero cabeças