anÁlise estatÍstica multivariada aplicada a dados … · 2018-10-26 · tabela 16: medida de...
Post on 12-Jun-2020
1 Views
Preview:
TRANSCRIPT
1
UNIVERSIDADE DE LISBOA
FACULDADE DE CIÊNCIAS
DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL
ANÁLISE ESTATÍSTICA MULTIVARIADA APLICADA A
DADOS HIDROGEOLÓGICOS
Vânia Sofia Pires Simões Gomes
Dissertação
Mestrado em Estatística
2013
2
UNIVERSIDADE DE LISBOA
FACULDADE DE CIÊNCIAS
DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇÃO OPERACIONAL
ANÁLISE ESTATÍSTICA MULTIVARIADA APLICADA A
DADOS HIDROGEOLÓGICOS
Vânia Sofia Pires Simões Gomes
Dissertação orientada pela Prof.ª Doutora Fernanda Diamantino e
coorientada pela Prof.ª Doutora Catarina Silva
Mestrado em Estatística
2013
3
i
Índice
Índice de Figuras ............................................................................................................. iii
Índice de Tabelas .............................................................................................................. v
Índice de Anexos ............................................................................................................. vi
Resumo ........................................................................................................................... vii
Abstract ............................................................................................................................ ix
Capítulo 1: Introdução ...................................................................................................... 1
1.1. Objetivos do estudo ........................................................................................... 1
1.2. Enquadramento geológico ................................................................................. 6
Capítulo 2: Metodologia ................................................................................................... 9
2.1. Conceitos de álgebra matricial ............................................................................... 9
2.1.1. Conceito de matriz .......................................................................................... 9
2.1.2. Tipos de matrizes ............................................................................................ 9
2.1.3. Igualdade de matrizes .................................................................................... 10
2.1.4. Operações com matrizes................................................................................ 11
2.1.5. Traço de uma matriz ...................................................................................... 11
2.1.6. Vetores linearmente dependentes e independentes ....................................... 11
2.1.7. Característica de uma matriz ......................................................................... 12
2.1.8. Determinante ................................................................................................. 12
2.1.9. Matriz adjunta e matriz inversa ..................................................................... 13
2.1.10. Matriz ortogonal .......................................................................................... 13
2.1.11. Valores próprios e vetores próprios ............................................................ 13
2.1.12. Decomposição espetral ................................................................................ 14
2.2. Características amostrais .................................................................................. 15
2.2.1. Características amostrais univariadas ....................................................... 15
2.2.2. Características amostrais bivariadas ......................................................... 16
2.3. Técnicas de Análise Multivariada .................................................................... 18
2.3.1. Análise em Componentes Principais ........................................................ 19
2.3.1.1. Introdução ............................................................................................... 19
2.3.1.2. O modelo matemático ............................................................................. 20
2.3.1.3. Número de componentes a reter ............................................................. 22
ii
2.3.2. Análise Fatorial ........................................................................................ 23
2.3.2.1. Introdução ............................................................................................... 23
2.3.2.2. O modelo matemático ............................................................................. 23
2.3.2.3. Número de fatores a reter ....................................................................... 24
2.3.2.4. Rotação dos fatores ................................................................................. 25
2.3.2.5. Método de extração dos fatores .............................................................. 26
2.3.2.6. Validação do modelo de análise fatorial................................................. 27
2.3.2.7. Análise em Componentes Principais versus Análise Fatorial ................ 28
2.3.3. Análise de Clusters ................................................................................... 29
2.3.3.1. Introdução.......................................................................................... 29
2.3.3.2. Medidas de proximidade ................................................................... 30
2.3.3.3. Métodos de agregação ....................................................................... 32
2.3.3.4. Critérios de agregação ....................................................................... 33
Capítulo 3: Análise de dados hidrogeológicos ............................................................... 35
3.1. Análise Exploratória dos Dados ...................................................................... 39
3.1.1. Características amostrais .......................................................................... 39
3.1.2. Correlação linear de Pearson .................................................................... 45
3.1.3. Representações gráficas ............................................................................ 47
3.2. Análise Multivariada ........................................................................................ 63
3.2.1. Análise em Componentes Principais ........................................................ 63
3.2.2. Análise Fatorial ........................................................................................ 71
3.2.3. Análise de Clusters ................................................................................... 78
Capítulo 4: Conclusões ................................................................................................... 89
Considerações Finais ...................................................................................................... 95
Bibliografia ..................................................................................................................... 97
Anexos .......................................................................................................................... 101
iii
Índice de Figuras
Figura 1: Localização geográfica das amostras de água e respetivas formações
geológicas ....................................................................................................... 4
Figura 2: Localização geográfica das amostras de água ................................................ 36
Figura 3: Localização geográfica das amostras de água e respetivas formações
geológicas ....................................................................................................... 37
Figura 4: Diagramas em caixa de bigodes paralelos de cada variável comparando
cada formação geológica ................................................................................. 48
Figura 5: Diagramas em caixa de bigodes paralelos de cada formação geológica,
para cada ião.................................................................................................... 51
Figura 6: Diagramas de dispersão das observações reorganizadas versus cada uma
das variáveis em estudo .................................................................................. 54
Figura 7: Matriz de diagramas de dispersão para cada formação geológica com as
variáveis condutividade elétrica, cálcio, sódio e cloreto ................................. 58
Figura 8: Matriz de diagramas de dispersão para cada formação geológica com as
variáveis bicarbonato, cálcio e magnésio ........................................................ 60
Figura 9: Matriz de diagramas de dispersão para cada formação geológica com as
variáveis bicarbonato, cálcio e sulfato ............................................................ 61
Figura 10: Diagrama de dispersão para cada formação geológica com as variáveis
nitrato e sulfato ............................................................................................... 62
Figura 11: Scree plot (número de componentes principais versus valores próprios) ..... 65
Figura 12: Representação gráfica dos loadings das duas primeiras componentes
principais....................................................................................................... 67
Figura 13: Representação gráfica dos scores (observações) das duas primeiras
componentes principais ................................................................................ 68
Figura 14: Representação gráfica dos scores (formações geológicas) das duas
primeiras componentes principais ................................................................ 69
Figura 15: Representação gráfica (biplot) dos loadings e dos scores (observações)
das duas primeiras componentes principais .................................................. 70
Figura 16: Representação gráfica (biplot) dos loadings e dos scores (formações
geológicas) das duas primeiras componentes principais .............................. 70
Figura 17: Representação gráfica dos loadings dos 2 primeiros fatores ........................ 75
iv
Figura 18: Dendograma (variáveis estandardizadas) para a amostra global
utilizando o método de Ward ........................................................................ 79
Figura 19: Localização geográfica das amostras de água que constituem os clusters
(cluster1, cluster2 e cluster3) obtidos quando se utiliza o método de
Ward com as variáveis estandardizadas ....................................................... 79
Figura 20: Dendograma (variáveis estandardizadas) para a amostra global
utilizando o método de Complete Linkage ................................................ 80
Figura 21: Localização geográfica das amostras de água que constituem os clusters
(cluster1, cluster2 e cluster3) obtidos quando se utiliza o método de
Complete Linkage com as variáveis estandardizadas ................................... 81
Figura 22: Dendograma (com os scores das 5 primeiras componentes principais)
para a amostra global usando o método de Ward ......................................... 83
Figura 23: Localização geográfica das amostras de água que constituem os clusters
(cluster1, cluster2 e cluster3) obtidos quando se utiliza o método de
Ward com as 5 primeiras componentes principais ....................................... 84
Figura 24: Dendograma (com os scores das 5 primeiras componentes principais)
para a amostra global usando o método de Complete Linkage .................... 85
Figura 25: Localização geográfica das amostras de água que constituem os clusters
(cluster1, cluster2 e cluster3) obtidos quando se utiliza o método de
Complete Linkage com os scores das 5 primeiras componentes
principais....................................................................................................... 86
Figura 26: Dendogramas (observações) para cada formação geológica utilizando o
método de Ward (variáveis estandardizadas) ............................................... 87
v
Índice de Tabelas
Tabela 1: Escala de avaliação da análise fatorial............................................................ 27
Tabela 2: Proveniência das amostras .............................................................................. 38
Tabela 3: Características amostrais das variáveis (amostra global) ............................... 39
Tabela 4: Características amostrais (média e desvio padrão) das variáveis em cada
grupo de formações geológica ........................................................................ 44
Tabela 5: Valores próprios da matriz de correlações amostral ....................................... 63
Tabela 6: Proporção de variância explicada por cada componente e proporção de
variância acumulada explicada até à componente j. ....................................... 64
Tabela 7: Matriz dos loadings das componentes principais ........................................... 66
Tabela 8: Valores próprios da matriz de correlações amostral ....................................... 71
Tabela 9: Proporção de variância explicada por cada fator e proporção de variância
acumulada pelo fator j ..................................................................................... 72
Tabela 10: Comunalidades iniciais e extraídas através do método das componentes
principais....................................................................................................... 73
Tabela 11: Matriz dos loadings (sem rotação dos fatores) ............................................. 73
Tabela 12: Matriz da transformação ortogonal obtida pelo método de rotação
varimax ....................................................................................................... 74
Tabela 13: Matriz dos loadings (após rotação varimax) ................................................ 74
Tabela 14: Designação dos fatores ................................................................................. 75
Tabela 15: KMO e teste de esfericidade de Bartlett ....................................................... 76
Tabela 16: Medida de adequação amostral para cada variável (MSA) .......................... 77
Tabela 17: Caracterização dos grupos de formações geológicas.................................... 89
Tabela 18: Tabela resumo dos outliers por cada grupo de formação geológica e por
cada variável ................................................................................................. 90
vi
Índice de Anexos
Anexo 1: Matriz dos dados ............................................................................................ 104
Anexo 2: Caracterização dos grupos de formações geológicas .................................... 105
Anexo 3: Tabelas com os valores extremos (os 5 maiores e os 5 menores valores)
para cada variável.......................................................................................... 107
Anexo 4: Matriz de correlações de Peason - amostra gobal.......................................... 108
Anexo 5: Matriz de correlações de Pearson - Aluviões ................................................ 109
Anexo 6: Matriz de correlações de Pearson - Formação de Benfica............................. 110
Anexo 7: Matriz de correlações de Pearson - Complexo Vulcânico de Lisboa ............ 111
Anexo 8: Matriz de correlações de Pearson - Calcários de Entrecampos ..................... 112
Anexo 9: Matriz de correlações de Pearson - Areolas da Estefânia e Areias do Vale
de Chelas ....................................................................................................... 113
Anexo 10: Matriz de correlações de Pearson - Argilas do Forno do Tijolo e Argilas
e Calcários dos Prazeres ................................................................................ 114
Anexo 11: Scores das 5 primeiras componentes principais .......................................... 116
vii
Resumo
Para o presente estudo utilizaram-se análises químicas de 48 amostras de água
subterrânea da cidade de Lisboa das quais se selecionaram 13 variáveis referentes a
espécies dissolvidas (aniões e catiões) e parâmetros físico-químicos.
Este estudo teve como objetivo avaliar a existência de relação entre a composição
química da água subterrânea e as formações geológicas por onde esta circulou, ou seja,
pretendeu-se identificar as espécies dissolvidas que caracterizavam cada formação
geológica, bem como, identificar o que distinguia cada uma das formações geológicas.
Deste modo, numa fase inicial procedeu-se a uma análise exploratória com o intuito de
caracterizar a amostra global e as amostras parciais (correspondentes a cada formação
geológica) e, numa fase final procedeu-se a uma análise multivariada, onde se
utilizaram técnicas de redução de dimensionalidade (análise em componentes principais
e análise fatorial) e técnicas de agrupamento de dados (análise de clusters).
Concluiu-se que as amostras provenientes da Formação de Benfica e do Complexo
Vulcânico de Lisboa tinham composição química idêntica. Relativamente às restantes
formações geológicas, não existia uma homogeneidade entre amostras provenientes da
mesma formação, nem entre amostras provenientes de formações distintas, pelo que, a
caracterização das formações geológicas tornou-se muito complexa.
Como os valores das correlações de Pearson, entre as variáveis, eram baixos, a
aplicação das técnicas de redução de dimensionalidade não surtiu o efeito desejado.
Palavras – chave: Água subterrânea, análise exploratória, análise em componentes
principais, análise fatorial, análise de clusters.
viii
ix
Abstract
For the present study we used chemical analyzes of 48 groundwater samples of Lisbon
in which was selected 13 variables related to dissolved species (anions and cations) and
physico-chemical parameters.
This study aims to evaluate whether there is a relationship between the chemical
composition of the groundwater and the geological formations where it circulated, this
is, it was intended to identify the dissolved species that characterize each geological
formation, as well as to identify what distinguishes each geological formations.
Thus, initially we proceeded with an exploratory analysis in order to characterize the
sample and partial samples (corresponding to each geological formation), and in a final
stage, we applied a multivariate analysis, where techniques were used to reduce the
dimensionality (principal component analysis and factor analysis) and techniques to
data clustering (cluster analysis).
It was concluded that the samples from the Formação de Benfica and Complexo
Vulcânico de Lisboa had identical chemical composition. For the other geological
formations, there was no homogeneity among samples from the same formation, or
between samples from different formations. Therefore, the characterization of the
geologic formations has become very complex.
Since the values of the Pearson correlations among the variables were low, the
application of reduce the dimensionality techniques do not have the desired effect.
Keywords: Groundwater, exploratory analysis, principal component analysis, factor
analysis, cluster analysis
x
1
Capítulo 1: Introdução
Este trabalho surge com o intuito de dar resposta a algumas questões relativas à
caracterização de águas subterrâneas da cidade de Lisboa, tendo como ponto de partida
um conjunto de 48 análises de águas subterrâneas recolhidas não especificamente para
este trabalho. Este conjunto resultou de recolhas para a concretização de unidades
curriculares do 1º ciclo de estudos em Geologia da FCUL (Caria et al, 2009, Manca et
al, 2008 e Sanches et a,l 2006) e 2º ciclo de estudos em Geologia Aplicada e do
Ambiente da FCUL (Oliveira, 2010) e em Engenharia do Ambiente do IST (Lopes,
2007). A localização geográfica de, cada amostra de água encontra-se na figura 1, onde
se pode observar a que formação geológica corresponde.
1.1. Objetivos do estudo
Para a realização deste trabalho foram definidos alguns objetivos, nomeadamente:
Calcular, analisar e interpretar as características amostrais;
Aferir sobre a qualidade das águas subterrâneas para consumo humano;
Analisar e interpretar as representações gráficas (análise exploratória);
Identificar as espécies dissolvidas que caracterizam cada formação geológica;
Relacionar a composição química da água subterrânea com a formação
geológica aflorante no local de recolha;
Descrever a variabilidade dos dados com um menor número de variáveis não
correlacionadas;
Explicar através de um menor número de fatores (não observados) as
correlações entre as variáveis;
Utilizar uma análise de clusters para reagrupar as amostras de água subterrânea
de acordo com a sua composição química;
Identificar características distintivas de cada uma das formações geológicas;
Identificar características comuns entre as formações geológicas.
2
3
Destaca-se como objetivo principal a caracterização de cada grupo de formações
geológicas, através da análise das concentrações das espécies químicas dissolvidas nas
águas subterrâneas, bem como de alguns parâmetros físico-químicos.
O trabalho será dividido em duas partes. A primeira parte será constituída pelos
capítulos 1 e 2 e corresponderá ao desenvolvimento teórico. A segunda parte será
constituída pelos capítulos 3 e 4 e corresponderá ao desenvolvimento prático.
No capítulo 1 será feito o enquadramento geológico, no qual se fará uma breve
introdução às características das formações geológicas.
No capítulo 2 será abordada a metodologia a desenvolver. Na primeira secção irão
definir-se alguns conceitos de álgebra matricial. Na segunda secção, com o intuito de se
efetuar uma análise exploratória dos dados, irão definir-se algumas características
amostrais. Na terceira e última secção será feita uma breve abordagem das técnicas de
análise multivariada a serem utilizadas, nomeadamente a análise em componentes
principais, a análise fatorial e a análise de clusters.
No capítulo 3 serão apresentados os resultados obtidos.
No capítulo 4 serão apresentadas as conclusões.
A análise estatística será efetuada com a utilização do software SPSS, versão 19.
4
Figura 1: Localização geográfica das amostras de água e respetivas formações geológicas
5
6
1.2. Enquadramento geológico
A composição química da água subterrânea da área de Lisboa está intimamente
relacionada com as características do meio geológico, das condições climáticas e
também das atividades humanas que decorrem na cidade.
O Concelho de Lisboa situa-se na Orla mesocenozóica, a qual é constituída por espessas
séries de sedimentos, onde predominam os sedimentos carbonatados, os arenitos e os
argilitos (Almeida et al., 2000).
Na área do concelho de Lisboa os terrenos mais antigos, cujos principais afloramentos
se encontram nas zonas de Monsanto, Ajuda e Vale de Alcântara, são
predominantemente constituídos por calcários, calcários margosos e margas. A geologia
de Lisboa, de elevada complexidade, pode ser descrita de um modo simplificado em três
setores: Setor SW, Monsanto-Ajuda-Alcântara; Setor NW, Formação de Benfica e
Miocénico; Setor E, Série Miocénica.
Setor SW: Monsanto-Ajuda-Alcântara
As formações calcárias do Cenomaniano, que se apresentam dobradas e fraturadas
(Cabral, 2006), estão sobrepostas por formações basálticas do Complexo Vulcânico de
Lisboa (β1). Neste setor, as formações cretácicas estendem-se desde a zona central e
mais elevada da Serra de Monsanto, seguindo pelo Vale de Alcântara até praticamente
ao Rio Tejo, prolongando-se para SW ao longo da encosta do Bairro da Ajuda,
aflorando no seio do Complexo Vulcânico de Lisboa (Pais et al., 2006).
Esta zona compreende formações do Cretácico superior, como a Formação de Caneças
(C2 cn), constituída por calcários margosos e dolomíticos, datados do Albiano superior a
Cenomaniano médio. Sobre a formação anterior, assenta a Formação de Bica (C2 Bi), do
Cenomaniano superior, representada por calcários compactos e apinhoados, com
nódulos de sílex e com rudistas. No topo do Cretácico superior aflora o Complexo
Vulcânico de Lisboa, constituído por rochas eruptivas básicas (Basaltos), sob a forma
de escoadas lávicas alternando com piroclastos e aglomerados vulcânicos, com idade
provável do Cenomaniano (Pais et al., 2006).
7
Setor NW: Formação de Benfica e Miocénico
É constituído por formações cenozóicas correspondentes à Formação de Benfica (Φ Bf)
e ao Miocénico. Este setor está na continuidade da estrutura de Monsanto e apresenta
uma sucessão de ondulações suaves.
Sobre o Complexo Vulcânico de Lisboa, assenta, em discordância, a Formação de
Benfica (Φ Bf), constituída por depósitos continentais, onde se intercalam níveis mais
argilosos, detríticos e carbonatados.
Setor Este: Série Miocénica
Compreende intercalações de formações detríticas e carbonatadas da Série Miocénica.
Apresenta-se, de um modo geral, em monoclinal, inclinando suavemente para E-SE.
O Neogénico abrange unidades miocénicas como as Camadas de Prazeres (Mpr), do
Aquitaniano a Burdigaliano inferior, constituídas por argilitos, argilitos siltosos e
margosos, margas e calcários.
Sobrepostas a estas, estão as Areolas de Av. da Estefânia (MEs), datada do Burdigaliano
e constituída por areias finas, siltosas, micáceas (areolas) argilas silto arenosas e
arenitos mais ou menos consolidados. De seguida, depositaram-se os Calcários de
Entrecampos (MEC), formação representada por biocalcarenitos com fração detrítica
abundante, por vezes argilosa, ricos de moldes e/ou fragmentos de moluscos e calcários
margosos, cinzento-esverdeado.
A formação anterior passa superiormente a areias muito finas argilosas, piritosas, e a
siltitos argilosos de cor cinzenta, com moluscos, peixes e abundantes microfósseis,
correspondente à unidade de Argilas de Forno do Tijolo (MFT).
A formação Areias do Vale de Chelas (Mvb) é constituída por areias feldspáticas,
fluviais, incoerentes ou fracamente cimentadas, às vezes grosseiras e compactas; em
posição superior ocorrem areias dunares.
As aluviões (a) do Concelho de Lisboa incluem os depósitos diretamente associados ao
leito principal do Rio Tejo e a todas as ribeiras e linhas de água que a este afluem, na
sua margem direita. As espessuras das aluviões do Tejo são muito variáveis de local
para local. Estas são predominantemente lodosas, com abundante matéria orgânica, ou
arenosas. As aluviões das ribeiras afluentes do Tejo têm composição em muitos casos
dependentes das litologias erodidas, contendo frequentemente, matéria orgânica
(Almeida, 1991).
8
9
Capítulo 2: Metodologia
Neste capítulo procede-se ao desenvolvimento teórico das metodologias aplicadas no
estudo a realizar.
2.1. Conceitos de álgebra matricial
Nesta secção relembram-se alguns conceitos cruciais de álgebra matricial que se
utilizam no desenvolvimento das técnicas de análise multivariada. Naturalmente
começa-se com o conceito de matriz (Monteiro, 2001, Searle, 1982 e Timm, 2002).
2.1.1. Conceito de matriz
Designa-se por matriz de ordem n m, a tabela A =
, com n linhas e
m colunas.
Pode denotar-se a matriz A por [ ] com i = 1,…, n e j = 1,…, m.
As entradas aij são os elementos de A, em que i indica a linha e j indica a coluna.
Quando uma matriz tem ordem n 1 ou ordem 1 n designa-se por vetor, ou seja, tem
n linhas e uma coluna ou tem 1 linha e n colunas, respetivamente. No primeiro caso
designa-se por vetor coluna e representa-se do seguinte modo: x =
. No segundo
caso designamos por vetor linha e representa-se do seguinte modo: xT = .
Uma matriz de ordem 1 1 designa-se por escalar.
2.1.2. Tipos de matrizes
No que se segue definem-se alguns tipos de matizes, nomeadamente matriz quadrada,
diagonal, identidade, transposta e simétrica.
10
Uma matriz quadrada é a matriz em que o número de linhas é igual ao número de
colunas e diz-se que tem ordem n n, ou simplesmente ordem n.
Caso contrário, se o número de linhas for diferente do número de colunas, diz-se que a
matriz é retangular de ordem n m.
Uma matriz quadrada de ordem n, em que
com i, j = 1, …, n, designa-se
por uma matriz diagonal, ou seja, a uma matriz da forma:
Em particular, se d11 = 1,…, dnn = 1, tem-se a matriz Identidade, que se denota por In, e
representa-se da forma:
.
Para qualquer matriz A quadrada de ordem n, verifica-se a seguinte propriedade:
AI = IA = A.
Seja A uma matriz de ordem n m. Designa-se por matriz transposta de A, e
representa-se por AT, à matriz que se obtém trocando as linhas com as colunas, ou seja,
as linhas de A são as colunas de AT e as colunas de A são as linhas de A
T.
Assim sendo, tem-se que:
se A = de ordem n m, então AT = de ordem m n.
Seja A uma matriz quadrada de ordem n. Diz-se que A é simétrica se e só se A = AT.
2.1.3. Igualdade de matrizes
Duas matrizes são iguais se os elementos de uma coincidirem com os elementos da
outra, tendo ambas, naturalmente, a mesma ordem.
11
Sejam A e B duas matrizes com a mesma ordem (n m), tais que A = e B = .
Diz-se que as matrizes A e B são iguais se e só se = , para todo i = 1,…, n e
j = 1,…, m.
2.1.4. Operações com matrizes
Por vezes torna-se necessário efetuar algumas operações entre matrizes, como é o caso
da adição, da subtração ou do produto de duas ou mais matrizes, bem como a
multiplicação de um escalar por uma matriz.
Sejam A e B duas matrizes com a mesma ordem (n m), tais que A = e B = .
A sua soma (diferença), A + B (A – B) é igual a C, onde C = =
(C = = ), com i = 1, …, n e j = 1, …, m.
Seja A uma matriz de ordem n m, tal que A = e um escalar. A multiplicação
da matriz A por um escalar representa-se por A ou A e é igual a , com
i = 1, …, n e j = 1, …, m.
Sejam A e B duas matrizes de ordem n m e m p, respetivamente. O produto de A
por B origina C de ordem n p, tal que AB = C = , onde = .
2.1.5. Traço de uma matriz
Seja A uma matriz quadrada de ordem n n, tal que os elementos da diagonal são da
forma aii, com i = 1,…, n. Então o traço de A é igual à soma dos elementos da diagonal,
ou seja, tr(A) = .
2.1.6. Vetores linearmente dependentes e independentes
Os vetores dizem-se linearmente dependentes se for possível escrever o
vetor nulo como combinação linear de sem que os escalares sejam todos
12
nulos. Se o vetor nulo só se puder escrever como combinação linear de sendo
os escalares todos nulos, então os vetores são linearmente independentes.
2.1.7. Característica de uma matriz
Designa-se por característica de uma matriz A de ordem n n o número de linhas (ou
colunas) linearmente independentes. Representa-se a característica de A por r(A).
2.1.8. Determinante
O determinante de uma matriz quadrada de ordem n é dado
por onde K é o número de inversões1 da
permutação ( e p indica que a soma ocorre sobre todas as permutações de
(1, 2, …, n), ou seja, existem n! permutações. O determinante de uma matriz A pode
denotar-se por detA ou |A|.
Designa-se por menor complemento de um elemento de um determinante, ao
determinante que se obtém, suprimindo a linha e a coluna a que pertence esse elemento
(linha i e coluna j). Representa-se por .
O complemento algébrico de um elemento é igual ao menor complemento ou ao seu
simétrico e representa-se por .
Pode-se calcular o determinante de outra forma.
Teorema de Laplace: Seja A uma matriz quadrada de ordem n, o seu determinante é
igual à soma dos produtos dos elementos de uma linha (ou coluna) pelos respetivos
complementos algébricos. Assim sendo,
, onde é o complemento algébrico de .
1 Dada uma permutação dos inteiros 1, 2, …, n, existe uma inversão quando um inteiro precede outro
menor do que ele.
13
2.1.9. Matriz adjunta e matriz inversa
À matriz que se obtém calculando os respetivos complementos algébricos para cada
entrada e fazendo a sua transposta, designa-se por matriz adjunta. Representa-se
por adj A.
Uma matriz A quadrada de ordem n é invertível se existir uma matriz B quadrada de
ordem n tal que AB = BA = In. Designamos B por matriz inversa de A e representa-se
por A-1.
Notas:
1) Uma matriz é invertível se e só se o seu determinante for diferente de zero.
2) A matriz inversa é única.
3) Pode ser obtida por: A-1
=
.
2.1.10. Matriz ortogonal
Uma matriz A quadrada de ordem n, invertível, diz-se ortogonal se a inversa e a
transposta coincidirem, ou seja, A-1
= AT.
2.1.11. Valores próprios e vetores próprios
Seja A uma matriz quadrada (n n), um escalar e x um vetor não nulo tal que
Ax = x. Diz-se que é o valor próprio de A e x é um vetor próprio associado.
Considere-se a equação |A I| = 0, cujas soluções são os valores próprios da matriz A.
O polinómio |A I| designa-se por polinómio característico.
Observações:
Uma vez que a matriz A tem ordem n, então o polinómio característico tem n
raízes e deste modo têm-se n valores próprios, sejam , . Após a
determinar os valores próprios determinam-se os vetores próprios, , , …,
14
, associados a cada valor próprio. Para esse efeito usa-se a igualdade
(A I)x=0.
O vetor próprio obtido associado a cada valor próprio não é único, deste modo se
x for vetor próprio então cx (c é um escalar não nulo) também é vetor próprio.
Notas:
1) A soma dos valores próprios é igual ao traço de A, ou seja, tr(A) = .
2) O produto dos valores próprios é igual ao determinante de A, ou seja,
det(A) = .
2.1.12. Decomposição espetral
Teorema da decomposição espetral: (Decomposição em valores próprios e vetores
próprios)
Seja A uma matriz simétrica e considere-se ainda os valores próprios de A e os vetores
próprios normalizados. Temos que AQ = Q com QTQ = I, onde é a matriz diagonal
dos valores próprios, =
e Q a matriz ortogonal dos vetores próprios. Se
QT = Q
-1, então A = Q Q
T.
15
2.2. Características amostrais
Nesta secção definem-se algumas características amostrais a utilizar na análise
exploratória dos dados.
2.2.1. Características amostrais univariadas
Para se caracterizar um conjunto de dados, começa-se por calcular algumas
características amostrais, de localização e de dispersão. No que se segue, definem-se
algumas dessas características amostrais. Mais precisamente, a média, o desvio padrão,
os extremos, a mediana e os quartis (Murteira, 2007).
Dado um conjunto de observações (x1, …, xn), diz-se que
é a média
amostral e que =
é a variância amostral. O desvio padrão
amostral é dado pela raiz quadrada positiva da variância, ou seja, .
A média amostral é uma medida de localização, a variância e o desvio padrão amostrais
são medidas de dispersão. Estas permitem medir a variabilidade dos em torno da média
amostral.
Um conjunto de observações (x1, x2, …, xn) pode ser ordenado ordenado de modo
ascendente, tal que x1:n x2:n … xn:n, sendo x1:n o mínimo e xn:n o máximo.
Tendo um conjunto ordenado de observações, pode-se calcular a mediana do seguinte
modo
16
Define-se quantil de ordem p por:
onde [np] designa a parte inteira de np.
Observações:
1) O quantil de ordem 0,5 designa-se por mediana.
2) Os quantis de ordem 0,25 e 0,75 designam-se por primeiro quartil e terceiro
quartil respetivamente.
3) Os quantis de ordem 0,1; … ; 0,9 designam-se por decis.
4) Os quantis de ordem 0,01; …; 0,99 designam-se por percentis.
Uma representação gráfica usual para representar os extremos, os quartis e a mediana é
o diagrama em caixa de bigodes.
2.2.2. Características amostrais bivariadas
Na secção anterior definiram-se algumas características amostrais (no caso univariado).
Nesta secção definem-se as características amostrais para o caso bivariado, ou seja,
características que permitem comparar as variáveis duas a duas, de forma a avaliar o
grau de associação entre as duas variáveis. Neste caso, calculam-se as covariâncias e
correlações amostrais.
Considere-se um par de observações (xi, yi), com i, j = 1, …, n. Pode-se proceder à sua
representação gráfica num referencial cartesiano. Esse gráfico designa-se por diagrama
de dispersão.
Esta representação gráfica permite avaliar o grau de associação entre duas variáveis.
Para quantificar essa associação podem usar-se duas medidas: a covariância amostral e /
ou coeficiente de correlação linear.
A covariância amostral é dada por cov(x,y) =
. Também
pode ser denotada por .
17
A covariância é uma estatística bivariada utilizada para quantificar a associação linear
entre duas variáveis. Porém, é influenciada pelas unidades de medida. Neste caso, teria
de se proceder à estandardização do conjunto de dados, ou por outro lado, calcular-se o
coeficiente de correlação amostral.
O coeficiente de correlação ou coeficiente de correlação de Pearson é dado por
r =
, ou seja,
.
O coeficiente de correlação varia entre -1 e 1 e é usado para variáveis quantitativas.
Se as variáveis não forem quantitativas, usa-se o coeficiente de correlação de
Spearman.
Para calcular o coeficiente de correlação de Spearman procede-se de igual modo, mas
substituem-se as observações (qualitativas) pelas respetivas ordens.
18
2.3. Técnicas de Análise Multivariada
Nesta secção procede-se ao desenvolvimento teórico das técnicas de análise
multivariada a utilizar neste estudo, nomeadamente, a análise em componentes
principais (ACP), a análise fatorial (AF) e a análise de clusters (AC).
Com estas técnicas pretende-se resumir a informação contida nos dados, de forma a
tornar mais fácil a sua interpretação.
As duas primeiras técnicas (ACP e AF) relacionam-se diretamente com as variáveis,
designam-se por análise modo-R, ao passo que a última técnica (AC) relaciona-se com
os indivíduos, designa-se por análise modo-Q.
Mais claramente, a análise-modo R permite identificar as variáveis que mais contribuem
para a explicação da variabilidade dos dados, com a menor perda de informação. A
análise modo-Q é usada para agrupamento de indivíduos em classes/grupos
homogéneos, através de características comuns entre os indivíduos.
19
2.3.1. Análise em Componentes Principais
2.3.1.1. Introdução
A análise em componentes principais é uma técnica de análise multivariada introduzida
pelo estatístico Karl Pearson em 1901 e mais tarde desenvolvida por Hotelling em 1933
(Mardia et al, 1979).
A análise em componentes principais é um método de análise multivariada que consiste
em transformar um conjunto de variáveis originais correlacionadas num conjunto de
novas variáveis não correlacionadas: as componentes principais. As variáveis originais e
as componentes principais têm a mesma dimensão.
O principal objetivo da ACP é a redução da dimensionalidade, ou seja, a diminuição do
número de componentes, de forma a explicar a variabilidade dos dados. Esta redução
consegue-se uma vez que as variáveis originais estão correlacionadas, sendo algumas
delas redundantes, ao passo que as componentes principais são não correlacionadas,
podendo explicar a informação dada pelas variáveis originais com um menor número de
componentes. Caso as variáveis originais estejam fracamente correlacionadas, as
componentes principais vão coincidir com as variáveis originais.
Estas novas variáveis (as componentes principais) são uma combinação linear das
variáveis originais, com uma ordem decrescente de importância. A primeira
componente principal é a mais importante, uma vez que descreve a maior parte da
variabilidade dos dados.
Pretende-se que este número de componentes principais seja o menor possível, ou seja,
parte-se de p variáveis originais para k componentes principais, com k muito inferior a
p, de modo que a perda de informação seja a menor possível.
Assim sendo, se as variáveis originais estiverem muito correlacionadas, o número de
componentes principais que expliquem a variabilidade é reduzido. Caso as variáveis
originais estejam pouco correlacionadas essa redução é pouco significativa.
20
2.3.1.2. O modelo matemático
Considere-se o modelo matemático para as componentes principais
Yj = a1jX1 + a2jX2 + … + apjXp
ou, Y = AX, em que X1, …, Xp são as variáveis originais, Y1, …, Yp são as
componentes principais não correlacionadas e de variância decrescente e aij é o peso da
j-ésima variável com a i-ésima componente principal, representados na matriz A de
ordem p (Chatfield, 1980).
Para a determinação das componentes principais tem de se utilizar a matriz de
covariâncias amostral ou a matriz de correlações amostral. Quando as escalas de medida
das variáveis são diferentes usa-se a matriz de correlações amostral. Desta forma torna-
se possível a comparação.
De salientar que, pelo facto de não existir invariância de escala na ACP, as componentes
obtidas são diferentes quando se usa a matriz de covariâncias e quando se usa a matriz
de correlações. As componentes principais obtidas também são diferentes quando a
unidade de medida das variáveis originais é alterada (Gnanadesikan,1997).
Para determinar as componentes principais, começa-se por calcular os valores próprios
da matriz de correlações amostral, seguidamente determinam-se os vetores próprios
associados a cada valor próprio.
Desta forma, cada componente principal é um vetor próprio associado a cada um dos
valores próprios. Mais precisamente, a primeira componente principal corresponde ao
vetor próprio associado ao maior valor próprio. A segunda componente principal
corresponde ao vetor próprio associado ao segundo maior valor próprio e, assim por
diante, de modo que as componentes principais sejam ortogonais entre si.
Designam-se os valores próprios da matriz de correlações amostral por , e
tem-se que 0. Estes valores próprios representam a variância das
componentes principais, ou seja, var(Yj) = . A ordenação das componentes principais
é feita através da ordenação dos valores próprios, de modo que à i-ésima componente
principal corresponda o i-ésimo maior valor próprio.
21
No modelo matemático para as componentes principais
com j = 1, …, p, os aij são estimados de modo que a primeira componente contenha a
maior variância (maior valor próprio) e assim por diante. Esses pesos são dados pelos
vetores próprios associados a cada valor próprio. Tem-se que,
= 1 com i = 1, …, p e,
ai1aj1 + … + aipajp = 0 para todo o i diferente de j.
Os pesos das componentes principais (aij) representam a importância relativa das
variáveis originais em cada componente principal.
Os yj observados designam-se por scores das componentes principais.
A correlação entre as variáveis originais e as componentes principais designa-se por
loading. Estes fornecem a indicação de como as variáveis originais são importantes para
a formação das componentes principais. Assim sendo, loadings próximos de um
indicam que essa variável é importante na formação da componente principal, enquanto
loadings próximos de zero indicam que a variável não é importante na formação da
componente principal. Os loadings são significantes se forem maiores que 0,3 em valor
absoluto. O loading da j-ésima variável com a i-ésima componente principal é dado por
, em que aij é o peso da j-ésima variável com a i-ésima componente
principal, é o valor próprio da i-ésima componente principal e sj é o desvio padrão da
j-ésima variável.
A comunalidade da j-ésima variável é dada por
, que se refere à proporção
de variância das variáveis que são explicadas pelas componentes principais.
Neste processo, a variância é preservada, uma vez que a soma das variâncias das
variáveis originais é igual à soma das variâncias das componentes principais.
22
2.3.1.3. Número de componentes a reter
Ao usar esta técnica de análise multivariada tem de se decidir o número de componentes
a reter, ou seja, quantas componentes são necessárias para explicar a variabilidade dos
dados. Desta forma, existem algumas regras para decidir o número de componentes
principais a reter, de modo que estas expliquem a variabilidade dos dados e que a perda
de informação seja a menor possível.
Um primeiro critério é reter o número de componentes principais que expliquem pelo
menos 80% da variabilidade total. Sendo a variância da j-ésima componente principal
e a variância total, tem-se que
é a proporção explicada pela j-
ésima componente principal e
é a proporção explicada pelas k primeiras
componentes principais. Este valor deve ser superior a 80%.
O segundo critério (critério de Kaiser, proposto em 1960) consiste em excluir as
componentes principais cujos valores próprios sejam inferiores à sua média aritmética
(quando usada a matriz de correlações, a média dos valores próprios é um).
O terceiro critério consiste em utilizar uma representação gráfica do número de
componentes principais versus os valores próprios. Este gráfico designa-se por scree
plot, proposto por Cattell em 1966. O gráfico tem a forma de um “cotovelo”. Deve-se
reter o número de componentes principais até o gráfico se tornar praticamente paralelo
ao eixo Ox, uma vez que esses valores próprios são muito reduzidos e praticamente
iguais, pouco ou nada contribuem para a explicação da variabilidade dos dados
(Rencher, 1995).
23
2.3.2. Análise Fatorial
2.3.2.1. Introdução
A Análise Fatorial começou a ser desenvolvida pelo psicólogo Charles Spearman em
1904, para testar os fatores de inteligência e habilidade nos jovens, quando realizados
testes a diferentes áreas do conhecimento (ciências e humanidades). Mais tarde foi
também desenvolvida por Thurstone em 1931 (Harman, 1976).
A Análise Fatorial é uma técnica de análise multivariada que consiste em escrever p
variáveis y1, y2, … , yp como combinação linear de novas variáveis f1, f2, … , fm, com m
menor que p. Estas novas variáveis designam-se por fatores latentes, sendo não
observadas. As variáveis y1, y2, … , yp são moderadamente correlacionadas (Rencher,
1995).
O objetivo da análise fatorial é reduzir o número de fatores latentes, de forma a explicar
a maior correlação existente no conjunto de dados. Pretende-se exprimir o que de
comum existe nas variáveis iniciais, de modo a perder-se a menor informação possível.
2.3.2.2. O modelo matemático
Considere-se o modelo matemático para a análise fatorial:
Ou, alternativamente, usando notação matricial, Y = , onde
y = [y1, y2, … , yp]T
é o vetor das variáveis, f = [f1, f2, … , fm]T
é o vetor dos fatores
comuns , T é o vetor dos fatores específicos e
é
a matriz dos pesos fatoriais, que não é única.
Assim sendo, cada variável é decomposta em duas: a parte comum e a parte específica.
Os coeficientes são designados por loadings ou pesos, que permitem mostrar de que
modo a variável yi depende do fator fj. Estes loadings representam a covariância entre
24
as variáveis e os fatores, ou seja, cov(yi, fj) = com i = 1, … , p e j = 1, … , m desde
que cov(y, f) = .
Tem-se que E(fj) = 0, var(fj) = 1, cov(fi, fj) = 0, i j.
O é a parte residual de Yi, tendo-se E( ) = 0, var( = , que é a variância
específica, cov( ) = 0, i j e cov( fj) = 0 para todo i e j.
Tem-se ainda que var(Yi) = +
+ … + + =
, em que é a
comunalidade, que se refere à variância comum e é a variância específica ou única,
que se refere à variância residual (Rencher, 1995).
Se a matriz de correlações tiver valores elevados significa que as variáveis têm bastante
em comum, formando grupos homogéneos. Se os valores das correlações forem
reduzidos, significa que as variáveis têm pouco ou nada em comum, formando grupos
heterogéneos.
2.3.2.3. Número de fatores a reter
Na análise em componentes principais tinha de se selecionar um número de
componentes mais reduzido, ou seja, era necessário analisar o número de componentes a
reter de modo que estas explicassem a variabilidade dos dados, mas também que o seu
número fosse bastante reduzido. Teria de se encontrar uma relação parcimoniosa, no
sentido de não se usar um número excessivo de componentes, mas também de não se
perder informação preciosa. Na análise fatorial pretende-se fazer algo semelhante,
decidir o número de fatores a reter de modo a explicar pelo menos 80% da variabilidade
total. Escolher um número de fatores igual ao número de valores próprios maiores que a
média dos valores próprios. Se for utilizada a matriz de correlações (R), a média é 1, se
for utilizada a matriz de covariâncias (S), a média é
, em que é o valor próprio
da matriz S. À semelhança da análise em componentes principais, pode-se usar o teste
do scree plot dos valores próprios de S ou R versus o número de fatores. O gráfico
obtido apresenta inicialmente uma acentuada inclinação e no final uma reduzida
inclinação, pelo que os valores próprios serão praticamente iguais e reduzidos. Deve-se
então reter o número de fatores (m) a partir dos quais o gráfico fica uma reta paralela ao
eixo das abcissas, tendo este gráfico a forma de um “cotovelo” (Rencher, 1995).
25
2.3.2.4. Rotação dos fatores
Para uma melhor interpretação dos fatores obtidos inicialmente, recorre-se à rotação dos
eixos. Existem várias técnicas de rotação.
Este método de rotação consiste na transformação da solução inicial através da
multiplicação de uma matriz de rotação ortogonal pela matriz dos loadings, de modo
que a solução seja interpretada de uma forma mais eficiente. Com esta rotação pretende-
se aumentar os valores absolutos dos grandes loadings e reduzir os valores absolutos
dos pequenos loadings, distinguindo assim loadings significantes de loadings
insignificantes.
As rotações podem ser ortogonais ou oblíquas. As mais utlizadas são as ortogonais,
destacando-se, a rotação varimax, a rotação quartimax e a rotação equimax.
Com o método varimax pretende-se maximizar a variância dos loadings de cada coluna
da matriz , de forma a existirem alguns loadings significativos e todos os
outros próximos de zero. Pretende-se maximizar V, com a restrição das comunalidades
permanecerem inalteradas.
Para um dado fator j, tem-se
, onde é a variância da comunalidade das
variáveis no fator j, é o quadrado do loading da i-ésima variável no j-ésimo fator,
é a média do quadrado dos loadings para o fator j, p é o número de
variáveis e k é o número de fatores.
A variância total V de todos os fatores é dada por:
Este método, desenvolvido por Kaiser em 1958, tornou-se muito popular.
Com o método quartimax pretende-se simplificar as linhas da matriz de loadings, ou
seja, tornar os loadings de cada variável elevados para um pequeno número de fatores e
próximos de zero para os restantes. Pretende-se maximizar Q, com a restrição das
comunalidades não se alterarem.
26
Para uma dada variável i, tem-se
, onde é a variância da comunalidade na
variável i e
é a média do quadrado dos loadings na variável i.
A variância total Q de todas as variáveis é dada por:
Com o método equamax pretende-se fazer uma mistura dos dois anteriores métodos
(Afifi, 1996, Harman, 1976, Rencher, 1995, Sharma, 1996 e Timm, 2002).
2.3.2.5. Método de extração dos fatores
Os métodos de extração dos fatores disponíveis no SPSS são: método das componentes
principais (principal components), método da máxima verosimilhança (maximum
likelihood), método dos mínimos quadrados (unweighted least squares and generalized
least squares), principal axis factoring, alpha factoring e image factoring.
Com estes métodos procede-se à extração dos fatores e consequentemente à estimação
dos loadings e das comunalidades.
O método das componentes principais é bastante usual. O SPSS utiliza-o por defeito.
27
2.3.2.6. Validação do modelo de análise fatorial
Para avaliar a qualidade da análise efetuada realizam-se alguns testes. A análise fatorial
é usada para descrever as correlações entre as variáveis. Deste modo, torna-se
necessário que a matriz de correlações seja significativamente diferente da matriz
identidade, efetuando-se o teste de esfericidade de Bartlett. Este teste usa-se para
testar H0: R = I versus H1: R I, em que R é a matriz de correlações amostral e I a
matriz identidade.
A estatística de teste é – (n – 1 –
)
com distribuição qui-
quadrado com
p (p - 1) graus de liberdade (Rencher, 1995).
Para avaliar se a análise fatorial é adequada aos dados usa-se a “medida de adequação
de amostragem de Kaiser-Meyer-Olkin (KMO)” ou measure of sampling adequacy
(MSA), proposta por Kaiser em 1970. Define-se por:
KMO / MSA =
,
onde R = e Q = = DR-1
D, com D =
.
O KMO toma valores entre 0 e 1. Recomendam-se valores superiores a 0.8. Na tabela 1
encontra-se a escala de avaliação da análise fatorial efetuada (Maroco, 2007, Reis, 2001
e Timm, 2002).
KMO / MSA AF
0.9 – 1 Muito boa
0.8 – 0.9 Boa
0.7 – 0.8 Média
0.6 – 0.7 Medíocre
0.5 -0.6 Má
< 0.5 Inaceitável
Tabela 1: Escala de avaliação da análise fatorial
28
2.3.2.7. Análise em Componentes Principais versus Análise Fatorial
Na análise fatorial escrevem-se as variáveis como combinação linear dos fatores,
enquanto na análise em componentes principais escrevem-se as componentes principais
como combinação linear das variáveis, são procedimentos inversos. A análise em
componentes principais permite explicar a maior parte da variabilidade total das
variáveis, enquanto na análise fatorial pretende-se explicar as correlações entre as
variáveis. No caso da ACP as componentes principais obtidas são únicas, no caso da AF
os fatores dependem da rotação efetuada. No caso da ACP a solução obtida pode ser
diferente se usada uma escala de medição diferente, enquanto na AF, há invariância de
escala, ou seja, as soluções são invariantes com a mudança da escala de medição.
Quando se aumenta o número de componentes retidas, as primeiras componentes
principais mantêm-se inalteradas, enquanto na análise fatorial, os fatores podem tornar-
se bastante diferentes quando o número de fatores retidos é modificado. (Everitt, 2011 e
Maroco, 2007).
29
2.3.3. Análise de Clusters
2.3.3.1. Introdução
A análise de clusters é uma técnica de análise multivariada que tem como principal
objetivo o agrupamento de elementos. Este agrupamento é efetuado de forma que
elementos pertencentes ao mesmo grupo tenham características semelhantes e
elementos de diferentes grupos tenham características dissemelhantes. Genericamente,
parte-se de um conjunto com n observações e pretende-se formar k grupos com um
menor número de observações.
Para a construção desses grupos usam-se métodos hierárquicos ou métodos não
hierárquicos. Entre os métodos hierárquicos, estes podem ser aglomerativos ou
divisivos.
Considere-se um conjunto de n observações e p variáveis dispostos na seguinte matriz
de ordem n p,
.
O elemento representa o valor do objeto (indivíduo) i na variável j.
Seguidamente constrói-se a matriz D de ordem n, dada por
, em
que dkl representa a distância entre os objetos k e l, com k, l = 1, …, n. Esta matriz
designa-se por matriz de proximidade.
Deste modo, o passo que se segue é escolher a medida de proximidade entre os
indivíduos (Everitt et al, 2001, Maroco, 2007 e Reis, 1997).
30
2.3.3.2. Medidas de proximidade
Para a construção da matriz de proximidade D, definida anteriormente, é necessário
selecionar uma medida de proximidade, podendo ser uma medida de distância, de
dissemelhança ou de semelhança.
Segundo Everitt (2001), dois indivíduos estão próximos se a dissemelhança ou a
distância entre eles é pequena ou, se a semelhança entre eles é grande.
Uma medida de semelhança caracteriza-se pelas seguintes propriedades:
1) 0 1
2) = 1
3) =
onde denota a medida de semelhança entre os indivíduos i e j.
Nos dados categóricos é habitual usar-se uma medida de semelhança.
Uma medida de dissemelhança caracteriza-se pelas seguintes propriedades:
1) 0
2) = 0
3) =
onde denota a medida de dissemelhança entre os indivíduos i e j.
Uma medida de distância caracteriza-se pelas seguintes propriedades:
1) 0
2) = 0
3) =
4) (desigualdade triangular)
onde denota a medida de distância entre os indivíduos i e j.
31
Apresentam-se em seguida algumas medidas de distância (Everitt et al, 2001 Maroco,
2007, Reis, 1997 e Timm, 2002).
1) Distância Euclidiana
=
2) Quadrado da Distância Euclidiana
3) Distância de Manhattan ou distância absoluta ou City-Block Metric
4) Distância de Minkowski
é uma generalização da distância Euclidiana e coincidem quando r = 2.
5) Distância de Mahalanobis
onde S denota a matriz de covariâncias amostral.
A medida de distância mais usada é a euclidiana.
Em seguida, definem-se algumas medidas de dissemelhança.
1) Correlação de Pearson:
com
32
onde
e .
2) Separação Angular
com
.
2.3.3.3. Métodos de agregação
Um dos objetivos da análise de clusters é reduzir a distância dentro dos grupos e
aumentar a distância entre os grupos.
Após selecionada a medida de proximidade e construída a respetiva matriz de
proximidade, pretende-se saber quantos clusters se obtém. Assim sendo, para a
determinação desses k grupos usam-se métodos hierárquicos ou métodos não
hierárquicos. Quanto aos métodos hierárquicos, estes podem ser aglomerativos ou
divisivos. Um processo diz-se aglomerativo se no final do processo se obtém um único
cluster com todos os elementos e diz-se divisivo se no fim do processo existirem n
clusters com um único elemento cada.
Em qualquer dos métodos tem-se como objetivo a escolha da solução ótima, ou seja,
número ótimo de clusters. Essa decisão fica a cargo do investigador.
As etapas resultantes deste processo hierárquico (aglomerativo ou divisivo) podem ser
representadas através de um gráfico – o dendograma (Everitt, 2001).
Os métodos aglomerativos são os mais utilizados.
33
2.3.3.4. Critérios de agregação
Após definidas as medidas de proximidade entre dois elementos, é necessário definir
medidas de proximidade entre os clusters, ou seja, definir critérios de agregação entre os
grupos (Everitt et al, 2001 Maroco, 2007, Reis, 1997 e Timm, 2002).
1) Complete Linkage ou método do vizinho mais afastado
A distância entre dois grupos é medida como sendo a distância máxima entre um par de
objetos, entre todos os clusters. Utilizando este critério os clusters obtidos são mais
compactos.
2) Single Linkage ou método do vizinho mais próximo
A distância entre dois grupos é medida como sendo a distância mínima entre um par de
objetos, entre todos os clusters. Utilizando este critério os clusters obtidos são
desequilibrados e desalinhados, em particular quando o número de dados é elevado.
3) Average Linkage
A distância entre dois grupos é medida como sendo a média da distância entre todos os
pares de objetos dos dois grupos. Utilizando este critério os clusters obtidos têm
pequenas variâncias.
Este é um critério intermédio entre o Complete Linkage e o Single Linkage, sendo
relativamente robusto.
4) Critério do Centróide
A distância entre dois grupos é medida como sendo a distância entre os seus centróides.
Cada centróide corresponde à média ponderada dos elementos dos dois grupos.
34
5) Critério de Ward
Neste método não são calculadas distâncias, formam-se os clusters de modo a
minimizar a soma dos quadrados dos erros.
No que se segue, apresentam-se as etapas do método hierárquico aglomerativo.
Agrupamento hierárquico (método aglomerativo):
Dada a matriz de proximidades D = [dij] de ordem n n, seguem-se os passos seguintes
(Timm, 2002):
1. Começa-se com n clusters, cada um deles com um elemento.
2. Usando a matriz D, escolhemos os elementos mais semelhantes, digamos i e j.
3. Juntam-se esses dois elementos, i e j, formando um novo cluster (ij).
Recalculam-se as distâncias entre o novo cluster (ij) e os elementos já existentes,
usando o critério de agregação selecionado. Obtém-se uma nova matriz de
proximidade de ordem (n – 1) (n – 1).
4. Repetem-se os passos 2 e 3, (n – 1) vezes.
Nota: O agrupamento não hierárquico não será considerado neste trabalho.
35
Capítulo 3: Análise de dados hidrogeológicos
O estudo baseia-se num conjunto de 48 amostras de água subterrânea recolhidas em
furos, minas, nascentes e poços da cidade de Lisboa, conforme se pode visualizar na
figura 2. Utilizam-se as análises químicas dessas 48 amostras de água e selecionam-se
13 variáveis referentes a parâmetros físico-químicos e espécies dissolvidas (aniões e
catiões). Mais precisamente:
Os parâmetros físico-químicos: o pH, a condutividade elétrica (C.E.) e o
potencial redox (Eh);
As espécies dissolvidas: o bicarbonato ( ), o cálcio (Ca
2+), o sódio (Na
+), o
potássio (K+)
, o magnésio (Mg2+
), o fluoreto ( ), o cloreto ( ), o brometo
( ), o nitrato ( ) e o sulfato (
).
As amostras de águas subterrâneas agora utilizadas não foram recolhidas
especificamente para este trabalho, resultaram de recolhas para a concretização de
unidades curriculares do 1º ciclo de estudos em Geologia da FCUL (Caria et al, 2009,
Manca et al, 2008 e Sanches et al, 2006) e 2º ciclo de estudos em Geologia Aplicada e
do Ambiente da FCUL (Oliveira, 2010) e em Engenharia do Ambiente do IST (Lopes,
2007).
36
Figura 2: Localização geográfica das amostras de água
Como já foi referido anteriormente, a geologia de Lisboa é de grande complexidade,
pelo que, para facilitar a análise estatística das amostras de água, as formações
geológicas foram agrupadas, tendo em conta as suas semelhanças litológicas, da
seguinte forma: Aluviões (1); Formação de Benfica (2); Complexo Vulcânico de Lisboa
(CVL) (3); Calcários de Entrecampos (4); Areolas da Estefânia e Areias do Vale de
Chelas (5) e Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres (6).
Na figura 3 encontram-se as localizações das amostras recolhidas e a respetiva formação
geológica aflorante.
37
Figura 3: Localização geográfica das amostras de água e respetivas formações geológicas
38
A partir da figura 3 pode construir-se a tabela 2 em que se indica a proveniência de cada
amostra.
Grupos de formações geológicas Amostras recolhidas
(1) Aluviões Lis10/ Lis11/ Lis12/ Lis13/ Lis16 / Lis37
(2) Formação de Benfica Lis23/ Lis24/ Lis25/ Lis26/ Lis28/ Lis31/
Lis33/ Lis34/ Lis35/ Lis36/ Lis46
(3) CVL Lis27/ Lis29/ Lis30/ Lis32/ Lis44/ Lis47/ Lis48
(4) Calcários de Entrecampos Lis1/ Lis2/ Lis5/ Lis14/ Lis17/ Lis19
(5) Areolas da Estefânia e Areias
do Vale de Chelas
Lis3/ Lis4/ Lis6/ Lis15/ Lis18/ Lis20/ Lis21/
Lis38/ Lis39/ Lis40/ Lis41/ Lis45
(6) Argilas do Forno do Tijolo e
Argilas e Calcários dos Prazeres
Lis7/ Lis8/ Lis9/ Lis22/ Lis42/ Lis43
Tabela 2: Proveniência das amostras
39
3.1. Análise Exploratória dos Dados
3.1.1. Características amostrais
Na tabela 3 encontram-se algumas características amostrais obtidas para as 48 amostras
de água provenientes de 6 grupos de formações geológicas distintas:
Variáveis Média Desvio
Padrão Mediana 1º Quartil 3º Quartil Mínimo Máximo
pH 7,53 0,80 7,460 6,985 8,030 6,13 10,45
C.E. 1161,96 364,27 1174,500 953,500 1411,500 395,00 2220,00
Eh 30,43 151,13 34,250 -102,100 187,000 -258,10 248,00
359,3 111,55 374,000 291,120 426,500 43,00 575,00
Ca2+
123,17 49,39 114,500 82,000 152,500 40,00 245,60
Na+ 99,31 52,83 89,450 67,650 132,000 9,70 275,40
K+ 16,40 23,21 8,550 3,035 17,200 0,00 109,00
Mg2+
32,39 20,45 28,650 17,650 42,300 0,00 91,40
0,26 0,22 0,185 0,132 0,335 0,00 1,01
93,48 43,72 88,100 58,950 118,900 18,50 195,00
0,44 0,83 0,180 0,000 0,385 0,00 3,40
43,35 48,13 30,800 5,785 52,250 0,00 206,00
138,20 111,88 113,700 71,800 160,750 6,10 653,00
Tabela 3: Características amostrais das variáveis (amostra global)
Da análise da tabela 3, podem-se observar algumas características amostrais para as 13
variáveis em estudo. O pH das amostras recolhidas varia entre 6.13 e 10.45, as amostras
de água Lis4, Lis13, Lis5, Lis6 e Lis9 têm valores de pH 6.13, 6.20, 6.25, 6.26 e 10.45,
respetivamente, que estão fora dos valores paramétricos, de acordo com o Decreto – Lei
306-2007 da qualidade da água para consumo humano (o pH deve estar compreendido
entre 6.5 e 9, inclusive). A condutividade elétrica varia entre 395 e 2220 S/cm e a sua
mediana (1174.5 S/cm) é superior à média (1161.96 S/cm). O Eh varia entre -258.1 e
248 mV e tem mediana (34.25 mV) superior à média (30.43 mV). Como existem
valores Eh positivos e negativos a variabilidade em torno da média é muito grande,
sendo o desvio padrão elevado (151.13 mV) e a média relativamente baixa (30.43 mV).
As concentrações do ião bicarbonato variam entre 43 e 575 mg/L, apresentando uma
mediana (374 mg/L) superior à média (359.3 mg/L). As concentrações do ião cálcio
variam entre 40 e 245,6 mg/L, existindo um grande número de amostras de água com
concentrações deste ião superiores ao valor paramétrico (100 mg/L), mais precisamente
29 amostras de água. As concentrações do ião sódio variam entre 9.7 e 275.4 mg/L e
40
apresentam uma grande variabilidade em torno da média, sendo o desvio padrão 52.83
mg/L. As amostras Lis21 e Lis31 apresentam concentrações, deste ião, de 275.4 e 217
mg/L, respetivamente, acima do valor paramétrico (200 mg/L). As concentrações do ião
potássio variam entre 0 e 109 mg/L. O desvio padrão é elevado (23.21 mg/L), em
comparação com a média (16.4 mg/L). Das 48 amostras, 19 apresentam concentrações
do ião potássio acima do valor paramétrico (12 mg/L) e 20 amostras têm concentrações
inferiores a 6 mg/L. Deste modo, a variabilidade em torno da média é muito grande. As
concentrações do ião magnésio variam entre 0 e 91.4 mg/L. Nas amostras Lis22, Lis16,
Lis20, Lis48, Lis47, Lis43 e Lis30 as concentrações deste ião são 91.4, 73.5, 69.5, 65.1,
65, 60.3 e 57.5 mg/L, respetivamente. Todas essas concentrações são superiores ao
valor paramétrico (50 mg/L). As concentrações do ião fluoreto variam entre 0 e 1.01
mg/L. A variabilidade em torno da média é muito elevada, sendo a média de 0.26 mg/L
e o desvio padrão de 0.22 mg/L. As concentrações do ião cloreto variam entre 18.5 e
195 mg/L. As concentrações do ião brometo variam entre 0 e 3.4 mg/L. Das 48
amostras, 40 apresentam concentrações deste ião inferior a 0.5 mg/L e em 17 dessas 40
amostras não se deteta a presença deste ião (0 mg/L). Desta forma, a variabilidade em
torno da média é muito grande, sendo o desvio padrão de 0.83 mg/L e a média de
0.44mg/L. As concentrações do ião nitrato variam entre 0 e 206 mg/L. Das 48 amostras,
12 apresentam uma concentração superior ao valor paramétrico (50 mg/L). A
variabilidade em relação à média é elevada, sendo a média e o desvio padrão 43.35 e
48.13 mg/L, respetivamente. As concentrações do ião sulfato variam entre 6.1 e 653
mg/L. Nas amostras Lis21, Lis9, Lis42 e Lis37 as concentrações deste ião são 653,
459.2, 329 e 271 mg/L, respetivamente, todas superiores ao valor paramétrico (250
mg/L). O desvio padrão muito grande (111.88 mg/L) é indicador de uma grande
variabilidade em torno da média.
Sobre a qualidade da água para consumo humano pode-se aferir que, das 48 amostras de
água, apenas 8 (Lis7, Lis12, Lis27, Lis29, Lis30, Lis33, Lis36 e Lis44) são
consideradas apropriadas para o consumo humano, embora fosse necessário averiguar
se, do ponto de vista bacteriológico, estariam de acordo com as recomendações da
legislação que regula a qualidade das águas para o consumo humano.
Tal como sugere a tabela 2, a amostra global das 48 amostras de água pode ser
subdividida em 6 amostrais parciais, correspondendo a cada grupo de formações
41
geológicas. Desta forma, na tabela 4 encontram-se as características amostrais (média e
desvio padrão) das 48 amostras de água separadas pelos grupos de formações
geológicas a que pertencem.
Por observação da tabela 4, pode afirmar-se que o pH médio nas Aluviões e nas Areolas
da Estefânia e Areias do Vale de Chelas é praticamente igual, 7.39 e 7.38,
respetivamente. A variabilidade em torno da média é inferior nas Areolas da Estefânia e
Areias do Vale de Chelas. A maior média e o maior desvio padrão surgem no grupo de
formações geológicas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres,
tomando os valores de 7.87 e de 1.49, respetivamente. Os Calcários de Entrecampos
apresentam o menor pH médio de valor 7.2. O menor desvio padrão surge na Formação
de Benfica, cujo valor é 0.32. Embora a média seja relativamente alta, cujo valor é 7.71.
Quanto à condutividade elétrica, na Formação de Benfica e no CVL as médias são
inferiores a 950 S/cm, enquanto nas restantes formações geológicas as médias
ultrapassam os 1200 S/cm. A menor variabilidade em torno da média verifica-se no
CVL, onde o desvio padrão é 131.79 S/cm e a maior variabilidade em torno da média
ocorre nas Aluviões, onde o desvio padrão é 466.19 S/cm.
Quanto ao Eh, a sua média é positiva na Formação de Benfica e no CVL, sendo 192.34
e 143.71 mV, respetivamente; a média é negativa nas restantes formações.
Relativamente à variabilidade em torno da média é menor na Formação de Benfica e
nos Calcários de Entrecampos, cujo desvio padrão é 42.34 mV e 41.59 mV,
respetivamente.
Quanto ao ião bicarbonato, verifica-se a maior variabilidade em torno da média nas
Argilas e a menor no CVL, sendo o desvio padrão de 189.99 e 48.72 mg/L,
respetivamente. A maior concentração média encontra-se nos Calcários de Entrecampos
(415.17 mg/L) e a menor na Formação de Benfica (278.61 mg/L).
Quanto ao ião de cálcio, observa-se que a maior concentração média é nas Aluviões
(172.97 mg/L), enquanto as menores concentrações médias são na Formação de Benfica
e no CVL, cujos valores são 88.15 e 80.86 mg/L, respetivamente. Também estas duas
últimas apresentam a menor variabilidade em torno da média, uma vez que os seus
desvios padrão são os menores, 15.88 mg/L no CVL e 29.21 mg/L na Formação de
Benfica.
Quanto ao ião sódio, a menor concentração média é no CVL (58.69 mg/L) e a maior é
na Areolas da Estefânia e Areias do Vale de Chelas (123.58 mg/L). A menor
42
variabilidade em torno da média surge nos Calcários de Entrecampos, onde o desvio
padrão é 21.72 mg/L.
Quanto ao ião potássio, as suas concentrações médias tomam valores bastante
diferentes, nomeadamente, as Aluviões e o CVL têm médias mais reduzidas (5.7 e 3.7
mg/L, respetivamente), enquanto os Calcários de Entrecampos e as Areolas da Estefânia
e Areias do Vale de Chelas têm médias muito elevadas (27.35 e 33.54 mg/L,
respetivamente). Para este ião, em todas as formações geológicas verifica-se uma
grande variabilidade em torno da média, visível através do seu desvio padrão elevado,
destacando as Areolas da Estefânia e Areias do Vale de Chelas com o maior desvio
padrão (34.13 mg/L).
Quanto ao ião magnésio, nas Aluviões a média não é muito elevada (28.63 mg/L), mas
a variabilidade em torno da média é muito elevada, uma vez que o seu desvio padrão é
23.61 mg/L. No CVL a concentração média é a mais elevada (53.63 mg/L), mas a
variabilidade em torno da média é a menor, uma vez que o desvio padrão é 10.04 mg/L.
A menor média (21.20 mg/L) é nos Calcários de Entrecampos e a maior variabilidade
em torno da média é nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres,
cujo desvio padrão é 29.20 mg/L.
Quanto ao ião fluoreto, a menor concentração média (0.11 mg/L) surge no CVL,
enquanto a maior concentração média (0.39 mg/L) surge nas Argilas. O mesmo se pode
afirmar quanto à variabilidade em torno da média, pois o desvio padrão no CVL é 0.08
mg/L e nas Argilas é 0.33 mg/L. Os Calcários de Entrecampos e as Areolas da Estefânia
e Areias do Vale de Chelas apresentam a mesma concentração média (0.31 mg/L), mas
a variabilidade em torno da média é muito inferior nos Calcários de Entrecampos, uma
vez que o desvio padrão é consideravelmente inferior, sendo 0.13 mg/L nos Calcários
de Entrecampos e 0.30 mg/L nas Areolas da Estefânia e Areias do Vale de Chelas.
Quanto ao ião cloreto, o CVL aparece como a formação geológica com a menor
concentração média deste ião (61.16 mg/L). As Aluviões, as Areolas da Estefânia e
Areias do Vale de Chelas e as Argilas aparecem com as maiores concentrações médias
deste ião, em torno dos 100 mg/L, destacando as Aluviões cuja concentração média é a
mais elevada (105.13 mg/L). A maior variabilidade em torno da média ocorre nas
Aluviões e nas Argilas, onde os desvios padrão são 61.65 e 70.93 mg/L, respetivamente,
em oposição à menor variabilidade que ocorre nos Calcários de Entrecampos, cujo
desvio padrão é 18.12 mg/L.
43
Quanto ao ião brometo, a variabilidade em torno da média é bastante elevada, em
particular nas Aluviões, nas Areolas da Estefânia e Areias do Vale de Chelas e nas
Argilas, onde os desvios padrão tomam os valores de 1.23, de 1.06 e de 1.23 mg/L,
respetivamente. As concentrações médias, deste ião, também são elevadas nestas
formações geológicas, nas Aluviões é 0.85 mg/L, nas Areolas é 0.66 mg/L e nas Argilas
é 0.82 mg/L. Nos Calcários de Entrecampos a concentração média é bem menor (0.14
mg/L), mas a variabilidade em torno da média é muito elevada (0.17 mg/L). O CVL
aparece como a formação geológica que tem a menor concentração média deste ião,
cujo valor é 0.05 mg/L.
Quanto ao ião nitrato, as Argilas apresentam a menor concentração média (5.67 mg/L),
por sua vez a variabilidade em torno da média é muito elevada (7.9 mg/L). A maior
concentração média (79.72 mg/L) deste composto ocorre na Formação de Benfica. As
Aluviões e as Areolas da Estefânia e Areias do Vale de Chelas apresentam
concentrações médias próximas dos 50 mg/L e desvios padrão elevados.
Quanto ao ião sulfato, a maior concentração média (223.7 mg/L) deste composto ocorre
nas Argilas e a menor concentração média (71.73 mg/L) no CVL. A formação de
Benfica e o CVL apresentam valores médios e desvios padrão semelhantes e baixos.
44
Tabela 4: Características amostrais (média e desvio padrão) das variáveis em cada grupo de formações geológica
Formações geológicas
1 2 3 4 5 6
Média
Desvio
Padrão Média
Desvio
Padrão Média
Desvio
Padrão Média
Desvio
Padrão Média
Desvio
Padrão Média
Desvio
Padrão
pH 7,39 0,95 7,71 0,32 7,59 0,34 7,20 0,80 7,38 0,83 7,87 1,49
C.E. 1266,33 466,19 934,45 298,32 844,71 131,79 1226,33 194,72 1333,92 343,64 1436,50 314,94
Eh -76,15 109,83 192,34 42,35 143,71 108,16 -113,18 41,59 -27,44 133,30 -32,62 131,83
360,33 95,85 278,61 108,39 382,12 48,72 415,17 137,02 378,25 52,49 385,83 189,99
Ca2+
172,97 60,00 88,15 29,21 80,86 15,88 124,00 38,40 141,28 42,07 149,87 46,15
Na+ 78,88 36,76 94,32 53,33 58,69 24,38 108,15 21,72 123,58 62,02 118,87 68,66
K+ 5,70 4,70 10,08 7,12 3,70 5,60 27,35 29,56 33,54 34,13 8,27 9,40
Mg2+
28,63 23,61 25,15 11,90 53,63 10,04 21,20 12,76 27,48 18,71 45,67 29,20
0,32 0,16 0,18 0,09 0,11 0,08 0,31 0,13 0,31 0,30 0,39 ,33
105,13 61,65 93,77 38,08 61,16 22,58 87,90 18,12 103,98 38,40 103,57 70,93
0,85 1,23 0,18 0,12 0,05 0,05 0,14 0,17 0,66 1,06 0,82 1,23
49,02 43,92 79,72 68,93 18,90 20,50 30,43 14,48 46,76 41,81 5,67 7,90
171,15 95,55 81,53 24,97 71,73 26,02 116,57 30,58 180,53 152,99 223,70 160,79
45
3.1.2. Correlação linear de Pearson
Na amostra global as correlações apresentam valores baixos, inferiores a 0.8 em
módulo, veja-se o anexo 4.
As tabelas da matriz de correlações entre as variáveis, em cada um dos grupos de
formações geológicas, encontram-se em anexo (anexo 5 a 10).
Nas Aluviões, apenas 7 pares de variáveis têm valores de correlação superiores a 0.8,
salientando a condutividade elétrica com o sódio e o sódio com o cloreto que
apresentam valores de correlações muito elevados. Deste modo, pode afirmar-se que
amostras com menores concentrações de sódio têm menor condutividade elétrica e
menores concentrações de cloreto, assim como amostras com maiores concentrações de
sódio têm maior condutividade elétrica e maiores concentrações de cloreto.
Na Formação de Benfica, apenas 4 pares de variáveis apresentam valores de correlação
linear superior a 0.8. Existem 10 pares de variáveis cujos valores das correlações são
inferiores a 0.8, em módulo, porém, significantes2. O cloreto com o sódio, com a
condutividade elétrica e o com brometo e o magnésio com a condutividade elétrica.
Assim sendo, nestas amostras, quanto maior for a concentração de cloreto, maior é a
concentração de sódio e de brometo, bem como os níveis de condutividade elétrica.
No Complexo Vulcânico de Lisboa existem 5 pares de variáveis com valores de
correlação superiores a 0.8, em módulo, dos quais dois pares têm valores de correlação
negativos. O Eh correlaciona-se negativamente com o cálcio e com o magnésio, ou seja,
à medida que os valores de Eh aumentam as concentrações de cálcio e de magnésio
diminuem. O sódio correlaciona-se positivamente com o bicarbonato e com o nitrato.
Deste modo, amostras com pequenas (ou grandes) concentrações de sódio têm pequenas
(ou grandes) concentrações de bicarbonato e de nitrato. Existe um par de variáveis com
valor de correlação abaixo de 0.8, mas significante.
Nos Calcários de Entrecampos existem 8 pares de variáveis com valores de correlação
superiores a 0.8, em módulo. Desses valores, dois são negativos. O fluoreto
correlaciona-se negativamente com a condutividade elétrica e com o magnésio. A
2 Uma correlação diz-se significante, se ao nível de significância 0.05 se rejeitar a hipótese nula no teste
46
condutividade elétrica e o magnésio correlacionam-se positivamente, tal como o nitrato
com o sulfato, com o Eh, com o bicarbonato e com o cálcio.
Nas Areolas da Estefânia e Areias do Vale de Chelas existem 4 pares de variáveis com
valores de correlação maiores que 0.8. A condutividade elétrica correlaciona-se
positivamente com o sódio e com o sulfato. Também existem 8 pares de variáveis com
valores de correlações inferiores a 0.8, mas significantes.
Nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres existem 8 pares de
variáveis que têm valores de correlação superiores a 0.8, em módulo. Desses valores,
quatro são negativos, nomeadamente, o pH e o bicarbonato, o bicarbonato com o
potássio e com o nitrato e este último com o sódio, e quatro são positivos; o pH com o
potássio e com o nitrato, a condutividade elétrica com o magnésio e o nitrato com o
potássio.
Mais à frente, na secção 3.1.3 (representações gráficas) será efetuada uma análise dos
diagramas de dispersão para alguns pares de variáveis.
47
3.1.3. Representações gráficas
Nas figuras que se seguem podem observar-se os diagramas em caixa de bigodes
paralelos e os diagramas de dispersão. Na figura 4 encontram-se os diagramas em caixa
de bigodes paralelos para cada variável (comparando por formação geológica) e na
figura 5 encontram-se os diagramas em caixa de bigodes paralelos para cada formação
geológica (comparando por variáveis).
48
Figura 4: Diagramas em caixa de bigodes paralelos de cada variável comparando cada formação
geológica
Para o pH, a amostra de água Lis30 é considerada outlier severo superior do CVL,
apesar de não ser o máximo da amostra global. Excluindo essa observação os valores do
pH no CVL são muito próximos, como é visível no respetivo diagrama em caixa de
bigodes. Em relação às Aluviões, Calcários de Entrecampos e Areolas da Estefânia e
Areias do Vale de Chelas a variação dos valores do pH é muito similar. Nas Argilas, se
excluir a amostra de água Lis9, cujo valor de pH é 10.45, também se encontra uma
distribuição idêntica às anteriores.
Para a condutividade elétrica, a amostra de água Lis21 é outlier moderado superior das
Areolas da Estefânia e Areias do Vale de Chelas e também o maior valor da amostra
global. As amostras de água do CVL são caracterizadas por apresentar baixa
condutividade elétrica.
49
Para o Eh, a amostra de água Lis37 é outlier moderado superior das Aluviões e a
amostra de água Lis46 é outlier severo inferior na Formação de Benfica, não sendo o
máximo nem o mínimo da amostra global, respetivamente. As amostras de água
recolhidas nas Aluviões caracterizam-se pelos valores de Eh negativos, com exceção da
amostra de água Lis37 que apresenta valor positivo. Nas amostras da Formação de
Benfica, se excluir o outlier, o Eh apresenta valores muito próximos e elevados, em
relação às outras formações geológicas. Nas amostras do CVL os valores de Eh são
maioritariamente positivos. Nas amostras dos Calcários de Entrecampos os valores de
Eh são negativos. Nas amostras das Areolas e das Argilas o Eh apresenta valores, quer
positivos, quer negativos.
Quanto ao ião bicarbonato, as amostras de água Lis24 e Lis46 surgem como outliers da
Formação de Benfica, o primeiro é severo superior e o segundo é moderado inferior. As
amostras Lis44 e Lis47 aparecem como outliers do CVL, o primeiro é severo inferior e
o segundo é moderado superior. Nas amostras de água do CVL, excluindo os outliers,
as concentrações deste ião apresentam valores muito próximos. Nas amostras de água
recolhidas nas outras formações geológicas a concentração deste ião apresenta uma
maior disparidade de valores, destacando as Argilas pela elevada variabilidade.
Quanto ao ião de cálcio, as amostras Lis24 e Lis47 são outliers moderados superiores da
Formação de Benfica e do CVL, respetivamente. As amostras de águas do CVL
caracterizam-se por baixas concentrações deste ião e pela pequena variabilidade
relativamente às outras formações geológicas, enquanto as amostras das Aluviões
caracterizam-se por concentrações mais elevadas deste ião.
Quanto ao ião sódio, a amostra Lis31 representa um outlier moderado superior da
Formação de Benfica e a amostra Lis21 é um outlier moderado superior das Argilas. As
amostras do CVL caracterizam-se por menores concentrações deste ião, em relação às
outras formações geológicas.
Quanto ao ião potássio, as amostras Lis32, Lis14 e Lis9 representam outliers para as
formações CVL, Calcários de Entrecampos e Argilas, respetivamente, sendo os dois
primeiros severos superiores e o último moderado superior. Por observação do diagrama
em caixa de bigodes constata-se que nenhum destes outliers é máximo na amostra
global. É nas Areolas da Estefânia e Areias do Vale de Chelas que a concentração e a
variabilidade são maiores. Sem considerar os outliers, as amostras do CVL e das
Argilas apresentam concentrações deste ião muito baixas, bem como pequenas
variabilidades.
50
Quanto ao ião magnésio, a amostra Lis16 é outlier moderado superior das Aluviões. As
amostras de água das Areolas e das Argilas apresentam grande variabilidade. As
amostras de água provenientes do CVL caracterizam-se por valores mais altos do ião
magnésio.
Quanto ao ião fluoreto, as amostras do CVL apresentam baixas concentrações deste ião,
relativamente às restantes formações geológicas. As amostras de água das Areolas e das
Argilas apresentam uma grande variabilidade e diagramas em caixa de bigodes
idênticos.
Quanto ao ião cloreto, a amostra Lis48 é outlier severo superior do CVL. As amostras
do CVL caracterizam-se por baixas concentrações e pequena variabilidade. Nas
amostras das Aluviões e das Argilas as concentrações deste ião e a variabilidade são
grandes. Os diagramas em caixa de bigodes relativos às amostras de água da Formação
de Benfica e dos Calcários de Entrecampos são idênticos.
Quanto ao ião brometo, as amostras Lis13, Lis3 e Lis7 são outliers, respetivamente, das
Aluviões, Areolas e Argilas, o primeiro é severo superior e os dois últimos são
moderados superiores. As amostras do CVL, da Formação de Benfica e dos Calcários
de Entrecampos apresentam baixas concentrações deste ião.
Quanto ao ião nitrato, as amostras Lis45 e Lis9 são outliers nas Areolas e nas Argilas,
respetivamente, o primeiro é moderado superior e o segundo é severo superior. As
Argilas caracterizam-se por reduzidas concentrações deste ião. As amostras do CVL e
dos Calcários de Entrecampos têm pequenas concentrações deste ião. As amostras da
Formação de Benfica apresentam concentrações muito elevadas deste ião, bem como
uma grande variabilidade.
Quanto ao ião sulfato, as amostras Lis2 e Lis5 são outliers dos Calcários de
Entrecampos, sendo o primeiro severo inferior e o segundo moderado superior. A
amostra Lis21 é outlier severo superior das Areolas. As amostras da Formação de
Benfica e do CVL caracterizam-se por baixas concentrações deste ião, enquanto as
amostras das Argilas têm concentrações muito elevadas deste ião e com uma grande
variabilidade. Nas amostras dos Calcários de Entrecampos, se excluir os outliers, a
variabilidade é reduzida.
51
1
2
3
4
5
6
Figura 5: Diagramas em caixa de bigodes paralelos de cada formação geológica, para cada ião
52
A análise dos diagramas em caixa de bigodes paralelos da figura 5 permite comparar as
concentrações dos iões dissolvidos nas diferentes amostras de água, por cada formação
geológica, para se compreender quais os iões que apresentam maiores concentrações e
quais os iões que apresentam menores concentrações. É unânime afirmar que o ião
bicarbonato apresenta as maiores concentrações, relativamente às concentrações dos
outros iões, qualquer que seja a formação geológica, enquanto os iões fluoreto e
brometo apresentam concentrações mais reduzidas, comparando com as concentrações
dos demais iões dissolvidos nas amostras de água. As concentrações dos iões cálcio,
sódio e cloreto também são altas, comparando com os restantes iões. Particularmente,
em cada formação geológica, pode ser efetuada uma comparação de concentrações dos
diferentes iões, para além do referido.
Nas Aluviões os iões sulfato e nitrato apresentam altas concentrações, em oposição aos
iões potássio e magnésio, cujas concentrações são inferiores.
Na Formação de Benfica o ião nitrato apresenta elevadas concentrações, em oposição as
concentrações dos iões potássio e magnésio são menores.
No CVL o ião potássio apresenta baixas concentrações e o ião magnésio,
comparativamente aos demais iões, apresenta concentrações mais altas, muito
semelhantes às concentrações dos iões cálcio, sódio e cloreto. Ainda se pode observar a
existência de reduzida variabilidade.
Nos Calcários de Entrecampos as concentrações dos iões não são muito elevadas.
Nas Areolas da Estefânia e Areias do Vale de Chelas os iões potássio e nitrato
apresentam concentrações altas.
Nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres as concentrações do
ião sulfato são elevadas, em oposição às concentrações dos iões potássio e nitrato, que
são menores.
Nas representações gráficas seguintes pode observar-se a distribuição das amostras de
água em cada formação geológica e para cada variável em estudo. Desta forma, a figura
6 contempla os diagramas de dispersão das observações reorganizadas (por formação
geológica) versus cada uma das variáveis em estudo.
53
Argilas e
Calcários dos
Prazeres
Argilas
do Forno
do Tijolo
54
Figura 6: Diagramas de dispersão das observações reorganizadas versus cada uma das variáveis em
estudo
À partida seria espectável que amostras de água provenientes da mesma formação
geológica teriam idêntica composição química e amostras de água provenientes de
diferentes formações geológicas teriam diferente composição química, permitindo a
natural separação das amostras por cada um dos grupos de formações geológicas, ou por
outras palavras, o natural agrupamento das amostras de água provenientes do mesmo
grupo de formações geológicas.
Ao analisar-se os 13 diagramas de dispersão, pode concluir-se que na maioria das
variáveis observadas não existe esse agrupamento natural, ou essa separação natural,
como seria esperado. Na figura 6, têm-se as distribuições das concentrações dos iões e
55
das características físico-químicas em cada amostra de água, para cada formação
geológica, donde se pode observar a grande ou pequena dispersão, bem como formação
ou não de grupos. Esta visualização pode trazer muitas informações, mas todas do ponto
de vista univariado. Na secção seguinte (3.2.), procede-se à análise multivariada.
Quanto ao pH, as amostras de água provenientes das Aluviões, dos Calcários de
Entrecampos, das Areolas e das Argilas apresentam grande variabilidade, enquanto na
Formação de Benfica e no CVL a variabilidade é inferior. Desta forma, o pH caracteriza
estas duas últimas formações. Também é evidente a inexistência de grupos.
Quanto à condutividade elétrica, as amostras de água apresentam grande variabilidade,
exceto as provenientes do CVL e dos Calcários de Entrecampos. Não é visível uma
natural separação dos elementos pelas formações geológicas.
Quanto ao Eh, existem dois grupos, um com amostras de Eh positivo e outro com
amostras de Eh negativo. O Eh permite caracterizar a Formação de Benfica e os
Calcários de Entrecampos, uma vez que, nas amostras provenientes da Formação de
Benfica o Eh é sempre positivo e nas amostras dos Calcários de Entrecampos é sempre
negativo. Nas Argilas também existe uma separação. As amostras provenientes das
Argilas do Forno do Tijolo têm Eh negativo e as amostras provenientes das Argilas e
Calcários dos Prazeres têm Eh positivo, como se pode observar na figura 6 (diagrama
relativo ao Eh). Nas Aluviões apenas a amostra Lis37 tem valor de Eh positivo (132.2
mV). No CVL todas as amostras apresentam valor positivo, com exceção das amostras
Lis47 e Lis48 que apresentam os valores -19 mV e 0 mV, respetivamente.
Quanto ao ião bicarbonato, a dispersão é elevada. As concentrações deste ião são
normalmente altas, embora existam duas amostras com reduzidas concentrações deste
ião, uma proveniente da Formação de Benfica e outra das Argilas. Para cada formação
geológica a variabilidade é grande, o que não permite a caracterização das formações
geológicas com este ião. Não é evidente a existência de grupos.
Quanto ao ião cálcio, existe uma grande dispersão e a maioria das amostras de água
têm concentrações elevadas deste ião. Ao observar a figura 6 (diagrama relativo ao
cálcio) é visível o elevado número de amostras que têm concentração deste ião acima do
valor paramétrico assinalado na representação gráfica. Apenas na Formação de Benfica
e no CVL a maioria das amostras tem concentrações abaixo do valor paramétrico. Ainda
de notar que no CVL a variabilidade é reduzida. Este ião não permite caracterizar as
formações geológicas.
56
Quanto ao ião sódio, existe uma grande dispersão, mas apenas duas amostras têm
concentrações elevadas. As amostras provenientes do CVL têm menores concentrações
deste ião, comparativamente às amostras dos Calcários de Entrecampos. Também as
amostras provenientes destas últimas formações geológicas têm menor variabilidade.
Quanto ao ião potássio, existe uma grande dispersão e um grande número de amostras
de água com concentrações superiores ao valor paramétrico (12 mg/L) assinalado na
representação gráfica da figura 6 (diagrama relativo ao potássio). As concentrações do
ião potássio nas amostras de água provenientes do CVL e das Aluviões são reduzidas e
idênticas. Se excluir a amostra de água dos Calcários de Entrecampos com elevada
concentração e considerar as restantes amostras dos Calcários de Entrecampos, as
amostras da Formação de Benfica e as amostras das Argilas, estas têm dispersão
idêntica. Nas Areolas da Estefânia e Areias do Vale de Chelas as concentrações e a
variabilidade deste ião são elevadas.
Quanto ao ião magnésio, existe grande dispersão, com exceção das amostras
provenientes do CVL. Este ião não permite a caracterização das formações geológicas.
Quanto ao ião fluoreto, as amostras de água apresentam grande variabilidade. As
concentrações deste ião nas amostras provenientes do CVL são reduzidas. Nas Aluviões
e nos Calcários de Entrecampos a distribuição é idêntica. As amostras provenientes das
Areolas e Argilas apresentam grande variabilidade, onde duas amostras, uma das
Areolas e outras das Argilas, têm elevadas concentrações deste ião.
Quanto ao ião cloreto, a dispersão é grande, com exceção das amostras provenientes do
CVL. Se excluir a amostra do CVL assinalada na figura 6 (diagrama relativo ao
cloreto), a variabilidade no CVL é muito reduzida. Nas Aluviões e nas Argilas a
variabilidade é muito grande e a distribuição é idêntica, o mesmo sucede com a
Formação de Benfica e as Areolas, onde a variabilidade é grande e a distribuição é
idêntica.
Quanto ao ião brometo, a variabilidade é muito grande, resultado de três amostras (uma
das Aluviões, uma das Areolas e uma das Argilas) com concentrações muito elevadas.
No CVL a variabilidade é muito reduzida, bem como as concentrações deste ião. Na
Formação de Benfica e nos Calcários de Entrecampos as concentrações deste ião e a
variabilidade são baixas.
Quanto ao ião nitrato, existe uma grande dispersão e um número considerável de
amostras com concentração superior a 50 mg/L, como se pode observar na figura 6
(diagrama relativo ao nitrato). As amostras provenientes das Argilas apresentam
57
concentrações e variabilidade reduzidas. As amostras de água provenientes do CVL e
dos Calcários de Entrecampos apresentam baixas concentrações deste ião (sempre
abaixo dos 50 mg/L). Nas amostras das Aluviões, da Formação de Benfica e das
Areolas a variabilidade é muito grande, deste modo existem amostras com baixas
concentrações deste ião e outras com elevadas concentrações, o que não permite a
caracterização destas amostras a partir deste ião.
Quanto ao ião sulfato, a variabilidade é muito acentuada, mas este comportamento não é
sempre o mesmo nas diferentes formações geológicas. Nas amostras da Formação de
Benfica, do CVL e dos Calcários de Entrecampos a variabilidade é menor e as
concentrações deste ião estão abaixo de 200 mg/L. Nas amostras provenientes das
Areolas, se excluir a amostra assinalada na figura 6 (diagrama relativo ao sulfato), com
concentração muito elevada (superior a 600 mg/L), as restantes amostras têm
concentrações abaixo dos 200 mg/L. Nas Argilas a variabilidade é mais acentuada, as
amostras, ora têm concentrações baixas, ora elevadas.
Nas representações gráficas que se seguem estão as matrizes de diagramas de dispersão
para alguns pares de variáveis, para cada formação geológica. Mais precisamente, na
figura 7 encontram-se os diagramas de dispersão em matriz para as variáveis
condutividade elétrica, cálcio, sódio e cloreto (consideradas duas a duas). Na figura 8,
estão os diagramas de dispersão em matriz para as variáveis bicarbonato, cálcio e
magnésio. Na figura 9, estão os diagramas de dispersão em matriz para as variáveis
bicarbonato, cálcio e sulfato. Por último, na figura 10 encontram-se os diagramas de
dispersão das variáveis nitrato e sulfato.
Aluviões (1)
Formação de Benfica (2)
58
CVL (3)
Calcários de Entrecampos (4)
Areolas da Estefânia e Areias do Vale
de Chelas (5)
Argilas do Forno do Tijolo e Argilas e
Calcários dos Prazeres (6)
Figura 7: Matriz de diagramas de dispersão para cada formação geológica com as variáveis condutividade
elétrica, cálcio, sódio e cloreto
Ao observar-se a figura 7 para as variáveis consideradas, nas Aluviões é visível através
dos diagramas de dispersão em matriz uma associação linear positiva entre os pares de
variáveis. Essa associação é mais significativa para os pares condutividade elétrica /
sódio, condutividade elétrica / cloreto e sódio / cloreto, onde os valores dos coeficientes
de correlação de Pearson são 0.912, 0.814 e 0.910, respetivamente. No caso do cálcio /
cloreto e cálcio / sódio essa associação seria mais significativa, se as observações
assinaladas fossem excluídas. Na Formação de Benfica, pode observar-se, na figura 7,
que a correlação é mais significativa para os pares condutividade elétrica / sódio,
condutividade elétrica / cloreto e sódio / cloreto, onde os coeficientes de correlação de
59
Pearson tomam os valores 0.753, 0.809 e 0.884, respetivamente. Quanto ao par
condutividade elétrica / cálcio essa associação é fraca, (0.522 é o valor do coeficiente de
correlação de Pearson). Para os restantes pares de variáveis não existe uma associação
linear. No CVL as associações entre pares de variáveis são mais significativos para os
pares condutividade elétrica / cálcio e cálcio / sódio, cujos valores dos coeficientes de
correlação de Pearson são 0.804 e 0.767, respetivamente. Para os restantes pares de
variáveis a correlação é fraca e pouco significativa. Nos Calcários de Entrecampos pode
observar-se, através da matriz dos diagramas de dispersão da figura 7 para as variáveis
indicadas, que não existe qualquer associação linear entre as variáveis, uma vez que os
pontos não estão alinhados sobre uma reta. Nas Areolas da Estefânia e Areias do Vale
de Chelas as correlações são mais significantes para os pares de variáveis condutividade
elétrica / cálcio, condutividade elétrica / sódio e condutividade elétrica / cloreto, cujos
valores dos coeficientes de correlação de Pearson são 0.613, 0.927 e 0.649,
respetivamente. Nos restantes pares de variáveis a associação é fraca. Nas Argilas do
Forno do Tijolo e Argilas e Calcários dos Prazeres não existem correlações
significantes.
Aluviões
Formação de Benfica
CVL
60
Calcários de Entrecampos
Areolas e Areias
Argilas
Figura 8: Matriz de diagramas de dispersão para cada formação geológica com as variáveis bicarbonato,
cálcio e magnésio
Na figura 8 apresentam-se os diagramas de dispersão em matriz, para cada formação
geológica e para as variáveis bicarbonato, cálcio e magnésio. Nas Aluviões não é visível
a existência de uma associação linear entre esses pares de variáveis, mas se excluir a
observação assinalada (amostra Lis12), o valor do coeficiente de correlação de Pearson
entre o bicarbonato / cálcio é igual a - 0.966. Neste caso, passa a existir uma forte
associação linear negativa entre o bicarbonato e o cálcio, ou seja, à medida que as
concentrações de bicarbonato aumentam, as concentrações de cálcio diminuem. Na
Formação de Benfica é visível a existência de associação linear forte entre os pares de
variáveis bicarbonato / cálcio e bicarbonato / magnésio, cujos valores dos coeficientes
de correlação de Pearson são 0.758 e 0.743, respetivamente. No CVL não existe
claramente associação linear entre os pares de variáveis, porém se excluir a observação
assinalada (amostra Lis44) no diagrama de dispersão do par bicarbonato / cálcio a
correlação passa a ser significativa, sendo o valor do coeficiente de correlação de
Pearson 0.859. Nos Calcários de Entrecampos não existe uma associação linear entre os
pares de variáveis. Nas Areolas da Estefânia e Areias do Vale de Chelas não existe uma
associação linear entre os pares de variáveis, mas se eliminar a observação assinalada
(amostra Lis20) no diagrama de dispersão para o par de variáveis cálcio / magnésio, o
valor do coeficiente de correlação linear passa a ser 0.663. Nas Argilas do Forno do
Tijolo e Argilas e Calcários dos Prazeres a associação linear entre as variáveis é nula.
61
Aluviões
Formação de Benfica
CVL
Calcários de Entrecampos
Areolas e Areias
Argilas
Figura 9: Matriz de diagramas de dispersão para cada formação geológica com as variáveis bicarbonato,
cálcio e sulfato
Na figura 9 apresentam-se os diagramas de dispersão em matriz, para as variáveis
bicarbonato, cálcio e sulfato. Nas Aluviões existe apenas uma forte associação linear
entre o par cálcio / sulfato, onde o valor do coeficiente de correlação de Pearson é
0.815, mas se excluir a observação assinalada (amostra Lis13), o valor do coeficiente de
correlação de Pearson entre o bicarbonato e o sulfato passa a 0.907. Na Formação de
Benfica apenas existe forte associação linear entre o bicarbonato e o cálcio, cujo valor
do coeficiente de correlação de Pearson é 0.798. No CVL não existe associação linear
entre os pares de variáveis considerados, mas se excluir a observação assinalada
(amostra Lis44), o valor do coeficiente de correlação de Pearson entre o bicarbonato e o
cálcio passa a ser 0.859. Nos Calcários de Entrecampos existe uma forte associação
linear entre o bicarbonato e o sulfato, onde o valor do coeficiente de correlação de
Pearson é 0.886. Nas Areolas da Estefânia e Areias do Vale de Chelas apenas existe
associação linear entre as variáveis cálcio e sulfato, cujo valor do coeficiente de
correlação de Pearson é 0.786. Nas Argilas do Forno do Tijolo e Argilas e Calcários dos
Prazeres não há associação linear entre as variáveis consideradas.
62
Aluviões
Formação de Benfica
CVL
Calcários de Entrecampos
Areolas e Areias
Argilas
Figura 10: Diagrama de dispersão para cada formação geológica com as variáveis nitrato e sulfato
Na figura 10 estão representados os diagramas de dispersão para o par nitrato / sulfato,
em cada formação geológica. A existência de associação linear significativa para este
par de variáveis ocorre apenas nos Calcários de Entrecampos, onde o valor do
coeficiente de correlação linear é 0.851.
63
3.2. Análise Multivariada
3.2.1. Análise em Componentes Principais
Como já referido anteriormente, este estudo tem por base 48 amostras de água
subterrânea e 13 variáveis correspondentes a espécies dissolvidas e características
físico-químicas.
Nesta etapa começa-se por efetuar uma análise em componentes principais com o
objetivo principal: a redução da dimensionalidade. Mais precisamente, parte-se de um
conjunto com 13 variáveis correlacionadas (moderadamente) e pretende-se encontrar
um novo conjunto de variáveis não correlacionadas, as componentes principais. Estas
são uma combinação linear das variáveis originais. Deste modo, um menor número
destas variáveis poderá explicar uma percentagem significativa da variabilidade dos
dados. Caso a explicação fosse total, teríamos de usar as 13 componentes principais e o
estudo seria desnecessário.
Em primeiro lugar são determinados os valores próprios da matriz de correlações
amostral, como se pode observar na tabela 5.
Componentes Valores próprios
1 4,095
2 2,024
3 1,706
4 1,328
5 1,256
6 0,648
7 0,548
8 0,476
9 0,299
10 0,245
11 0,176
12 0,152
13 0,048
Tabela 5: Valores próprios da matriz de correlações amostral
64
Em seguida, tem de se decidir o número de componentes a reter. Deste modo, usam-se
três critérios (apresentados anteriormente).
Critério 1: Proporção da variância explicada por cada componente principal
Componentes Proporção de
variância explicada
Proporção de variância
explicada acumulada
1 31,5 31,5
2 15,6 47,1
3 13,1 60,2
4 10,2 70,4
5 9,7 80,1
6 5,0 85,1
7 4,2 89,3
8 3,7 92,9
9 2,3 95,2
10 1,9 97,1
11 1,4 98,5
12 1,2 99,6
13 0,4 100,0
Tabela 6: Proporção de variância explicada por cada componente e proporção de variância acumulada
explicada até à componente j.
Na tabela 6 encontra-se calculada a proporção de variância explicada por cada uma das
13 componentes principais e a proporção de variância explicada acumulada até à j-
ésima componente principal. A componente 1 explica 31.5% da variabilidade total. A
componente 2 explica 15.6% da variabilidade total ainda não explicada pela
componente1 e, assim por diante. Para a proporção de variância explicada ser superior a
80%, têm de se reter as 5 primeiras componentes principais.
Critério 2: Critério de Kaiser
Este critério, proposto por Kaiser em 1960, sugere que se devem reter as componentes
principais cujos valores próprios sejam superiores a um. Na tabela 5 pode observar-se
que os 5 primeiros valores próprios são maiores do que um. Deste modo, devem reter-se
as 5 primeiras componentes principais.
65
Critério 3: Scree plot
Este critério, proposto por Cattell em 1966, sugere que o número de componentes a
reter deve ser aquele que antecede o momento em que o declive atenua, ou seja, quando
os valores próprios forem próximos entre si e de zero.
Figura 11: Scree plot (número de componentes principais versus valores próprios)
Analisando a figura 11, o número de componentes a reter dever ser 5, uma vez que a
partir desse momento os valores próprios estão muito próximos de zero.
Com base nos critérios, devem reter-se as 5 primeiras componentes principais, a
redução de dimensionalidade é de 13 para 5.
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Va
lore
s p
róp
rio
s
Número de componentes principais
Scree plot
66
Componentes Principais
1 2 3 4 5
pH -0,140 0,691 -0,101 0,266 -0,449 0,780
C.E. 0,926 0,184 0,010 -0,006 0,108 0,904
Eh -0,499 0,653 0,052 -0,256 -0,097 0,753
0,447 0,155 0,480 0,128 0,612 0,846
Ca2+
0,706 0,151 -0,043 0,594 0,087 0,883
Na+ 0,730 0,180 -0,042 -0,499 0,045 0,818
K+ -0,056 -0,032 -0,596 -0,014 0,643 0,773
Mg2+
0,261 0,304 0,785 -0,188 0,024 0,813
0,565 -0,562 -0,145 -0,158 -0,286 0,762
0,680 0,470 -0,138 -0,291 -0,095 0,796
0,624 -0,311 -0,141 -0,364 -0,234 0,694
-0,063 0,514 -0,611 -0,207 0,179 0,717
0,700 0,126 -0,235 0,503 -0,237 0,870
4,095 2,024 1,706 1,328 1,256
Tabela 7: Matriz dos loadings das componentes principais
Na tabela 7 encontram-se os loadings das componentes principais para cada uma das 13
variáveis. Para cada variável selecionou-se o maior loading, em valor absoluto, para
compreender qual ou quais as variáveis mais importantes na formação de cada uma das
5 primeiras componentes (ver na tabela o sombreado mais escuro). Deste modo, para a
primeira componente as variáveis que mais contribuíram para a sua formação foram: a
condutividade elétrica, o cálcio, o sódio, o fluoreto, o cloreto, o brometo e o sulfato.
Para a segunda componente principal foram o pH e o Eh. Para a terceira componente
foram o magnésio e o nitrato. Para a quarta componente principal nenhum teve
contribuição importante e para a quinta componente principal foram o bicarbonato e o
potássio. Ainda se podem observar na tabela 7 (sombreado mais claro) os loadings
maiores que 0.3 em valor absoluto. Assim sendo, todas as variáveis originais, exceto o
potássio, são determinantes na formação das duas primeiras componentes.
Na última linha da tabela 7 constam as somas dos quadrados dos elementos de cada
coluna, que coincidem sempre com os valores próprios. Na última coluna da tabela 7
constam as somas dos quadrados dos elementos de cada linha, que representam as
comunalidades, ou seja, a proporção de variância das variáveis originais que é explicada
Soma dos
quadrados
das linhas
Soma dos
quadrados
das colunas
67
pelas componentes retidas. O valor das comunalidades é superior a 0.694. Caso se
considerassem todas as componentes principais a comunalidade de cada variável seria
igual a 1, mas não se estaria a reduzir a dimensionalidade.
Na figura 12 encontra-se a representação gráfica dos loadings das duas primeiras
componentes.
Figura 12: Representação gráfica dos loadings das duas primeiras componentes principais
Analisando a figura 12, pode visualizar-se quais as variáveis que mais contribuíram para
as duas primeiras componentes principais. Na tabela 7 essa análise tinha sido efetuada
para as cinco primeiras componentes. O potássio não contribuiu para a formação das
duas primeiras componentes. O bicarbonato e o magnésio têm uma pequena
contribuição. Relativamente à componente 2, o fluoreto e o brometo estão em oposição
à condutividade elétrica, cálcio, sódio, sulfato e cloreto. Em relação à componente 1, o
Eh, o pH e o nitrato estão em oposição à condutividade elétrica, cálcio, sódio, sulfato e
cloreto.
Nas figuras 13 e 14 podem observar-se as representações gráficas dos scores para as
duas primeiras componentes principais. No primeiro caso, a legenda refere-se o número
da amostra a que pertencem, ou seja, 23 representa a amostra Lis23, por exemplo. No
68
segundo caso os indivíduos estão representados pela formação geológica a que
pertencem.
Figura 13: Representação gráfica dos scores (observações) das duas primeiras componentes principais
Constata-se que as amostras Lis12 e Lis21 estão afastadas da nuvem de pontos. De um
modo geral, a amostra Lis12 tem reduzidas concentrações na maioria dos iões, em
oposição, a amostra Lis21 tem altas concentrações na maioria dos iões.
É visível um grande grupo de elementos, essencialmente provenientes da Formação de
Benfica, do CVL, das Areolas e das Argilas, como se pode observar na figura 14.
Observam-se uns grupos mais pequenos (com menos elementos), essencialmente
provenientes das Aluviões, dos Calcários, das Areolas e das Argilas.
69
Figura 14: Representação gráfica dos scores (formações geológicas) das duas primeiras componentes
principais
Nas figuras 15 e 16 estão representados os biplots3 dos loadings e dos scores das duas
primeiras componentes principais. No primeiro caso, a legenda corresponde ao número
da amostra e no segundo caso, a legenda corresponde às formações geológicas. Deste
modo, pretende-se compreender qual ou quais os iões que caracterizam uma
determinada formação geológica. Devido à complexa litologia de Lisboa não existe uma
separação evidente e natural dos elementos (amostras) pelas seis formações geológicas.
Existe uma separação em termos de localização geográfica, ou seja, amostras
localmente mais próximas “aparentam” características semelhantes. Nas amostras de
água provenientes da Formação de Benfica e do CVL, a proximidade não é apenas
geográfica. Nas figuras 15 e 16 pode observar-se a proximidade destas amostras e
também que, na componente 2 estas amostras são caracterizadas pelo pH, Eh e nitratos.
As amostras das Aluviões são caracterizadas na componente 1 pelo fluoreto e pelo
3 Biplot é uma dupla representação gráfica, em que constam os loadings das variáveis, representados
através dos vetores e os scores de cada observação, representados através de pontos.
70
cloreto. Quanto às restantes formações geológicas não é visível a caracterização, uma
vez que existe uma maior dispersão.
Figura 15: Representação gráfica (biplot) dos loadings e dos scores (observações) das duas primeiras
componentes principais
Figura 16: Representação gráfica (biplot) dos loadings e dos scores (formações geológicas) das duas
primeiras componentes principais
71
3.2.2. Análise Fatorial
Nesta secção irá efetuar-se uma análise fatorial que permita explicar as correlações
existentes entre as variáveis, ou seja, parte-se de um conjunto de 13 variáveis e
pretende-se encontrar um menor número de fatores que expliquem essas correlações.
Por um lado pretende-se que a perda de informação seja a menor possível, por outro o
número de fatores não pode ser muito elevado.
Utiliza-se o método das componentes principais para a extração dos fatores e a rotação
varimax para a rotação dos fatores.
Começa-se pela determinação dos valores próprios da matriz de correlações. Esses
valores próprios encontram-se na tabela 8.
Fatores Valores Próprios
1 4,039
2 1,885
3 1,692
4 1,528
5 1,078
6 0,776
7 0,533
8 0,498
9 0,417
10 0,248
11 0,176
12 0,100
13 0,030
Tabela 8: Valores próprios da matriz de correlações amostral
Note-se que a matriz de correlações amostral usada é a mesma, tanto na análise em
componentes principais, como na análise fatorial. O modelo matemático da análise em
componentes principais é Y = AX (Y as componentes principais e X as variáveis
originais), enquanto o modelo matemático da análise fatorial é Y = , ou seja,
72
Y = (Y as variáveis originais e f os fatores). Deste modo, há uma pequena
diferença nos valores próprios.
Na tabela 9 encontra-se a proporção de variância explicada pelos fatores.
Fatores Proporção de
variância explicada
Proporção de variância
explicada acumulada
1 31,1 31,1
2 14,5 45,6
3 13,0 58,6
4 11,8 70,3
5 8,3 78,6
6 6,0 84,6
7 4,1 88,7
8 3,8 92,5
9 3,2 95,7
10 1,9 97,6
11 1,4 99,0
12 0,8 99,8
13 0,2 100,0
Tabela 9: Proporção de variância explicada por cada fator e proporção de variância acumulada pelo fator j
Pela análise das tabelas 8 e 9, os 5 primeiros fatores têm valores próprios superiores a
um e a variância explicada é 78.6%. Deste modo, deve prosseguir-se a análise com os
cinco fatores.
Na tabela 10 encontram-se as comunalidades iniciais (com todos os fatores) e as
extraídas (com 5 fatores). Observa-se que todas as comunalidades têm um valor alto.
Deste modo, as variáveis são bem explicadas pelos fatores da análise fatorial.
73
Comunalidades
Iniciais Extraídas
pH 1,000 0,828
C.E. 1,000 0,933
Eh 1,000 0,734
1,000 0,860
Ca2+
1,000 0,807
Na+ 1,000 0,797
K+ 1,000 0,677
Mg2+
1,000 0,763
1,000 0,752
1,000 0,785
1,000 0,698
1,000 0,727
1,000 0,861
Tabela 10: Comunalidades iniciais e extraídas através do método das componentes principais
Na tabela 11 encontram-se os loadings que permitem avaliar a correlação entre as
variáveis e os fatores, assinalando os que têm um valor superior a 0.7, em módulo.
Fatores
1 2 3 4 5
pH -0,146 0,539 0,466 -0,546 0,012
C.E. 0,932 0,219 0,008 0,065 -0,111
Eh -0,469 0,632 -0,125 0,081 0,304
0,444 0,151 -0,628 0,205 -0,452
Ca2+
0,722 0,057 0,252 -0,149 -0,445
Na+ 0,763 0,201 -0,078 0,226 0,344
K+ -0,002 0,056 0,322 0,669 -0,350
Mg2+
0,307 0,355 -0,664 -0,318 0,017
0,626 -0,532 0,179 -0,050 0,208
0,642 0,540 -0,016 0,126 0,257
0,509 -0,405 -0,059 0,235 0,465
-0,117 0,456 0,409 0,579 0,057
0,679 0,069 0,498 -0,383 -0,033
Tabela 11: Matriz dos loadings (sem rotação dos fatores)
74
Por observação da tabela 11, apenas 3 loadings verificam essa condição. Logo, é
necessário proceder à rotação dos fatores, através da rotação varimax.
1 2 3 4 5
1 0,644 0,610 0,381 0,248 -0,080
2 -0,132 0,602 -0,771 0,090 0,131
3 0,459 -0,047 -0,120 -0,736 0,481
4 -0,354 0,160 0,352 0,245 0,816
5 -0,482 0,488 0,348 -0,573 -0,283
Tabela 12: Matriz da transformação ortogonal obtida pelo método de rotação varimax
Na tabela 12 encontra-se a matriz ortogonal obtida pelo método varimax, que é utilizada
para obter a matriz dos loadings após rotação, que se pode visualizar na tabela 13. A
matriz da tabela 13 é obtida pelo produto das matrizes das tabelas 11 e 12. A matriz dos
loadings da tabela 13 permite uma melhor interpretação, uma vez que existe um maior
número de loadings significativos (maiores que 0.7 em módulo).
Fatores
1 2 3 4 5
pH 0,236 0,132 -0,716 -0,471 -0,143
C.E. 0,605 0,656 0,170 0,325 0,043
Eh -0,618 0,262 -0,517 -0,122 0,040
0,123 0,204 0,042 0,895 -0,022
Ca2+
0,840 0,222 -0,006 0,218 0,076
Na+ 0,183 0,794 0,344 0,123 0,015
K+ 0,071 -0,046 0,031 0,131 0,807
Mg2+
-0,050 0,389 -0,184 0,509 -0,562
0,473 0,146 0,682 -0,156 -0,133
0,166 0,862 -0,036 0,103 0,041
0,047 0,333 0,758 -0,076 -0,062
-0,180 0,304 -0,222 -0,180 0,721
0,808 0,354 0,000 -0,266 -0,109
Tabela 13: Matriz dos loadings (após rotação varimax)
Deste modo, o fator 1 está associado ao ião cálcio e o ião sulfato, o fator 2 está
associado ao ião sódio e ao ião cloreto, o fator 3 está associado ao pH e ao ião brometo,
75
o fator 4 está associado ao ião bicarbonato e o fator 5 está associado ao potássio e ao ião
nitrato (tabela 14).
Fatores Variáveis
1 Cálcio e sulfato
2 Sódio e cloreto
3 pH e brometo
4 Bicarbonato
5 Potássio e nitrato
Tabela 14: Designação dos fatores
Figura 17: Representação gráfica dos loadings dos 2 primeiros fatores
Na figura 17 tem-se a representação gráfica dos loadings do fator 1 versus fator 2,
quando se extraem 2 fatores. Estes dois fatores explicam apenas 45.6% da variação, o
que é muito reduzido.
76
Na tabela 15 estão indicados o valor do KMO e o resultado do teste de esfericidade de
Bartlett.
Kaiser-Meyer-Olkin Measure of
Sampling Adequacy 0,478
Teste de
esfericidade
de Bartlett
Estatística de teste 348,578
Graus de liberdade 78
Valor p 0,000
Tabela 15: KMO e teste de esfericidade de Bartlett
Deste modo, o valor do KMO é inferior a 0.5, pelo que a análise fatorial não é aplicável
aos dados. O KMO é uma medida de adequação de amostragem e este baixo valor pode
estar relacionado com a reduzida dimensão da amostra face ao número de variáveis. O
teste de esfericidade de Bartlett permite rejeitar a hipótese da matriz de correlações ser
igual à matriz identidade, uma vez que o valor p é reduzido, significa que as variáveis
estão correlacionadas.
O KMO é uma medida de adequação amostral global, enquanto o MSA é uma medida
de adequação amostral individual, que permite avaliar a adequação de cada uma das
variáveis para a análise fatorial. Para a análise fatorial ser boa ou muito boa, o MSA de
cada variável deve ser superior a 0.8. Observando a tabela 16, nenhum é superior a 0.8,
embora alguns se considerem aceitáveis (superiores a 0.5), nomeadamente, para a
condutividade elétrica, o Eh, o fluoreto, o cloreto, o brometo e o sulfato. Se fossem
utilizadas apenas essas variáveis o KMO aumentaria, mas muita informação era perdida.
Deste modo, não se refaz a análise fatorial com essas variáveis.
77
Variáveis MSA
pH 0,404
C.E. 0,544
Eh 0,562
0,423
Ca2+
0,381
Na+ 0,480
K+ 0,124
Mg2+
0,267
0,729
0,785
0,690
0,357
0,540
Tabela 16: Medida de adequação amostral para cada variável (MSA)
78
3.2.3. Análise de Clusters
Nesta secção pretende-se reagrupar o conjunto de dados (amostras de água) de acordo
com a sua composição química.
O conjunto de dados, inicialmente, está subdividido em seis grupos (cada um dos
grupos de formações geológicas) e pretende-se efetuar um novo agrupamento.
Para determinar a distância entre dois indivíduos usa-se o quadrado da distância
euclidiana e os critérios de agregação usados são: critério de Ward e critério do
Complete Linkage. Numa primeira fase usam-se todas as variáveis e numa segunda fase
usam-se as cinco primeiras componentes principais (os scores).
Como as variáveis têm variâncias muito diferentes, usam-se as variáveis
estandardizadas. Na figura 18 encontra-se o dendograma referente à análise de clusters
para a amostra global, usando o critério de agregação de Ward. A amostra Lis21
encontra-se afastada das restantes não sendo incluída em nenhum cluster. Assim sendo,
são visíveis 3 clusters: cluster1, cluster2 e cluster3. No cluster1 encontram-se,
maioritariamente, amostras provenientes da Formação de Benfica e do CVL. A amostra
Lis 24 da Formação de Benfica e Lis47 e Lis48 do CVL não pertencem a este cluster.
Neste cluster não aparecem amostras provenientes dos Calcários de Entrecampos. No
cluster2 apenas não existem amostras provenientes dos Calcários de Entrecampos. No
cluster3 não existem amostras provenientes da Formação de Benfica e do CVL.
Desta forma, pode afirmar-se que as amostras provenientes da Formação de Benfica e
do CVL apresentam características distintas das outras formações geológicas, em
particular dos Calcários de Entrecampos, pois não existem clusters que tenham
simultaneamente amostras dessas formações. As amostras de água provenientes da
Formação de Benfica e do CVL apresentam, entre si, características idênticas. Quanto
às amostras provenientes das Aluviões, das Areolas e das Argilas estão presentes em
todos os clusters. Observando a figura 19 pode dizer-se que as amostras que constituem
o cluster3 estão geograficamente próximas, donde as suas características poderão ser
idênticas.
79
cluster1 cluster2 cluster3
Figura 18: Dendograma (variáveis estandardizadas) para a amostra global utilizando o método de Ward
Figura 19: Localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e
cluster3) obtidos quando se utiliza o método de Ward com as variáveis estandardizadas
80
Na figura 20 encontra-se o dendograma relativo à análise de clusters para a amostra
global usando o critério de Complete Linkage (ou vizinho mais afastado). As amostras
Lis9 e Lis21 não se inserem em nenhum dos clusters, uma vez que se encontram muito
afastadas, o mesmo se tinha verificado anteriormente para a amostra Lis21. São visíveis
3 clusters: cluster1, cluster2 e cluster3. No cluster1 encontram-se as amostras
provenientes da Formação de Benfica e do CVL, na sua maioria. De salientar que,
apenas, as amostras Lis24 e Lis31 provenientes da Formação de Benfica não constam
neste cluster. Este cluster, também não tem amostras provenientes dos Calcários de
Entrecampos nem das Argilas. Nos cluster2 e cluster3 encontram-se amostras
provenientes das restantes formações geológicas. Note-se que as amostras provenientes
do CVL apenas se encontram no cluster1. As amostras provenientes dos Calcários de
Entrecampos não pertencem ao mesmo cluster das amostras provenientes do CVL.
cluster1 cluster2 cluster3
Figura 20: Dendograma (variáveis estandardizadas) para a amostra global utilizando o método de
Complete Linkage
Na figura 21 encontra-se o mapa com a localização geográfica das amostras de água que
constituem os clusters (cluster1, cluster2 e cluster 3) obtidos, quando se utiliza o método
Complete Linkage com as variáveis estandardizadas.
81
Figura 21: Localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e
cluster3) obtidos quando se utiliza o método de Complete Linkage com as variáveis
estandardizadas
Analisando as figuras 18 e 20 pode concluir-se que em ambos os casos o cluster1 é mais
uniforme, ou seja, é constituído por amostras provenientes de duas formações
geológicas, que na sua maioria não tem representatividade nos outros dois clusters
(cluster2 e cluster3). Comparando os mapas geológicos das figuras 19 e 21 conclui-se
que no primeiro caso, os cluster2 e cluster3 não apresentam uma uniformidade de
formações geológicas, mas apresentam uma uniformidade geográfica, contrariamente,
no segundo caso, os cluster2 e cluster3 não apresentam uniformidade geográfica nem a
nível das formações geológicas.
Nestes dois primeiros casos, os clusters têm praticamente a mesma dimensão, variando
entre 11 e 19 elementos.
Numa segunda fase, usam-se os scores das cinco primeiras componentes principais em
vez das treze variáveis. As 5 primeiras componentes principais retidas explicam 80.1%
da variabilidade total, pelo que alguma informação será perdida.
82
Na figura 22 encontra-se o dendograma obtido da análise de clusters efetuada, quando
se utilizam os scores das cinco primeiras componentes principais e o critério de Ward.
Fazendo uma primeira análise poderia considerar-se a existência de 5 ou 6 clusters, mas
observando a constituição de cada um deles, rapidamente se constata que não existe
uniformidade quanto à proveniência das amostras. Deste modo, considera-se a divisão
em 3 clusters: cluster1, cluster2 e cluster3, indicados na figura 22. O cluster1 tem na sua
maioria, amostras provenientes do CVL, da Formação de Benfica e das Areolas,
enquanto os cluster2 e cluster3 não apresentam essa homogeneidade de proveniência.
Assim sendo, observa-se, mais uma vez que, o cluster1 tem maioritariamente amostras
provenientes da Formação de Benfica e do CVL, não tendo amostras provenientes das
Aluviões. No cluster1 existem 5 amostras provenientes das Areolas e uma dos Calcários
de Entrecampos. Os cluster2 não apresenta amostras provenientes do CVL e cluster3
não apresenta amostras provenientes da Formação de Benfica nem do CVL. As
amostras Lis 36 e Lis 46 da Formação de Benfica encontram-se no cluster2 e amostras
Lis9 e Lis21 encontram-se no cluster3.
Neste caso, a separação por formação geológica não é tão evidente.
Os clusters obtidos não têm igual dimensão. O cluster1 tem 23 elementos e os clusters2
e cluster3 têm 12 e 13 elementos, respetivamente.
83
cluster1 cluster2 cluster3
Figura 22: Dendograma (com os scores das 5 primeiras componentes principais) para a amostra global
usando o método de Ward
Na figura 23 encontra-se o mapa com a localização geográfica das amostras de água que
constituem os clusters (cluster1, cluster2 e cluster 3) obtidos, quando se utiliza o método
de Ward com as com os scores das 5 primeiras componentes principais.
84
Figura 23: Localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e
cluster3) obtidos quando se utiliza o método de Ward com as 5 primeiras componentes
principais
Na figura 24 encontra-se o dendograma obtido para a análise de clusters efetuada,
quando se utilizam os scores das 5 primeiras componentes principais e o critério de
Complete Linkage. Observando o dendograma são visíveis 3 clusters: cluster1, cluster2
e cluster3. O número de elementos que constituem os clusters é muito diferente. O
cluster1 tem 30 elementos, o cluster2 tem 5 elementos e o cluster3 tem 13 elementos. O
cluster2 é o mais homogéneo, contendo maioritariamente amostras provenientes das
Areolas, embora seja constituído apenas por cinco elementos. Os elementos do cluster3
provêm das Aluviões, dos Calcários de Entrecampos, das Areolas e das Argilas. As
amostras provenientes da Formação de Benfica e do CVL pertencem todas ao cluster1,
mas existem muitos elementos das outras formações geológicas.
85
cluster1 cluster2 cluster3
Figura 24: Dendograma (com os scores das 5 primeiras componentes principais) para a amostra global
usando o método de Complete Linkage
Na figura 25 encontra-se o mapa com a localização geográfica das amostras de água que
constituem os clusters (cluster1, cluster2 e cluster 3) obtidos, quando se utiliza o método
de Complete Linkage com os scores das com as 5 primeiras componentes principais.
Assim sendo, a separação dos elementos, quer pelas formações geológicas, quer pela
localização geográfica não é evidente.
Analisando os clusters obtidos nestes dois últimos casos, verifica-se que o cluster3 em
ambos os casos é constituído pelos mesmos elementos. Os cluster1 e cluster2 diferem
um pouco.
86
Figura 25: Localização geográfica das amostras de água que constituem os clusters (cluster1, cluster2 e
cluster3) obtidos quando se utiliza o método de Complete Linkage com os scores das 5
primeiras componentes principais
Após se terem analisado os 4 dendogramas, pode concluir-se que não existe uma clara
separação por formação geológica, porém existe uma separação geográfica (visível
quando se utiliza o método de Ward e as variáveis estandardizadas). Também é ponto
comum a separação da Formação de Benfica e do CVL das restantes formações
geológicas, o que reforça a proximidade destas duas formações geológicas. Em
particular estas duas formações geológicas distanciam-se dos Calcários de Entrecampos.
Existindo esta heterogeneidade dentro de cada formação geológica, realizou-se uma
análise de clusters para as amostras provenientes de cada formação geológica. Os
dendogramas obtidos usando o critério de Ward e as variáveis estandardizadas
encontram-se na figura 26.
87
Aluviões (1) Formação de Benfica (2)
CVL (3) Calcários (4)
Areolas e Areias (5) Argilas (6)
Figura 26: Dendogramas (observações) para cada formação geológica utilizando o método de Ward
(variáveis estandardizadas)
Observando cada um dos seis dendogramas existe uma clara formação de grupos dentro
de cada formação geológica, o que permite concluir que existe alguma heterogeneidade
dentro das formações geológicas. Nas Aluviões são visíveis dois grupos, em que o
88
primeiro contém as amostras Lis11, Lis16, Lis37 e Lis10 e o segundo contém as
amostras Lis12 e Lis13. Na Formação de Benfica também existe alguma
heterogeneidade, salientando a separação das amostras Lis36 e Lis46 das restantes. Essa
separação também é geográfica (figura 1). No CVL as amostras Lis47 e Lis48 afastam-
se das restantes e curiosamente, quando se realizou a análise de clusters com a amostra
global, usando as treze variáveis estandardizadas e o critério de Ward (ver figura 18)
estas duas amostras não pertenciam ao cluster1, ou seja, apresentam uma menor
proximidade em relação às restantes amostras dessa formação geológica. Nos Calcários
de Entrecampos as amostras Lis1 e Lis2 afastam-se das restantes. Nas Areolas destaca-
se o enorme afastamento da amostra Lis21 em relação às restantes. Esta amostra
apresenta características bastante diferenciadas, quer em relação às restantes amostras
das Areolas, quer em relação à amostra global. Em análises anteriores já tinha sido
referida como outlier (ver diagrama em caixa de bigodes da figura 4), porém as
restantes observações das Areolas apresentam algumas diferenças, sendo possível
separar em dois grupos, um com as amostras Lis 39, Lis41, Lis45, Lis38, Lis40 e Lis20
e o outro com as amostras Lis3, Lis15, Lis4, Lis6 e Lis18. Nas Argilas a amostra Lis9
apresenta-se bastante afastada das demais amostras desta formação. As restantes
amostras revelam alguma proximidade, em particular as amostras Lis22, Lis43 e Lis42.
89
Capítulo 4: Conclusões
As amostras de água provenientes das Aluviões caracterizam-se por elevadas
concentrações dos iões cálcio, cloreto e brometo, em relação aos restantes grupos de
formações geológicas. As amostras de água provenientes da Formação de Benfica
caracterizam-se por baixas concentrações do ião bicarbonato, elevadas concentrações do
ião nitrato e elevado pH e Eh, em relação aos restantes grupos de formações geológicas.
As amostras de água provenientes do CVL caracterizam-se por baixa condutividade
elétrica, baixas concentrações dos iões cálcio, sódio, potássio, fluoreto, brometo e
sulfato e elevadas concentrações do ião magnésio, em relação aos restantes grupos de
formações geológicas. As amostras de água provenientes dos Calcários de Entrecampos
caracterizam-se por baixo pH e Eh, baixas concentrações do ião magnésio e elevadas
concentrações do ião bicarbonato, em relação aos restantes grupos de formações
geológicas. As amostras de água provenientes das Areolas da Estefânia e Areias do Vale
de Chelas caracterizam-se por elevadas concentrações dos iões sódio e potássio, em
relação aos restantes grupos de formações geológicas. As amostras de água provenientes
das Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres caracterizam-se por
baixas concentrações do ião nitrato, elevada condutividade elétrica e elevadas
concentrações dos iões sulfato e fluoreto, em relação aos restantes grupos de formações
geológicas. Na tabela 17, encontra-se sintetizada toda a informação descrita
anteriormente.
pH C.E. Eh HCO3 Ca Na K Mg F Cl Br NO3 SO4
1 --- --- --- --- E --- --- --- --- E E --- ---
2 E --- E B --- --- --- --- --- --- --- E ---
3 --- B --- --- B B B E B B B --- B
4 B --- B E --- --- --- B --- --- --- --- ---
5 --- --- --- --- --- E E --- --- --- --- --- ---
6 --- E --- --- --- --- --- --- E --- --- B E
1 – Aluviões, 2 – Formação de Benfica, 3 – CVL, 4 – Calcários de Entrecampos, 5 – Areolas da Estefânia
e Areias do Vale de Chelas e 6 – Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres
B – baixa concentração (ou baixo valor) e E – elevada concentração (ou elevado valor)
Tabela 17: Caracterização dos grupos de formações geológicas
90
De um modo geral, pode concluir-se que as amostras provenientes do CVL e da
Formação de Benfica caracterizam-se por baixas concentrações da maioria das espécies
dissolvidas em relação aos restantes grupos de formações geológicas, embora no CVL
essas concentrações sejam na sua maioria inferiores. Nestas duas formações geológicas
existe um grande número de variáveis, cuja variabilidade em torno da média é reduzida
quando comparada com a variabilidade das variáveis nos outros grupos de formações
geológicas. Nas Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres, em
oposição, a maioria das variáveis apresenta uma grande variabilidade.
Na tabela 18 encontram-se indicados os outliers severos e moderados, por cada grupo
de formações geológicas e para cada variável em estudo. Existem 25 outliers, mas
apenas, 4 desses outliers são máximos (ou mínimos) na amostra global.
Formações Geológicas
1 2 3 4 5 6
pH Lis30
C.E. Lis21
Eh Lis37 Lis46
Lis24/Lis46 Lis44/Lis47
Ca2+
Lis24 Lis47
Na+ Lis31 Lis21
K+ Lis32 Lis14 Lis9
Mg2+
Lis16
Lis48
Lis13 Lis3 Lis7
Lis45 Lis9
Lis2/Lis5 Lis21
Legenda:
Outlier severo superior
Outlier severo inferior
Outlier moderado superior
Outlier moderado inferior
Tabela 18: Tabela resumo dos outliers por cada grupo de formação geológica e por cada variável
91
Pode concluir-se que as amostras de água provenientes do CVL têm um maior número
de outliers, em particular outliers severos, enquanto nos outros grupos de formações
geológicas o número de outliers é menor. As amostras de água Lis9 e Lis21 aparecem
algumas vezes como outliers. A amostra Lis21 caracteriza-se por valores elevados em
algumas variáveis, nomeadamente na condutividade elétrica, cálcio, sódio, fluoreto,
brometo e sulfato. A amostra Lis12 caracteriza-se por baixos valores em algumas
variáveis, nomeadamente, na condutividade elétrica, Eh, bicarbonato, sódio, cloreto,
nitrato e sulfato. A amostra Lis9, numas vezes surge com valores elevados (pH e
sulfato) e, noutras vezes com valores baixos (bicarbonato, sódio, magnésio e cloreto),
com se pode ver na tabela do anexo 3.
Sobre a qualidade da água para consumo humano pode-se aferir que, das 48 amostras de
água, apenas 8 (Lis7, Lis12, Lis27, Lis29, Lis30, Lis33, Lis36 e Lis44) são
consideradas apropriadas para o consumo humano, embora fosse necessário averiguar
se, do ponto de vista bacteriológico, estariam de acordo com as recomendações da
legislação que regula a qualidade das águas para o consumo humano.
Com o intuito de reduzir a dimensionalidade foi efetuada uma análise em componentes
principais. Nesta análise transformou-se um conjunto de 13 variáveis correlacionadas
num conjunto de 5 variáveis não correlacionadas: as componentes principais. Estas
permitiram descrever a variabilidade dos dados, usando um menor número de variáveis
e perdendo a menor informação possível. Para que a proporção de variância explicada
fosse superior 80% eram necessárias 5 componentes principais. A primeira componente
principal explicava 31.5% da variabilidade total e a segunda componente principal
explicava 15.6% da variabilidade total, ainda não explicada. Assim sendo, as duas
primeiras componentes principais explicavam menos de 50% da variabilidade total.
As variáveis em estudo são bem descritas pelas 5 componentes retidas, com exceção das
variáveis brometo e nitrato, uma vez que as suas comunalidades são inferiores a 0.75.
Quanto à análise fatorial, procedeu-se à validação do modelo obtido e concluiu-se que,
apesar da matriz de correlações ser diferente da matriz identidade, a análise fatorial foi
considerada não aplicável aos dados
92
Com o objetivo de reagrupar as amostras de água de acordo com a sua composição
química, efetuou-se uma análise de clusters. Com esta análise pretendia-se formar novos
grupos (os clusters), de modo que elementos do mesmo cluster tivessem características
idênticas e elementos de clusters diferentes tivessem características diferentes.
Deste modo, a análise foi dividida em duas partes: na primeira parte utilizaram-se todas
as variáveis (estandardizadas) em estudo e na segunda parte utilizaram-se os scores das
5 primeiras componentes principais. Em ambas as situações foram obtidos 3 clusters,
que se designaram por: cluster1, cluster2 e cluster3.
Analisando os dendogramas e os mapas das localizações geográficas, concluiu-se que as
amostras de água provenientes da Formação de Benfica e do CVL pertenciam,
maioritariamente, ao cluster1 e não tinham representatividade nos outros dois clusters.
Também se observou que as amostras provenientes dos Calcários de Entrecampos não
pertenciam ao cluster1. Assim sendo, concluiu-se que as amostras de água provenientes
da Formação de Benfica e do CVL, tinham características idênticas entre si, ou seja,
tinham idêntica composição química. Quando comparadas as amostras, provenientes da
Formação de Benfica e do CVL com os restantes grupos de formações geológicas era
notória uma diferenciação. Em particular, as amostras de água provenientes dos
Calcários de Entrecampos tinham composição química bastante diferente. Quando se
observou a constituição dos clusters, de um modo geral, os clusters que continham as
amostras de água provenientes da Formação de Benfica e do CVL não tinham amostras
de água provenientes dos Calcários de Entrecampos. Os outros dois clusters eram
constituídos, maioritariamente, por amostras de água provenientes das Aluviões, dos
Calcários de Entrecampos, das Areolas da Estefânia e Areias do Vale de Chelas e das
Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres. Quando se analisou o
mapa das formações geológicas era visível uma proximidade geográfica das amostras de
água que constituíam o cluster3.
Foi efetuada uma análise de clusters para cada grupo de formações geológicas, obtendo-
se os seis dendogramas respetivos. Nas Aluviões, as amostras Lis12 e Lis13
apresentavam uma diferenciação das restantes amostras dessa formação. A amostra
Lis12 era caracterizada por baixas concentrações de espécies dissolvidas. Na Formação
de Benfica as amostras Lis36 e Lis46 apresentavam características que as separavam
das restantes amostras. Essa separação também é geográfica. No CVL as amostras Lis47
e Lis48 apresentavam diferente composição química das restantes amostras do CVL.
Nos Calcários de Entrecampos as amostras Lis1 e Lis2 também tinham uma
93
diferenciação. Nas Areolas da Estefânia e Areias do Vale de Chelas, a amostra Lis21
apresentava características muito diferentes, mais precisamente, era uma amostra cujas
concentrações dos iões eram bastante elevadas. Nas Argilas do Forno do Tijolo e
Argilas e Calcários dos Prazeres, a amostra Lis9 também apresentava uma diferenciação
em relação às restantes amostras deste grupo.
De um modo geral, e ao contrário do que se poderia esperar, as amostras de água
provenientes do mesmo grupo de formações geológicas não tinham idêntica composição
química. Desta forma, a sua caracterização era muito complexa. Quando se separou o
estudo por formação geológica foi visível essa heterogeneidade. Ao realizar a análise
exploratória verificou-se que existia, para a maioria das variáveis, uma grande
variabilidade, com exceção da Formação de Benfica e do CVL, onde as variáveis
apresentavam menor variabilidade e, consequentemente, maior homogeneidade na
composição química.
94
95
Considerações Finais
O principal objetivo do estudo não foi conseguido, nomeadamente, a caracterização de
cada grupo de formações geológicas através da análise das concentrações das espécies
químicas dissolvidas nas águas subterrâneas e dos parâmetros físico-químicos
considerados.
Pretendia-se efetuar uma análise fatorial com o intuito de encontrar um conjunto de
novas variáveis, não correlacionadas, não observadas e em menor número, que
explicassem as correlações existentes entre as variáveis, o que não se verificou. A
reduzida dimensão da amostra impediu a realização de uma análise fatorial com os
dados de cada formação geológica. Segundo (Everitt, 2011), a dimensão da amostra
deveria ser, no mínimo, na proporção de 5 para 1 (5 observações para cada variável
considerada), o que não se verificou nos dados analisados.
Tal como já foi referido anteriormente, a amostra não foi recolhida especificamente para
este trabalho, resultou de um conjunto de amostras que tinham sido recolhidas para a
elaboração de outros trabalhos. Em termos temporais, também não foram recolhidas no
mesmo período. A recolha decorreu entre os anos de 2006 e 2009.
Sendo a água um recurso natural e vital para a sobrevivência da espécie humana, todos
os estudos que se realizem serão de extrema importância. Para que as conclusões
obtidas sejam mais relevantes, o primeiro aspeto a ter em consideração será a seleção da
amostra. Sendo a litologia da cidade de Lisboa tão complexa, a amostra global deverá
ter uma dimensão elevada, bem como cada uma das amostras parciais (por formação
geológica).
96
97
Bibliografia
[1] Afifi, A. e Clark, V., (1996), Computer – Aided Multivariate Analysis,
Chapman e Hall, Londres, 3ª edição.
[2] Almeida, C.; Mendonça, J.J.L.; Jesus, M.R.; Gomes, A.J., (2000), Sistemas
Aquíferos de Portugal Continental. Instituto da Água. pp 661.
[3] Almeida, I.M. (1991), Características geotécnicas dos solos de Lisboa.
Dissertação apresentada à Universidade de Lisboa para obtenção do grau de
doutor em Geologia, na especialidade de Geotecnia. FCUL, Lisboa. pp 485.
[4] Anderson, T., (2003), An introduction to multivariate statistical analysis,
Wiley, Nova Jérsia.
[5] Arabie, P. e Hubert, LJ., (1995), Clustering from the perspective of
combinatorial data analysis. In Recent Advances in Descriptive Multivariate
Analysis, p.1 – 13, Oxford Science Publications, Nova Iorque.
[6] Bargmann, R., (1969), Exploratory techniques involving artificial variables.
In Multivariate Analysis – Volume II, p.567 – 580, Academia Press, Nova
Iorque.
[7] Caria, C., Oliveira, J., Henriques, J., Vasconcelos, M., Gonçalves, V., (2009),
Introdução ao Estudo Hidrogeológico da Sub-Bacia Hidrográfica de
Alcântara – Lisboa. Relatório de Projecto da Licenciatura em Geologia
Aplicada e do Ambiente. FCUL. Lisboa. 110 pp.
[8] Cattell, R., (1966), The scree test for the number of factos, Multivariate
Behavioral Research, p. 245-276 in http://dx.doi.org/10.1207/s15327906mbr
0102_10 consultado a 27 de julho de 2011.
[9] Chatfield, C. e Collins, A. J., (1980), Introduction to Multivariate Analysis,
Science Paperbacks, Londres.
[10] David, J., (1973), Statistics and data analysis in Geology, Wiley, Canada.
[11] Everitt, B. e Hothorn, T, (2011), An Introduction to Applied Multivariate
Analysis with R, Springer, Nova Iorque.
[12] Everitt, B., Landau, S. e Leese, M., (2001), Cluster Analysis, Arnold,
Londres.
[13] Flury, B.D., (1995), Developments in principal component analysis. In
Recent Advances in Descriptive Multivariate Analysis, p.14 – 33, Oxford
Science Publications, Nova Iorque.
98
[14] Flury, B.D., (1997), A first course in Multivariate Analysis, Springer, Nova
Iorque.
[15] Gnanadesikan, R. e Wilk, M.B., (1969), Data Analysis Methods in
Multivariate Statistical Analysis. In Multivariate Analysis – Volume II, p.593
– 638, Academia Press, Nova Iorque.
[16] Gnanadesikan, R., (1997), Methods for Statistical Data Analysis of
Multivariate Observations, Wiley, 2ª edição, Nova Iorque.
[17] Gnanadesikan, R., (2000), Cluster Analysis: an overview of aims, aids and
challenges. In A Estatística em Movimento Actas do VIII Congresso Anual
da Sociedade Portuguesa da Estatística, p. 39 – 57, Edições SPE, Lisboa.
[18] Harman, H., (1976), Modern Factor Analysis, The University of Chicago
Press, 3ªedição, Chicago.
[19] Hotelling, H., (1933), Simplified Calculation of Principal Components,
Psychometrika, vol. 1, No 1, p.27-35.
[20] http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in
+Factor+Analysis, consultado em 25 de setembro de 2013
[21] Jackson, J., (2003), A User’s Guide to Principal Components, Wiley, Nova
Jérsia.
[22] Jobson, J., (1992), Applied Multivariate Data Analysis, Volume II –
Categorical and Multivariate methods, Springer, Nova Iorque.
[23] Johnson, D., (1998), Applied Multivariate Methods for Data Analysts,
Duxbury Press, California.
[24] Jolliffe, I.T., (1986), Principal Component Analysis, Springer, Nova Iorque.
[25] Kendall, M., (1980), Multivariate Analysis, Charles Griffin, Londres.
[26] Krzanowski, W.J., (2003), Principles of Multivariate Analysis, Oxford, Nova
Iorque.
[27] Lopes, P., (2007), Avaliação Quantitativa e Qualitativa das Águas
Subterrâneas da Área Urbana do Lumiar. Dissertação apresentada à
Universidade Técnica de Lisboa para obtenção do grau de Mestre em
Engenharia do Ambiente. Universidade Técnica de Lisboa, Instituto Superior
Técnico. Lisboa, 98 pp.
[28] Manca, F., Ferreira, H., Silva, J., Francisco, L., Gonzalez, V., (2008), Estudo
Hidrogeológico das freguesias de São Domingues de Benfica e Nossa
99
Senhora de Fátima – Lisboa. Relatório de Projeto da Licenciatura em
Geologia Aplicada e do Ambiente. FCUL. Lisboa. 153 pp e anexos.
[29] Mardia, K., Kent, J. e Bibby, J., (1979), Multivariate Analysis, Academia
Press, Londres.
[30] Maroco, J., (2007), Análise Estatística com utilização do SPSS, Edições
Sílabo, Lisboa.
[31] Maxwell, A.E., (1977), Multivariate Analysis in Behavioural Research,
Chapman e Hall, Nova Iorque.
[32] McGarigal, K., Cushman, S. e Stafford, S., (2000), Multivariate Statistics for
Wildlife and Ecology Research, Springer, Nova Iorque.
[33] Mckillup, S. e Dyar, M., (2010), Geostatistics Explained An Introduction
guide for Earth Scientists, Cambridge, Cambridge.
[34] Monteiro, A., (2001), Álgebra Linear e Geometria Analítica, McGraw-Hill,
Amadora.
[35] Morrison, D., (1990), Multivariate Statistical Methods, McGraw-Hill,
3ªedição, Singapura.
[36] Murteira, B et al, (2007), Introdução à Estatística, 2ª edição, McGraw-Hill,
Lisboa.
[37] Okamoto, M., (1969), Optimality of Principal Components. In Multivariate
Analysis – Volume II, p.673 – 685, Academia Press, Nova Iorque.
[38] Oliveira, M., (2010), Estudo Hidrogeológico da Sub Bacia Hidrográfica de
Alcântara-Lisboa. Dissertação para obtenção do grau de Mestre em Geologia
Aplicada, na especialidade de Hidrogeologia. Faculdade de Ciências da
Universidade de Lisboa, Lisboa, 209 p.
[39] Pais, J., Moniz, C., Cabral, J., Cardoso, J. L., Legoinha, P., Machado, S.,
Morais, M.A., Lourenço C., Ribeiro, M.L., Henriques, P., Falé, P., (2006),
Carta Geológica de Portugal na escala 1: 50.000. Notícia Explicativa da Folha
34-D (Lisboa). Serv. Geol. Portugal, Lisboa. pp 74.
[40] Pestana, D. e Velosa, F., (2002), Introdução à Probabilidade e à Estatística –
Volume I, Fundação Calouste Gulbenkian, Lisboa.
[41] Reis, E., (1997), Estatística Multivariada Aplicada, Edições Sílabo, Lisboa.
[42] Rencher, A.,(1995), Methods of Multivariate Analysis, Wiley, Canada.
[43] Sanches, F., Marques, J., Latas P., Cardoso S., (2006), Breve estudo
hidrogeológico da zona de Telheiras-Lisboa. Relatório de Projeto da
100
Licenciatura em Geologia Aplicada e do Ambiente. FCUL. Lisboa. 88 pp. e
anexos.
[44] Searle, S., (1982), Matrix Algebra useful for Statistics, Wiley, Nova Iorque.
[45] Sharma, S., (1996), Applied Multivariate Techniques, Wiley, Nova Iorque.
[46] Srivastava, M.S. & Carter, E.M., (1983), An Introduction to Applied
Multivariate Statistics, North Holland, Nova Iorque.
[47] Srivastava, M.S., (2002), Methods of Multivariate Statistics, Wiley, Nova
Iorque.
[48] Stone, J., (2004), Independent Component Analysis – A tutorial introduction,
Londres.
[49] Timm, N. H.,(2002), Applied Multivariate Analysis, Springer, Nova Iorque.
[50] Wackernagel, H., (1995), Multivariate Geostatistics, Springer, Nova Iorque.
[51] Diário da República nº 164, série I - Decreto-Lei nº306/2007 de 27 de Agosto
de 2007, p.5747-5765.
101
Anexos
102
103
Nova
Ref Tipo
Formação
Geológica
pH C.E. Eh Ca
2+ Na
+ K
+ Mg
2+
mic.zim mV mg/L mg/L mg/L mg/L mg/L mg/L mg/L mg/L mg/L mg/L
Lis1 poço 4 6,85 982 -112 298 85,6 100 25,2 0,0 0,44 64,5 0,00 21,4 115,4
Lis2 poço 4 7,11 1025 -174 210 74,4 138 12,2 14,3 0,47 108,4 0,00 6,9 57,8
Lis3 poço 5 6,50 1273 -115 316 104 167 25,9 15,2 0,62 90,2 3,40 44,9 162
Lis4 poço 5 6,13 1543 -127 384 151 178 8,2 33,9 0,19 87,2 0,45 13,9 158
Lis5 poço 4 6,25 1356 -86 575 126 133 13,5 27,4 0,33 94,6 0,40 39,6 147
Lis6 poço 5 6,26 1067 -258 322 126 98,2 5,6 16,0 0,17 52,6 0,17 29,3 82,9
Lis7 poço 6 6,70 1353 -84 372 75,2 140 9,4 43,3 0,53 123,4 3,20 1,6 37,7
Lis8 poço 6 6,61 1403 -170 472 204 60,5 1,1 42,3 1,00 25,7 0,27 5,2 243
Lis9 poço 6 10,45 930 -125 43 140 9,7 26 3,4 0,11 32,4 0,00 21,4 459,2
Lis10 mina 1 7,17 1580 -135 283 246 74,9 1,6 9,1 0,57 100 0,20 78 176
Lis11 poço 1 8,52 1100 -92 401 192 62 2,9 17,0 0,15 90,3 0,44 56,7 225,4
Lis12 poço 1 6,60 447 -183 214 79,2 19,4 8,9 13,6 0,42 18,5 0,00 0,44 6,1
Lis13 poço 1 6,20 1236 -116 482 129 84 13,8 33,2 0,34 72,7 3,30 19,4 122
Lis14 poço 4 6,65 1492 -153 470 130 99 85,8 37,4 0,14 89 0,00 29,8 127
Lis15 poço 5 6,59 1452 -146 376 131 123 76,6 37,7 0,53 96 1,40 55 142
Lis16 poço 1 8,44 1762 -62,9 401 179 122 3,7 73,5 0,25 158,3 0,32 21,6 226,4
Lis17 mina 4 8,31 1270 -74,7 426 154 89,6 4,9 24,5 0,21 103 0,23 38 127,3
Lis18 nascente 5 8,16 1165 -58,9 334 165 78,7 8,4 18,3 0,49 86,4 0,74 42,7 175,3
Lis19 nascente 4 8,00 1233 -79,4 512 174 89,3 22,5 23,6 0,28 67,9 0,19 46,9 124,9
Lis20 poço 5 8,16 1436 -91,7 427 96 114,7 2,7 69,5 0,27 128,5 0,00 4,45 159,5
Lis21 poço 5 8,31 2220 -90,2 318 240 275,4 9,6 41,3 1,01 157 1,81 6,05 653
Lis22 poço 6 8,59 1871 -81 333 144 147 8,7 91,4 0,21 170,2 0,37 2,49 216
Lis23 poço 2 7,87 1028 172 233 106 72,9 16,6 25,5 0,15 71,8 0,08 206 52,9
Lis24 poço 2 7,19 1184 188 529,5 150 71,3 3,17 42,2 0,12 81,1 0,21 38,5 70
Lis25 poço 2 8,05 1154 197 219,6 84 132 23,3 19,9 0,27 117,8 0,22 119,5 123
104
Anexo 1: Matriz dos dados
Lis26 poço 2 7,92 1289 202 300,1 96 132 3,83 41,2 0,31 153,7 0,40 152 70,9
Lis27 poço 3 7,43 944 200 401,4 84 51,4 3,61 55,5 0,20 53,9 0,07 13,93 98,3
Lis28 poço 2 7,86 730 227 251,3 67,5 65,3 16,2 29,9 0,14 71,1 0,11 40,1 90,1
Lis29 furo 3 7,44 734 226 367,2 73,3 46,3 2,2 49,9 0,15 45 0,10 4,53 97,6
Lis30 mina 3 8,30 728 165 386,7 67 48,5 0 57,5 0,12 49 0,10 5,52 96,4
Lis31 poço 2 7,98 1244 203 361,1 63,5 217 6,13 36,8 0,15 149 0,26 39 110
Lis32 poço 3 7,58 802 248 396,5 70,3 71,2 16,1 40,1 0,14 57,1 0,09 47,1 55,5
Lis33 poço 2 7,35 834 204 284,3 89 86,1 9,15 20,2 0,10 116,7 0,28 31,8 78,3
Lis34 poço 2 7,39 963 230 295,2 116 73,9 17,8 18,5 0,11 85 0,23 155,6 74
Lis35 poço 2 7,88 975 222 274,5 77,6 121 6,9 27,0 0,35 101,7 0,24 88 112
Lis36 poço 2 7,32 483 195,1 234 80 32 5 6,3 0,24 36,6 0,00 3,8 42,9
Lis37 poço 1 7,38 1473 132,2 381 213 111 3,3 25,4 0,17 191 0,83 118 271
Lis38 poço 5 7,31 1273 101,9 447 181 86 12,9 24,2 0,11 171 0,00 6,5 197
Lis39 mina 5 8,19 892 163,5 358 108 48 58,9 0,9 0,00 55,6 0,00 48,1 87,8
Lis40 poço 5 7,32 1225 98,2 477 169 93 28,1 44,1 0,12 120 0,00 71,3 123
Lis41 poço 5 8,20 996 125,5 383 120 70 56,6 9,7 0,00 68,3 0,00 91,9 95,8
Lis42 poço 6 6,86 1420 131 536 194 175 1,7 33,3 0,31 195 1,10 0 329
Lis43 poço 6 8,01 1642 133,7 559 142 181 2,7 60,3 0,18 74,7 0,00 3,3 57,3
Lis44 nascente 3 7,51 707 186 287 72 23 2,3 42,3 0,00 51,3 0,00 1,4 31,8
Lis45 poço 5 7,48 1465 68,5 397 104 151 109 18,9 0,15 135 0,00 147 130
Lis46 poço 2 7,98 395 75,6 82 40 34 2,8 9,2 0,06 47 0,00 2,6 72,7
Lis47 nascente 3 7,25 993 -19 448 113 99,7 0,6 65,0 0,00 60,8 0,00 49,5 61,6
Lis48 nascente 3 7,60 1005 0 388 86,4 70,7 1,1 65,1 0,14 111 0,00 10,3 60,9
105
pH C.E. Eh HCO3 Ca Na K Mg F Cl Br NO3 SO4 FormGeol
Média 7,39 1266,33 -76,15 360,33 172,97 78,88 5,70 28,63 ,32 105,13 ,85 49,02 171,15
Aluviões Mínimo 6,20 447,00 -183,00 214,00 79,20 19,40 1,60 9,10 ,15 18,50 ,00 ,44 6,10
Máximo 8,52 1762,00 132,20 482,00 245,60 122,00 13,80 73,50 ,57 191,00 3,30 118,00 271,00
Média 7,71 934,45 192,34 278,61 88,15 94,32 10,08 25,15 ,18 93,77 ,18 79,72 81,53 Formação de
Benfica Mínimo 7,19 395,00 75,60 82,00 40,00 32,00 2,80 6,30 ,06 36,60 ,00 2,60 42,90
Máximo 8,05 1289,00 230,00 529,48 150,00 217,00 23,30 42,20 ,35 153,70 ,40 206,00 123,00
Média 7,59 844,71 143,71 382,12 80,86 58,69 3,70 53,63 ,11 61,16 ,05 18,90 71,73
CVL Mínimo 7,25 707,00 -19,00 287,00 67,00 23,00 ,00 40,10 ,00 45,00 ,00 1,40 31,80
Máximo 8,30 1005,00 248,00 448,00 113,00 99,70 16,10 65,10 ,20 111,00 ,10 49,50 98,30
Média 7,20 1226,33 -113,18 415,17 124,00 108,15 27,35 21,20 ,31 87,90 ,14 30,43 116,57 Calcários de
Entrecampos Mínimo 6,25 982,00 -174,00 210,00 74,40 89,30 4,90 ,00 ,14 64,50 ,00 6,90 57,80
Máximo 8,31 1492,00 -74,70 575,00 174,00 138,00 85,80 37,40 ,47 108,40 ,40 46,90 147,00
Média 7,38 1333,92 -27,44 378,25 141,28 123,58 33,54 27,48 ,31 103,98 ,66 46,76 180,53 Areolas da
Estefânia e Areias
do Vale de Chelas
Mínimo 6,13 892,00 -258,10 316,00 96,00 48,00 2,70 ,90 ,00 52,60 ,00 4,45 82,90
Máximo 8,31 2220,00 163,50 477,00 240,00 275,40 109,00 69,50 1,01 171,00 3,40 147,00 653,00
Média 7,87 1436,50 -32,62 385,83 149,87 118,87 8,27 45,67 ,39 103,57 ,82 5,67 223,70 Argilas do Forno
do Tijolo e Arg. e
Calc. Prazeres
Mínimo 6,61 930,00 -170,00 43,00 75,20 9,70 1,10 3,40 ,11 25,70 ,00 ,00 37,70
Máximo 10,45 1871,00 133,70 559,00 204,00 181,00 26,00 91,40 1,00 195,00 3,20 21,40 459,20
Baixo
Médio
Elevado
Anexo 2: Caracterização dos grupos de formações geológicas
106
Amostra Valor
Amostra Valor
pH
Maiores
valores
1º 9 10,45
C.E.
Maiores
valores
1º 21 2220
2º 22 8,59
2º 22 1871
3º 11 8,52
3º 16 1762
4º 16 8,44
4º 43 1642
5º 17 8,31
5º 10 1580
Menores
valores
1º 4 6,13
Menores
valores
1º 46 395
2º 13 6,20
2º 12 447
3º 5 6,25
3º 36 483
4º 6 6,26
4º 44 707
5º 3 6,50
5º 30 728
Amostra Valor
Amostra Valor
Eh
Maiores
valores
1º 32 248,0
HCO3
Maiores
valores
1º 5 575,00
2º 34 230,0
2º 43 559,00
3º 28 227,0
3º 42 536,00
4º 29 226,0
4º 24 529,48
5º 35 222,0
5º 19 512,00
Menores
valores
1º 6 -258,1
Menores
valores
1º 9 43,00
2º 12 -183,0
2º 46 82,00
3º 2 -174,0
3º 2 210,00
4º 8 -170,0
4º 12 214,00
5º 14 -153,0
5º 25 219,60
Amostra Valor
Amostra Valor
Ca
Maiores
valores
1º 10 245,6
Na
Maiores
valores
1º 21 275,4
2º 21 240,0
2º 31 217,0
3º 37 213,0
3º 43 181,0
4º 8 204,0
4º 4 178,0
5º 42 194,0
5º 42 175,0
Menores
valores
1º 46 40,0
Menores
valores
1º 9 9,7
2º 31 63,5
2º 12 19,4
3º 30 67,0
3º 44 23,0
4º 28 67,5
4º 36 32,0
5º 32 70,3
5º 46 34,0
Amostra Valor
Amostra Valor
K Maiores
valores
1º 45 109,0
Mg Maiores
valores
1º 22 91,4
2º 14 85,8
2º 16 73,5
3º 15 76,6
3º 20 69,5
4º 39 58,9
4º 48 65,1
5º 41 56,6
5º 47 65,0
107
K Menores
valores
1º 30 ,0
Mg Menores
valores
1º 1 ,0
2º 47 ,6
2º 39 ,9
3º 48 1,1
3º 9 3,4
4º 8 1,1
4º 36 6,3
5º 10 1,6
5º 10 9,1
Amostra Valor
Amostra Valor
F
Maiores
valores
1º 21 1,01
Cl
Maiores
valores
1º 42 195,0
2º 8 1,00
2º 37 191,0
3º 3 ,62
3º 38 171,0
4º 10 ,57
4º 22 170,2
5º 7 ,53
5º 16 158,3
Menores
valores
1º 47 ,00
Menores
valores
1º 12 18,5
2º 44 ,00
2º 8 25,7
3º 41 ,00
3º 9 32,4
4º 39 ,00
4º 36 36,6
5º 46 ,06
5º 29 45,0
Amostra Valor
Amostra Valor
Br
Maiores
valores
1º 3 3,40
NO3
Maiores
valores
1º 23 206,00
2º 13 3,30
2º 34 155,60
3º 7 3,20
3º 26 152,00
4º 21 1,81
4º 45 147,00
5º 15 1,40
5º 25 119,50
Menores
valores
1º 48 ,00
Menores
valores
1º 42 ,00
2º 47 ,00
2º 12 ,44
3º 46 ,00
3º 44 1,40
4º 45 ,00
4º 7 1,60
5º 44 ,00
5º 22 2,49
Amostra Valor
SO4
Maiores
valores
1º 21 653,0
2º 9 459,2
3º 42 329,0
4º 37 271,0
5º 8 243,0
Menores
valores
1º 12 6,1
2º 44 31,8
3º 7 37,7
4º 36 42,9
5º 23 52,9
Anexo 3: Tabelas com os valores extremos (os 5 maiores e os 5 menores valores) para cada variável
108
Anexo 4: Matriz de correlações de Peason - amostra gobal
pH C.E. Eh Ca
2+ Na
+ K
+ Mg
2+
pH 1 -,023 ,254 -,355* ,026 -,144 -,065 ,074 -,266 ,060 -,337
* ,102 ,344
*
C.E. -,023 1 -,378**
,453**
,691**
,752**
,121 ,390**
,450**
,656**
,326* ,040 ,583
**
Eh ,254 -,378**
1 -,043 -,375**
-,145 -,092 ,055 -,499**
,063 -,285* ,336
* -,288
*
-,355
* ,453
** -,043 1 ,384
** ,288
* ,047 ,441
** ,009 ,242 ,121 -,134 -,022
Ca2+
,026 ,691**
-,375**
,384**
1 ,263 -,055 ,021 ,385**
,377**
,136 ,037 ,666**
Na+ -,144 ,752
** -,145 ,288
* ,263 1 ,060 ,248 ,398
** ,664
** ,384
** ,033 ,395
**
K+ -,065 ,121 -,092 ,047 -,055 ,060 1 -,275 -,096 -,004 -,005 ,325
* -,019
Mg2+
,074 ,390**
,055 ,441**
,021 ,248 -,275 1 -,038 ,285* ,010 -,261 ,015
-,266 ,450**
-,499**
,009 ,385**
,398**
-,096 -,038 1 ,091 ,491**
-,166 ,453**
,060 ,656**
,063 ,242 ,377**
,664**
-,004 ,285* ,091 1 ,215 ,173 ,379
**
-,337* ,326
* -,285
* ,121 ,136 ,384
** -,005 ,010 ,491
** ,215 1 -,100 ,228
,102 ,040 ,336
* -,134 ,037 ,033 ,325
* -,261 -,166 ,173 -,100 1 -,130
,344
* ,583
** -,288
* -,022 ,666
** ,395
** -,019 ,015 ,453
** ,379
** ,228 -,130 1
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
109
Anexo 5: Matriz de correlações de Pearson - Aluviões
pH C.E. Eh Ca
2+ Na
+ K
+ Mg
2+
pH 1 ,429 ,267 ,168 ,486 ,389 -,744 ,401 -,556 ,502 -,536 ,224 ,678
C.E. ,429 1 ,479 ,491 ,780 ,912* -,473 ,537 -,111 ,814
* ,076 ,480 ,796
Eh ,267 ,479 1 ,371 ,474 ,690 -,351 ,207 -,631 ,877* ,040 ,769 ,762
,168 ,491 ,371 1 ,160 ,645 ,262 ,491 -,576 ,422 ,735 ,090 ,531
Ca2+
,486 ,780 ,474 ,160 1 ,570 -,792 -,041 -,037 ,684 -,235 ,812* ,815
*
Na+ ,389 ,912
* ,690 ,645 ,570 1 -,288 ,697 -,400 ,910
* ,217 ,437 ,810
K+ -,744 -,473 -,351 ,262 -,792 -,288 1 ,035 ,115 -,546 ,762 -,627 -,646
Mg2+
,401 ,537 ,207 ,491 -,041 ,697 ,035 1 -,368 ,486 ,122 -,292 ,327
-,556 -,111 -,631 -,576 -,037 -,400 ,115 -,368 1 -,498 -,090 -,225 -,578
,502 ,814* ,877
* ,422 ,684 ,910
* -,546 ,486 -,498 1 -,069 ,692 ,902
*
-,536 ,076 ,040 ,735 -,235 ,217 ,762 ,122 -,090 -,069 1 -,148 -,062
,224 ,480 ,769 ,090 ,812
* ,437 -,627 -,292 -,225 ,692 -,148 1 ,734
,678 ,796 ,762 ,531 ,815
* ,810 -,646 ,327 -,578 ,902
* -,062 ,734 1
*. Correlation is significant at the 0.05 level (2-tailed).
110
Anexo 6: Matriz de correlações de Pearson - Formação de Benfica
pH C.E. Eh Ca
2+ Na
+ K
+ Mg
2+
pH 1 ,158 -,243 -,512 -,634* ,466 ,219 ,102 ,291 ,334 ,044 ,255 ,543
C.E. ,158 1 ,479 ,650* ,522 ,753
** ,165 ,816
** ,338 ,809
** ,795
** ,557 ,408
Eh -,243 ,479 1 ,503 ,387 ,362 ,362 ,376 ,415 ,401 ,538 ,275 ,268
-,512 ,650
* ,503 1 ,758
** ,326 -,213 ,743
** ,018 ,353 ,498 ,005 ,039
Ca2+
-,634* ,522 ,387 ,758
** 1 -,099 ,094 ,442 -,008 ,064 ,332 ,410 -,295
Na+ ,466 ,753
** ,362 ,326 -,099 1 ,037 ,577 ,340 ,884
** ,674
* ,192 ,692
*
K+ ,219 ,165 ,362 -,213 ,094 ,037 1 -,169 ,000 ,017 -,014 ,541 ,313
Mg2+
,102 ,816**
,376 ,743**
,442 ,577 -,169 1 ,174 ,647* ,669
* ,249 ,259
,291 ,338 ,415 ,018 -,008 ,340 ,000 ,174 1 ,346 ,363 ,287 ,306
,334 ,809**
,401 ,353 ,064 ,884**
,017 ,647* ,346 1 ,909
** ,302 ,565
,044 ,795**
,538 ,498 ,332 ,674* -,014 ,669
* ,363 ,909
** 1 ,354 ,422
,255 ,557 ,275 ,005 ,410 ,192 ,541 ,249 ,287 ,302 ,354 1 -,018
,543 ,408 ,268 ,039 -,295 ,692
* ,313 ,259 ,306 ,565 ,422 -,018 1
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
111
pH C.E. Eh Ca
2+ Na
+ K
+ Mg
2+
pH 1 -,451 ,199 -,127 -,603 -,312 -,122 ,015 ,198 -,079 ,447 -,386 ,307
C.E. -,451 1 -,742 ,681 ,804* ,738 -,141 ,732 ,109 ,669 -,508 ,433 -,007
Eh ,199 -,742 1 -,447 -,800* -,648 ,524 -,845
* ,410 -,678 ,739 -,247 ,235
-,127 ,681 -,447 1 ,635 ,890
** ,058 ,616 ,227 ,181 ,106 ,683 ,404
Ca2+
-,603 ,804* -,800
* ,635 1 ,767
* -,319 ,682 -,380 ,308 -,609 ,549 -,127
Na+ -,312 ,738 -,648 ,890
** ,767
* 1 ,127 ,567 -,090 ,382 -,238 ,827
* -,023
K+ -,122 -,141 ,524 ,058 -,319 ,127 1 -,670 ,279 -,125 ,331 ,542 -,250
Mg2+
,015 ,732 -,845* ,616 ,682 ,567 -,670 1 -,006 ,540 -,351 ,047 ,307
,198 ,109 ,410 ,227 -,380 -,090 ,279 -,006 1 ,109 ,649 -,196 ,681
-,079 ,669 -,678 ,181 ,308 ,382 -,125 ,540 ,109 1 -,561 ,018 -,280
,447 -,508 ,739 ,106 -,609 -,238 ,331 -,351 ,649 -,561 1 -,118 ,727
-,386 ,433 -,247 ,683 ,549 ,827
* ,542 ,047 -,196 ,018 -,118 1 -,253
,307 -,007 ,235 ,404 -,127 -,023 -,250 ,307 ,681 -,280 ,727 -,253 1
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
Anexo 7: Matriz de correlações de Pearson - Complexo Vulcânico de Lisboa
112
Anexo 8: Matriz de correlações de Pearson - Calcários de Entrecampos
pH C.E. Eh Ca
2+ Na
+ K
+ Mg
2+
pH 1 -,143 ,426 -,060 ,559 -,622 -,386 -,023 -,234 ,002 ,047 ,319 -,085
C.E. -,143 1 ,168 ,797 ,612 -,197 ,566 ,953**
-,887* ,186 ,392 ,596 ,650
Eh ,426 ,168 1 ,638 ,705 -,473 -,458 ,048 -,267 -,327 ,760 ,844* ,736
-,060 ,797 ,638 1 ,779 -,250 ,180 ,692 -,660 -,170 ,748 ,907
* ,886
*
Ca2+
,559 ,612 ,705 ,779 1 -,641 ,042 ,606 -,745 -,185 ,541 ,928**
,651
Na+ -,622 -,197 -,473 -,250 -,641 1 -,251 -,097 ,586 ,537 ,116 -,538 -,434
K+ -,386 ,566 -,458 ,180 ,042 -,251 1 ,490 -,554 -,198 -,475 -,018 ,177
Mg2+
-,023 ,953**
,048 ,692 ,606 -,097 ,490 1 -,840* ,360 ,350 ,503 ,432
-,234 -,887* -,267 -,660 -,745 ,586 -,554 -,840
* 1 -,062 -,207 -,634 -,613
,002 ,186 -,327 -,170 -,185 ,537 -,198 ,360 -,062 1 ,157 -,324 -,349
,047 ,392 ,760 ,748 ,541 ,116 -,475 ,350 -,207 ,157 1 ,712 ,641
,319 ,596 ,844
* ,907
* ,928
** -,538 -,018 ,503 -,634 -,324 ,712 1 ,851
*
-,085 ,650 ,736 ,886
* ,651 -,434 ,177 ,432 -,613 -,349 ,641 ,851
* 1
**. Correlation is significant at the 0.01 level (2-tailed).
*. Correlation is significant at the 0.05 level (2-tailed).
113
pH C.E. Eh Ca
2+ Na
+ K
+ Mg
2+
pH 1 ,050 ,567 ,080 ,176 -,134 ,059 ,048 ,045 ,229 -,271 ,081 ,325
C.E. ,050 1 -,337 -,133 ,613* ,927
** -,152 ,558 ,755
** ,649
* ,372 -,277 ,871
**
Eh ,567 -,337 1 ,521 -,027 -,435 ,421 -,305 -,516 ,183 -,442 ,433 -,168
,080 -,133 ,521 1 -,026 -,345 ,097 ,440 -,549 ,452 -,596
* ,132 -,302
Ca2+
,176 ,613* -,027 -,026 1 ,485 -,422 ,201 ,517 ,519 ,116 -,410 ,786
**
Na+ -,134 ,927
** -,435 -,345 ,485 1 -,146 ,359 ,769
** ,451 ,567 -,213 ,804
**
K+ ,059 -,152 ,421 ,097 -,422 -,146 1 -,350 -,247 -,079 -,110 ,854
** -,294
Mg2+
,048 ,558 -,305 ,440 ,201 ,359 -,350 1 ,294 ,531 -,038 -,391 ,314
,045 ,755**
-,516 -,549 ,517 ,769**
-,247 ,294 1 ,321 ,779**
-,339 ,797**
,229 ,649* ,183 ,452 ,519 ,451 -,079 ,531 ,321 1 ,019 -,146 ,568
-,271 ,372 -,442 -,596* ,116 ,567 -,110 -,038 ,779
** ,019 1 -,184 ,398
,081 -,277 ,433 ,132 -,410 -,213 ,854
** -,391 -,339 -,146 -,184 1 -,387
,325 ,871
** -,168 -,302 ,786
** ,804
** -,294 ,314 ,797
** ,568 ,398 -,387 1
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
Anexo 9: Matriz de correlações de Pearson - Areolas da Estefânia e Areias do Vale de Chelas
114
pH C.E. Eh Ca
2+ Na
+ K
+ Mg
2+
pH 1 -,344 -,186 -,805 -,163 -,508 ,849* -,250 -,697 -,296 -,535 ,831
* ,554
C.E. -,344 1 ,320 ,609 ,062 ,736 -,655 ,974**
-,020 ,524 -,069 -,755 -,567
Eh -,186 ,320 1 ,612 ,115 ,778 -,442 ,140 -,476 ,497 -,049 -,452 -,236
-,805 ,609 ,612 1 ,334 ,764 -,973
** ,450 ,341 ,336 ,106 -,862
* -,583
Ca2+
-,163 ,062 ,115 ,334 1 -,116 -,413 -,077 ,319 -,069 -,626 -,049 ,502
Na+ -,508 ,736 ,778 ,764 -,116 1 -,681 ,625 -,216 ,737 ,293 -,859
* -,641
K+ ,849
* -,655 -,442 -,973
** -,413 -,681 1 -,517 -,484 -,328 -,093 ,880
* ,537
Mg2+
-,250 ,974**
,140 ,450 -,077 ,625 -,517 1 -,018 ,456 -,029 -,662 -,582
-,697 -,020 -,476 ,341 ,319 -,216 -,484 -,018 1 -,323 ,224 -,284 -,196
-,296 ,524 ,497 ,336 -,069 ,737 -,328 ,456 -,323 1 ,384 -,652 -,141
-,535 -,069 -,049 ,106 -,626 ,293 -,093 -,029 ,224 ,384 1 -,422 -,481
,831
* -,755 -,452 -,862
* -,049 -,859
* ,880
* -,662 -,284 -,652 -,422 1 ,673
,554 -,567 -,236 -,583 ,502 -,641 ,537 -,582 -,196 -,141 -,481 ,673 1
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
Anexo 10: Matriz de correlações de Pearson - Argilas do Forno do Tijolo e Argilas e Calcários dos Prazeres
115
Scores
Amostra Componentes
1 2 3 4 5
1 -,249 -1,386 -,846 ,293 ,255
2 -,099 -1,359 -,811 -,962 -,587
3 1,046 -1,916 -1,252 -1,796 -,270
4 ,811 -,811 ,515 -,254 ,682
5 ,769 -,613 ,427 -,346 1,437
6 -,377 -1,418 ,296 ,466 ,347
7 ,722 -1,666 ,895 -2,473 -,600
8 1,205 -1,500 ,795 1,785 ,202
9 -,560 -,246 -1,533 3,266 -1,469
10 ,767 -,722 -1,082 1,503 -,427
11 ,245 ,496 -,127 1,714 -,465
12 -1,438 -2,528 ,187 ,123 -,551
13 ,766 -1,962 ,398 -,360 ,796
14 ,384 -,575 -,131 ,449 2,759
15 1,007 -1,432 -1,181 -,999 1,259
16 1,388 1,076 1,138 ,581 -,572
17 ,328 ,301 -,074 ,788 -,452
18 ,559 -,552 -,512 ,751 -1,225
19 ,263 ,125 -,015 1,347 ,761
20 ,520 ,556 1,454 -,309 -,170
21 2,759 ,171 -,494 ,062 -2,327
22 1,504 1,213 ,900 -,149 -,937
23 -1,087 ,959 -1,268 -,380 -,250
24 -,312 ,472 1,196 ,313 ,976
25 -,187 ,925 -1,658 -1,068 -,443
26 ,027 1,511 -,523 -1,734 -,655
27 -,842 ,007 1,560 ,176 ,030
28 -1,303 ,376 -,173 -,396 -,662
29 -1,293 -,038 1,147 ,020 -,236
30 -1,302 ,526 1,363 ,203 -,715
31 ,244 1,223 ,085 -1,621 -,647
32 -,973 ,411 ,732 -,433 ,592
33 -,609 ,404 -,167 -,861 -,668
34 -,694 ,821 -1,175 -,549 ,144
35 -,272 ,661 -,620 -1,296 -1,114
36 -1,620 -,696 -,187 ,082 -1,152
37 1,091 1,293 -1,083 ,594 -,484
38 ,561 ,884 -,118 ,874 ,313
116
39 -1,391 ,328 -1,099 ,639 1,446
40 ,304 1,135 ,078 ,484 1,515
41 -,945 ,787 -1,723 ,402 1,744
42 1,693 ,425 ,488 ,394 -,316
43 ,491 1,008 1,801 ,018 ,950
44 -1,612 -,132 1,396 -,155 -,353
45 ,361 1,237 -1,832 -,994 2,160
46 -2,004 -,370 -,297 ,172 -1,409
47 -,288 ,207 1,605 -,029 ,916
48 -,356 ,383 1,526 -,334 -,129
Anexo 11: Scores das 5 primeiras componentes principais
top related