pratica em geoestatistica
DESCRIPTION
Pratica em GeoestatisticaTRANSCRIPT
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
ESCOLA DE ENGENHARIA - PPGEM
Roberto Quadros Menin
MMD00073 - Introdução à Geoestatística
Porto Alegre, 2012
Relatório apresentado como requisito para obtenção de aprovação na disciplina Introdução à Geoestatística no Programa de Pós Graduação em Engenharia de Minas, Metalúrgica e de Materiais, na Universidade Federal do Rio Grande do Sul.
Prof. PhD. João Felipe Coimbra Leite Costa
Roberto Quadros Menin
MMD00073 - Introdução à Geoestatística
Porto Alegre, 2012
RESUMO
O objetivo deste relatório é apresentar a distribuição estimada dos teores da Variável 5
para toda a área em estudo, bem como seus respectivos dados estatísticos, utilizando a
técnica de krigagem ordinária, com o auxílio dos softwares SGeMS e GsLib.
Palavras chave: Relatório. Estimada. Estatísticos. Krigagem. Software.
SUMÁRIO
1 INTRODUÇÃO.............................................................................................. 4
2 OBJETIVO GERAL...................................................................................... 5
2.1 Objetivos específicos........................................................................................ 5
2.2 METODOLOGIA.......................................................................................... 6
2.3 RESULTADOS.............................................................................................. 7
2.3.1 HISTOGRAMA................................................................................................7
2.3.2 MAPA DE LOCALIZAÇÃO..........................................................................8
2.3.3 DESAGRUPAMENTO AMOSTRAL............................................................9
2.3.4 ANÁLISE BIVARIADA................................................................................10
2.3.5 VARIOGRAMA..............................................................................................11
2.3.6 KRIGAGEM....................................................................................................14
2.3.7 ANÁLISE DE DERIVA.................................................................................17
3 CONCLUSÕES E RECOMENDAÇÕES...........................................................19
REFERÊNCIAS........................................................................................................20
1 INTRODUÇÃO
A denominação para Geoestatística dar-se ao grupo de técnicas estatísticas utilizadas
na análise e estimativa de valores, gerados a partir da colheita de dados em campanhas de
sondagem. Segundo Isaaks&Srivastava (1989, p.3) “Geoestatística oferece uma forma de
descrever a continuidade espacial que é uma característica essencial de muitos fenômenos
naturais e proporciona adaptações de técnicas clássicas de regressão para tirar proveito desta
continuidade.” A geoestatística nos mostra que os dados, obtidos através da amostragem, não
são independentes, existe uma continuidade espacial/temporal do fenômeno. Através disso,
desta continuidade podemos gerar estimativas de valores para locais não amostrados com uma
grande confiabilidade, podendo, assim, transformar, o conhecimento físico de um fenômeno
em uma quantificação do mesmo.
A quantificação de um depósito mineral não é determinada de forma exata, pois envolve
determinadas incertezas relacionadas à geologia e ao método empregado. A geoestatística
com base em princípios teóricos bem fundamentados permite a obtenção de um modelo de
depósito considerando suas particularidades, levando-se em conta a anisotropia da
mineralização do depósito e o desagrupamento de valores amostrais próximos.
2 OBJETIVO GERAL
Através do banco de dados fornecido, temos como objetivo geral apresentar um estudo
geoestatístico aplicado. Tendo como meta principal os seguintes quesitos:
Análise estatística preliminar;
Análise da continuidade espacial;
Previsões;
Simulações.
2.1 OBJETIVO ESPECÍFICO
O presente trabalho tem como objetivo específico ilustrar a geoestatística aplicada a amostra
de número 5, apresentar a distruibuição estimadas de seus teores e posteriormente
utilizaremos a amostra número 3 do banco de dados fornecido, para verificar a existência ou
não de uma relação entre as amostras. O Dataset utilizado contém 1000 pontos de
amostragem, realizados em uma área de 1990m X 1990m, totalizando 3,96 Km². Para melhor
visualização, utilizamos como parâmetros de X e Y mínimos 0 e 2000.
Figura 1. Mapa de localização das amostras
2.2 METODOLOGIA
Para desenvolver a análise geoestatistica dos dados utilizaremos um pacote de
programas, criado junto à universidade americana de Stanford. O GSLIB (Geoestatistical
Software Library) foi criado sob a direção do Prof. André G. Journel. Para realização da
rotina de trabalhos, cada programa deve ser executado e editado separadamente, através de
um arquivo de parâmetros próprio, de acordo com as características do depósito. A exemplo
disso ilustramos a figura do arquivo de parâmetros para execução do programa Locmap que
visa criar um mapa de localização das amostras como demonstrado acima nos objetivos
específicos:
Figura 2: Arquivo de parâmetros do programa locmap.
Os demais programas utilizados são listados abaixo. Sucintamente descreveremos suas
funções, de forma que qualquer pessoa possa aplicar a sua necessidade.
locmap – Mapa de localização dos dados em duas dimensões;
histplt – Criação de histogramas e histogramas acumulados;
declus – Desagrupamento de Células;
scatplt – Diagrama de dispersão (scatterplot);
kt3d – Krigagem em 3-D;
pixelplt – mapa de pixel em 2-D;
Para o modelamento da continuidade espacial dos dados, ou seja, a variografia, é
utilizado o software SGeMS (Stanford Geostatistical Earth Modeling Software). Com ele
podemos estipular se existe uma continuidade, através da medida em oito direções utilizando
um intervalo de 22,5ᵒ entre direções e tolerância angular de 22,5ᵒ, com intuito de obter a
equação de continuidade espacial da nossa variável. Através do software SGeMS também
podemos desenvolver praticamente as mesmas rotinas e resultados geoestatísticos como os
obtidos através das ferramentas provenientes do pacote GSLIB como Histogramas,
Scatterplot, realizar krigagem, declusterização entre outros.
2.3 RESULTADOS
2.3.1 HISTOGRAMA (histplt)
Através da utilização da rotina estatística histplt do pacote de programas do Gslib, foi
gerado o histograma aplicado, que nada mais é do que a representação gráfica de uma
distribuição de frequências, demonstrado em um gráfico do tipo barras vertical. O histograma
nos fornece a média, a mediana, o coeficiente de variação, os quartis entre outros parâmetros.
Figura 3 – Histograma da Variável 5.
A partir do histograma gerado, verificamos que as amostras caracterizam uma
assimetria positiva, ou seja, o coeficiente de assimetria (skewness) é maior que zero.
Devemos ter cuidado ao analisar um histograma, pois os dados obtidos como a média,
desvios, e assimetria são altamente influenciadas por valores extremos da amostra. Neste
caso, com um coeficiente de variação de valor 1,23, podemos dizer que poderá haver alguma
dificuldade para estimativas locais devido a valores amostrais extremos.
2.3.2 MAPA DE LOCALIZAÇÃO (locmap)
Temos como procedimento de análise estatística, a partir dos dados recebidos, gerar
um mapa de localização das amostras com intuito de verificar e observar sua distribuição
espacial e de teores com os dados de média e coeficiente de variação. Para podermos
identificar se os dados possuem alguma amostragem preferencial fazemos um detalhamento
da distribuição das amostras em um plano XY da variável de interesse número 5 juntamente
com a imagem do parâmetro utilizado apenas para representar o seu uso, de acordo com as
figuras abaixo.
Figura 4 - Parâmetros utilizados no LOCMAP para amostra 5.
Figura 5 - Mapa de Localização da Amostra 5.
Como podemos verificar com este mapa de localização, a amostra 5 não possui nenhum
agrupamento preferencial significativo.
2.3.3 DESAGRUPAMENTO AMOSTRAL (declus)
Quando calculamos as variáveis estatísticas, através do histograma, não é levado em
consideração que possa existir um agrupamento preferencial em zonas de alto ou baixo teor,
ou seja, as estatísticas podem ser facilmente tendencionadas por valores extremos, já que é
considerado que todas as amostras estão distribuídas uniformemente no espaço. A fim de
verificar se existe ou não algum valor extremo que possa estar alterando o resultado final dos
dados como a média, desvio ou coeficiente de assimetria, de corrigir este efeito que o
agrupamento amostral causa utilizou-se a ferramenta declus do software Gslib90. Através da
utilização do declus podemos proporcionar menos peso para quem estiver mais próximo e
mais peso para que estiver mais afastado de uma determinada amostra. Com esta rotina os
valores extremos não terão tanta influencia direta, causando a redução do erro associado a ele.
Figura 6 – Histograma Desagrupado Variável 5.
Podemos verificar através da obtenção do histograma desagrupado que as medidas
estatísticas não variaram após a declusterização, logo, percebemos que não há um
agrupamento preferencial de amostras, que não existe agrupamento de valores extremos que
possam tornar tendenciosa nossa análise.
2.3.4 ANÁLISE BIVARIADA
A seguir iremos apresentar dados referentes à análise bivariada de amostras, onde
correlacionaremos à amostra de interesse número 5, com a amostra número 3. Este método
nos permite a determinação da correlação entre as duas variáveis, sendo muito útil quando o
banco de dados possui uma variável que não foi amostrada em todos os pontos onde outra
variável foi, logo para o caso de haver uma correlação entre as duas, podemos inferir uma
tendência da variável que falta através das medidas já existentes da outra variável. Para tanto,
utilizaremos a ferramenta Scatter-plot, do software SGeMS demonstrado abaixo:
Figura 7 – Gráfico de dispersão (scatter-plot) dos teores 5 e 3.
O CV é o parâmetro estatístico com maior frequência de utilização para sumarizar a
relação entre as variáveis. Sendo ele calculado pela fórmula: ρ=
1n∑i=1
n( x i−mx )( y i−m y )
σ x σ y .
Assim como a média, a v ariância entre outros parâmetros estatísticos, o coeficiente de
variação, também chamado por coeficiente de correlação de Pearson, é sensível a pontos
plotados afastados do aglomerado principal dos pontos. Uma boa relação entre as variáveis
pode ajudar a inferir uma variável em um ponto desconhecido, desde que a outra variável seja
conhecida. Pois através da regressão linear, uma previsão simples dos dados, assumimos que
uma variável está dependente da outra, podendo ser descrita pela equação da reta: y=ax+b .
Como podemos observar através do gráfico de dispersão nosso valor de a, ou do coeficiente
angular, é de -0,3669 e o coeficiente linear, ou b, é de 63,66. O gráfico de dispersão dos teores
das variáveis Cinco e Três nos mostra que o coeficiente de correlação entre as duas variáveis
é negativo de -0,9814.
De acordo com Isaaks&Srivastava (1989, p.30)
Duas variáveis são negativamente correlacionadas se os valores maiores de uma
variável tendem a ser associados com os valores menores do outra. Em banco de
dados geológicos, as concentrações de dois elementos principais são muitas vezes
negativamente correlacionadas; num calcário, por exemplo, um aumento na
quantidade de cálcio geralmente resulta em uma diminuição na quantidade de
magnésio.
2.3.5 VARIOGRAMA (SGeMS)
O nosso próximo passo, essencial no estudo geoestatístico, é a definição de um
modelo variográfico que represente a variabilidade do fenômeno que estamos interessados. A
variografia é um procedimento utilizado para medir a continuidade espacial do banco de
dados. Utilizaremos os variogramas produzidos através do software SGeMs. O intuito é
realizar nossas estimativas através de uma elipse de busca que possui como azimute a nossa
direção de maior alcance, e consequentemente a 90ᵒ a direção de menor alcance.
Requisitamos uma busca em 8 direções diferentes de azimutes que variaram entre 0ᵒ e 157,5ᵒ.
A idéia base é ajustar o variograma a uma curva que honre a maior parte possível dos pontos
no gráfico. A seguir mostraremos o variograma obtido através do omni direcional, o qual
utilizamos para definir o nosso nugget effect, ou efeito pepita. Podemos dizer que quanto
maior o nosso efeito pepita, maior será a perda da continuidade espacial, ou seja, não há um
controle dos processos físicos e químicos sobre o depósito. Devemos utilizar o menor nugget
effect possível, pois quanto mais ele influenciar no nosso variograma, mais futuramente a
nossa krigagem converterá para uma média aritmética.
Figura 8 – Variograma Omni Direcional da variável 5.
Para a construção do variograma omni direcional para determinação do efeito pepita
utilizamos o 20 lags com espaçamento de 50, totalizando 1000 metros, ou metade da malha, a
fim de evitarmos o efeito de borda. Verificamos então que a maior continuidade estava por
volta de 500 metros. Aplicamos um refinamento utilizando oito lags com espaçamento de 60
metros, largura de banda de 1000metros e tolerância 180ᵒ para indicar o omni direcional. Com
isso o melhor nugget effect que adequou-se ao variograma foi de 280.
Em seguida procedemos com a construção dos variogramas em oito direções. Utilizamos o
mesmo número de 20 lags com espaçamento de 50m e tolerância igual a metade do valor do
lag, 25m. A largura de banda utilizada foi de 25 metros e tolerância de 35. Para modelarmos
adequadamente a curva foram utilizadas duas estruturas que foram ajustadas por curvas
esféricas. A soma do nugget effect com a contribuição do Sill nas duas estruturas deve ser
igual a variância, ou seja o valor onde o semivariograma se estabiliza. O range (alcance) da
estrutura 2 deve ser sempre superior que o da 1.
Figura 9 – Variograma de maior continuidade espacial (45ᵒ).
Figura 10 – Variograma de menor continuidade espacial (135ᵒ).
Percebemos, após construção dos variogramas, que a direção de maior continuidade foi no
azimute 45ᵒ, e o de menor continuidade foi em 135ᵒ, após isso efetuamos um refinamento dos
parâmetros utilizados. Utilizamos 12 lags com espaçamento de 60 metros, tolerância do lag
com valor igual a metade do valor do lag (30 metros), largura de banda 30 e sua tolerância em
35, com intuito de determinar com maior precisão as contribuições e ranges que serão
futuramente utilizados na krigagem.
Listamos na tabela abaixo, os parâmetros obtidos através dos variogramas das direções
principais.
Medida dos variogramas das direções principais
Efeito Pepita 280
Estrutura 1
Contribuição do Sill 235
Alcance Máximo 80
Alcance Médio 80
Estrutura 2
Contribuição do Sill 160
Alcance Máximo 570
Alcance Médio 350
2.3.6 KRIGAGEM
O objetivo da krigagem é de estimar os teores nas regiões onde não se tem
amostragem a partir do conhecimento prévio da continuidade espacial do fenômeno.
Diferentemente dos interpoladores clássicos, que atribuem pesos a um nó de grid conforme a
distância geométrica deste nó a amostra, a krigagem atribui os pesos conforme a distância
estatística dos nós do grid a amostra, ou seja, recebem maiores pesos os nós nas direções de
menor variabilidade do fenômeno em questão, onde os teores que serão utilizados para
estimar o teor de um bloco estão inseridos no elipsóide de busca citado anteriormente. O
método utilizado foi de Krigagem ordinária (Ordinary Kriging), pois a krigagem simples
necessita da média do depósito, mas o depósito em questão não possui média constante.
Através dos parâmetros gerados pelo variograma das direções principais, foi feito a
estimativa. Abaixo apresentamos o mapa de distribuição dos teores estimados e da variância,
através da rotina pixelplt e visualizado no GSview.
Figura 11 – Mapa de distribuição dos teores estimados por OK – Variável 5
Figura 12 – Mapa da variância por OK – Variável 5.
Para evidenciar as zonas de maior variabilidade plotamos mapas de distribuição da
variância. Para tal utilizamos a rotina pixelplot do GSLib com o banco de dados do arquivo
de saída da krigagem.
Podemos observar que o mapa de distribuição apresenta teores muito semelhantes ao
mapa de localização das amostras gerados pela rotina locmap, com isso podemos dizer que as
estimativas condizem com os valores verdadeiros. O método da krigagem tem a característica
de suavizar as distribuições dos dados, diminuindo assim a sua variância. Para análise
estatística dos dados estimados pela krigagem construímos um novo histograma, apresentado
abaixo:
Figura 13 – Histograma dos dados estimados, variável 5.
Como podemos verificar, através dos dados gerados com o histograma estimado, 25999 dados
foram estimados e representados, significando que um valor foi descartado por estimativa
inexistente. A figura acima, histograma dos dados estimados, pode ser considerado uma
validação da estimativa, sendo assim é esperado que a média dos dados estimados esteja
próxima dos reais. A média dos dados reais é de 21.05 enquanto a média dos estimados é de
21,168. Outra observação muito importante é que agora a mediana esta mais próxima da
média, mas ainda é menor, pois existem mais dados com valores baixos do que altos, servindo
também como validação pois a estimativa permanece com distribuição parecida em relação a
proporção dos valores.
2.3.7 ANÁLISE DE DERIVA
A análise de deriva é realizada comparando as médias locais entre os dados verdadeiros e
os dados estimados. Estas médias são feitas entre faixas de espaçamento, aqui utilizamos um
espaçamento de duzentos metros, assim na determinação da média no modelo de blocos em
cada faixa espaçamento utilizamos 2560 blocos (10% do total) Para tal foi utilizado o
software Microsoft Excel e os bancos de dados das variáveis originais e estimadas com a
adição das coordenadas cartesianas a este último feita pela rotina do GSLib, addcord.
O que se espera como validação dos dados estimados é que as curvas aqui plotadas
possuam a mesma tendência, ou seja, em zonas de teor mais elevado as médias aumentem, e
em zonas de baixo elas diminuam. O que consideramos é o comportamento da curva. Para
fins de comparação apresentaremos abaixo, lado a lado, o mapa de localização de amostras e
o mapa da distribuição dos teores estimados pela krigagem.
Figura 14 – Mapa de localização e Mapa de distribuição de teores estimados por krigagem.
Podemos perceber que a distribuição dos teores estimados seguiu a tendência dos teores
amostrados, ou seja, os pontos azuis no mapa de localização das amostras foram
representados por regiões em azul no mapa de distribuição dos teores. Reparamos também
que os pontos com altos teores existentes no mapa de localização das amostras foram
suavizados no mapa de estimativa, característico da krigagem.
Em seguida apresentaremos os gráficos obtidos para a análise de deriva.
Figura 15 – Gráfico da Análise de deriva em X, variável 5.
Figura 16 – Gráfico da Análise de deriva em Y, variável 5.
Através dos gráficos de análise de deriva apresentados, tanto dados quanto estimativas
seguem uma mesma tendência. No eixo X notamos que por volta de 1200 metros os teores
foram superestimados, enquanto em torno dos 1500 metros foram subestimados. Já no eixo Y
percebemos uma suavização da curva de estimativa em relação a curva de dados, em torno
dos 700 metros os teores foram superestimados, por sua vez nos 1250 metros foram
subestimados.
3 CONCLUSÃO
Após a análise dos dados verificamos que não há como classificar os blocos
diferentemente de medido, devido a alta densidade e continuidade amostral, pois temos um
variograma muito contínuo. Concluímos também ao decorrer do trabalho que para uma
variável que possui um comportamento menos errático, as estimativas mostram-se mais fáceis
do que quando trabalhamos com uma variável mais errática. Apesar de o histograma
apresentar um cv de 1,23 que talvez indicasse que teríamos certas dificuldades para
estimativas locas por causa dos valores extremos, os valores acabaram sendo suavizados pela
krigagem ordinária. Ainda assim mantiveram seu padrão, confirmado posteriormente pela
análise de deriva nos eixos X e Y.
REFERÊNCIAS
Deutsch, C. e Journel, A., GSLIB Geostatistical Software Library and User's Guide (1998) – New York – Oxford University Press;
ISAAKS, E. H.; SRIVASTAVA, R. M., An introduction to Applied Geostatistics. 1989, OXFORD UNIVERSITY.
SOUZA, L. E, Introdução ao GSLib. 2002, Texto didático