bc0005 aula 07_correlacao_regressao - bases computacionais da ciencia - ufabc

46
BC-0005 Bases Computacionais da Ciência Santo André, julho de 2010 Aula 07 Correlação Curvas de Regressão

Upload: julio-cezar-rodrigues-eloi

Post on 25-Jul-2015

131 views

Category:

Education


2 download

TRANSCRIPT

BC-0005Bases Computacionais

da Ciência

Santo André, julho de 2010

Aula 07

Correlação Curvas de Regressão

Roteiro desta aula

PARTE I – Utilização do BrOffice para Elaboração de Gráficos 

• Noções de Correlação

• Linhas de tendência: regessão linear, logarítmica, exponencial e geométrica.

• Barras de erro: constante, percentual.

• Mudanças de escala.

PARTE II – Exercícios Propostos

2

Elaboração de Gráficos (revisão)Suponha que um determinado processo tenha como resultado um aumento de temperatura da água (ºC) ao longo do tempo (horas). As medidas foram tabeladas, como mostrado a seguir.

Tempo (horas) Temperatura (ºC)

0 23

2 27

4 31

6 36

8 41

10 45

12 49

14 52

3

Gráfico de Dispersão

• Usando o BrOffice, selecione as colunas referentes aos dados de tempo e temperatura.

• Vá ao menu Inserir → Gráfico → XY (Dispersão).

• Série de dados em colunas e a primeira linha como rótulo.

4

Elementos Gráficos

• Não exibir legenda. Colocar os rótulos (nomes) dos eixos x e y.

• Exibir grades para os eixos x e y.

5

Alteração das Dimensões

• As dimensões dos gráficos podem ser alteradas conforme a necessidade.

• Para a alteração das dimensões, use o mouse, alterando o tamanho do eixo x, do eixo y ou de ambos (diagonal).

6

0 2 4 6 8 10 12 14 16

0

10

20

30

40

50

60

Tempo (horas)

Te

mp

era

tura

(ºC

)

Correlação

• Uma correlação é uma relação entre duas variáveis.

• Os dados podem ser representados por pares ordenados (x,y), onde:

• x é a variável independente (ou explanatória)• y é a variável dependente (ou resposta)

• Um mapa de dispersão pode ser usado para determinar se há uma correlação linear entre duas variáveis. 

7

Correlação visualizada em mapas de dispersão

8

0 2 4 6 8 10 12 14 16

0

10

20

30

40

50

60

0 2 4 6 8 10 12 14 16

0

10

20

30

40

50

60

Coluna B

X

Y

0 10 20 30 40 50 60

0

5

10

15

20

25

30

35

40

45

50

Coluna B

X

Y

0 2 4 6 8 10 12 14 16

0

5

10

15

20

25

30

35

40

45

Coluna B

X

Y

Correlação Linear PositivaCorrelação Linear NegativaCorrelação Linear Positiva

Não há Correlação Correlação Não Linear

À medida que xcresce, y tendea crescer.

À medida que xcresce, y tendea decrescer.

Coeficiente de Correlação•A interpretação da existência de uma correlação usando o mapa de dispersão pode ser subjetiva. (exemplo na lousa)

•Uma maneira de medir o tipo e o grau de uma correlação linear entre duas variáveis é através do cálculo do coeficiente de correlação (R).

•Ou seja, R é uma medida do grau e da direção de uma relação linear entre duas variáveis.

•O intervalo de variação de R vai de -1 a 1:Se x e y tiverem forte correlação linear positiva,

R estará próximo de 1.Se x e y tiverem forte correlação linear

negativa, R estará perto de -1.Se não há correlação linear ou se ela é fraca, R

estará perto de 0.

9

Correlação e Causalidade• Reforçando: fato de duas variáveis estarem fortemente correlacionadas não implica necessariamente em uma relação de causa e efeito entre elas.

•Se houver forte correlação entre duas variáveis, o pesquisador deve considerar:

Há uma relação direta de causa e efeito entre as variáveis? Isto é, x causa y ?

Há uma relação inversa de causa e efeito? Isto é, y causa x?

É possível que a relação tenha sido causada por uma terceira variável ou por uma combinação de muitas outras?

É possível que a relação entre elas seja uma coincidência?

10

Curvas de Regressão

o O objetivo da análise de regressão é encontrar uma função que permita:

Descrever e compreender a relação entre uma variável dependente e uma ou mais variáveis independentes.

Projetar ou estimar uma variável em função de uma ou mais variáveis independentes.

11

Regressão Linear (ajuste numa reta)

• Após verificar que a correlação entre duas variáveis é significante, o próximo passo é encontrar a equação da reta que melhor modela os dados.

• A construção dessa reta é chamada regressão linear e sua equação pode ser usada para prever o valor de y para um dado valor de x.

• O ajuste de uma reta é um modelo linear que relaciona a variável dependente y e a variável independente x por meio da equação de uma reta do tipo:

12

bxay

Regressão Linear (ajuste numa reta)

• Os coeficientes a e b são chamados coeficientes de regressão, onde:

• b corresponde a declividade (inclinação) da reta e define o aumento ou diminuição da variável y por unidade de variação da variável x

• A constante a é o intercepto y sendo igual ao valor de y para x=0

13

bxay

Exemplos de Retas de Regressão

14

0 2 4 6 8 10 12 14 16

0

10

20

30

40

50

60

Temperatura ( º C)

Regres s ão linear de Temperatura

Te m p o

Te

mp

era

tura

0 2 4 6 8 10 12 14 16

0

10

20

30

40

50

60

Coluna B

Regres s ão linear de Coluna B

X

Y

Exemplos de Retas de Regressão

15

0 10 20 30 40 50 60

0

5

10

15

20

25

30

35

40

45

50

Coluna B

Regres s ão linear de Coluna B

X

Y

0 2 4 6 8 10 12 14 16

0

5

10

15

20

25

30

35

40

45

Coluna B

Regres s ão linear de Coluna B

X

Y

Regressão Linear (ajuste numa reta)

• É importante observar que, da mesma forma como

a média resume uma variável aleatória, a reta de

regressão resume a relação linear entre duas

variáveis, e, conseqüentemente, da forma como a

média varia entre amostras do mesmo tamanho

extraídas da mesma população, as retas também

variarão entre amostras da mesma população.

16

Como fazer Regressão Linear?

• Existem vários métodos para determinação de retas de regressão

• Aqui uma reta de regressão (também chamada de reta do ajuste ótimo) é aquela para a qual a soma dos quadrados dos resíduos é mínimo.

17

Resíduo = d = (valor y observado) – (valor y previsto)

Coeficiente de Determinação

Nem todos os valores das amostras estão contidos na reta de regressão, e quanto mais afastados estiverem pior, a reta representará a relação entre as amostras.

A reta obtida pelo método dos quadrados mínimos é um resumo útil da tendência entre as variáveis, pois não explica perfeitamente os dados.

Quão útil é a reta de regressão obtida pelo procedimento apresentado? Ou seja, quão boa ela é?

18

Coeficiente de Determinação

• O coeficiente de determinação (R2) é definido como a relação que mede a proporção da variação total da variável dependente, que é explicada pela variação da variável independente.

O coeficiente de determinação R2, também denominado r-quadrado, é sempre um número positivo dentro do intervalo (0; 1).

Pode-se deduzir que quanto maior for R2 melhor será o poder de explicação da reta de regressão.

19

Coeficiente de Determinação

• O coeficiente de determinação R2 pode ser definido como sendo o quadrado do coeficiente de correlação:

R2 = (R)2

• Lembremos que o coeficiente de correlação R, cujo valor varia entre -1 e 1, é uma medida do tipo e do grau de uma correlação linear entre duas variáveis.

20

• Com o gráfico selecionado, vá em Inserir → Linhas de Tendência. 

21

Curvas de Regressão no BrOffice Calc

Curvas de Regressão no BrOffice Calc• As linhas de tendência correspondem às curvas que descrevem os dados (experimentais) da planilha, ou seja, correspondem às curvas de regressão.

• As opções de linhas de tendência disponíveis no BrOffice são: nenhuma (padrão: não mostra curva), linear, logarítmica, exponencial e geométrica.

• Há também a opção de mostrar a equação de ajuste e o coeficiente R2.

• Lembremos que R2 define quão boa é a curva de ajuste definida para os dados e varia de 0 a 1.

• Ou seja, quanto mais próximo de 1 for R2, melhor será a curva de ajuste.

22

Curva de Tendência Linear

Equação de ajuste e Coeficiente R2

23

0 2 4 6 8 10 12 14 16

0

10

20

30

40

50

60

f(x) = 2,14286x + 23,00000R² = 0,99668

Tempo (horas)

Te

mp

era

tura

(ºC

)

O número de casas decimais mostrado pelo BrOffice e o tamanho da fonte podem ser ajustados nas propriedades!

Forma geral da equação: y = f(x) = a + bx

Curva de Tendência Logarítmica

24

0 2 4 6 8 10 12 14 16

0

10

20

30

40

50

60

f(x) = 13,17043 ln(x) + 14,97380R² = 0,94434

Tempo (horas)

Te

mp

era

tura

(ºC

)

Observe que haverá sempre um ajuste do tipo de curva escolhida que melhor se ajusta aos dados!

Forma geral da equação: y = f(x) = a + b ln(x)

Curva de Tendência Exponencial

25

0 2 4 6 8 10 12 14 16

0

10

20

30

40

50

60

f(x) = 24,22593·1,06094 x̂R² = 0,97947

Tempo (horas)

Te

mp

era

tura

(ºC

)

Forma geral da equação: y = f(x) = a ebx

Curva de Tendência Geométrica (ou Potência)

26

0 2 4 6 8 10 12 14 16

0

10

20

30

40

50

60

f(x) = 20,09878 x 0̂,34925R² = 0,97499

Tempo (horas)

Te

mp

era

tura

(ºC

)

Forma geral da equação: y = f(x) = a xb

Barras de Erro• Com o gráfico selecionado, vá em Inserir → Barras de Erro Y. As opções mais comuns serão valor constante e valor percentual.

27

Barra de Erro Constante

• Os erros aparecem sempre devido a imprecisões nas medidas dos dados. Pense, por exemplo, na medida de tempo, tomada com um cronômetro, que um objeto leva para percorrer determinada distância.

• Nesse caso, a medida dependerá bastante da precisão com que o operador do cronômetro para o processo de contagem do tempo.

• O erro de um determinado instrumento é sempre suposto como sendo metade de sua menor divisão, para mais ou para menos. No caso do termômetro do exemplo ter divisões de 1 ºC, seu erro será de 0,5 ºC.

28

Barras de Erro de 0,5 ºC

Observe se a curva ajustada se encontra no intervalo definido pelas barras de erros!

29

0 2 4 6 8 10 12 14 16

0

10

20

30

40

50

60

f(x) = 2,14286x + 23,00000R² = 0,99668

Tempo (horas)

Te

mp

era

tura

(ºC

)

Barras de Erro de 5 ºC

Nesse caso, as barras de 5 ºC só fariam sentido se o termômetro tivesse precisão de 10 ºC!!

30

0 2 4 6 8 10 12 14 16

0

10

20

30

40

50

60

f(x) = 2,14286x + 23,00000R² = 0,99668

Tempo (horas)

Te

mp

era

tura

(ºC

)

Apenas para melhor visualizar as barras de erros, estas foram alteradas para 5 ºC!

Barra de Erro Percentual

• O erro percentual depende da grandeza que está sendo medida.

• Isso tende a causar erros grandes quanto maiores forem as leituras do equipamento, o que pode ser evidenciado pelo gráfico a seguir, onde são mostrados os dados do nosso termômetro de exemplo com erros de 5% (diferente de 5ºC !) sobre a medida.

31

Barra de Erro Percentual

Note que para valores maiores de temperatura, as barras de erros são também maiores.

32

0 2 4 6 8 10 12 14 16

0

10

20

30

40

50

60

f(x) = 2,14286x + 23,00000R² = 0,99668

Tempo (horas)

Te

mp

era

tura

(ºC

)

Barra de Erro Padrão• O erro padrão (parâmetro estatístico que será abordado em aula futura) também pode ser usado para a descrição dos erros no BrOffice, assim como o desvio padrão e variância.

33

0 2 4 6 8 10 12 14 16

0

10

20

30

40

50

60

f(x) = 2,14286x + 23,00000R² = 0,99668

Tempo (horas)

Te

mp

era

tura

(ºC

)

Linhas de Tendência com Gráfico de Barras

• O uso de linhas de tendência pode ser feito também com outros tipos de gráficos, como os gráficos de barras.

2004 2005 2006 2007 2008

0

2

4

6

8

10

12

14

16

Empresa A

Regressão linear de Empresa A

Empresa B

Regressão linear de Empresa B

Ano

Lu

cro

Ap

ura

do

(m

ilhõ

es

de

R$

)

2004 2005 2006 2007 2008

0

2

4

6

8

10

12

14

16

Empresa A

Regressão logarítmica de Empresa A

Empresa B

Regressão logarítmica de Empresa B

Ano

Lu

cro

Ap

ura

do

(m

ilhõ

es

de

R$

)

Regressão Linear

Regressão Logarítmica

34

Problema com Escalas• A tabela a seguir representa os resultados de probabilidade de Bloqueio em duas Redes de Comunicação. • Esses dados são apresentados em um gráfico de linhas.

Carga na Rede (%)

Probabilidade de Bloqueio

Rede A Rede B

0.2 8,00E-002 7,63E-003

0.4 2,43E-001 8,00E-002

0.6 4,30E-001 2,83E-001

0.8 6,70E-001 4,58E-001

• Note que a escala linear não permite a visualização correta da diferença entre valores pequenos!!

0.2 0.4 0.6 0.8

0,00E+000

1,00E-001

2,00E-001

3,00E-001

4,00E-001

5,00E-001

6,00E-001

7,00E-001

8,00E-001

Rede A

Rede B

Carga na Rede

Pro

ba

bili

da

de

de

Blo

qu

eio

35

Mudança de Escala• A escala linear não é adequada para a apresentação de dados com ordens de grandeza muito diferentes. • Nestes casos deve-se optar por uma mudança de escala.

• Selecione o eixo para o qual a escala será alterada (Ex: Eixo Y).• Uma caixa de diálogo com todas as características do

Eixo Y será apresentada.36

Escala Logarítmica• Na aba Escala, selecione a opção Escala do logaritmo.

0.2 0.4 0.6 0.8

1,00E-003

1,00E-002

1,00E-001

1,00E+000

Rede A

Rede B

Carga na Rede (%)

Pro

ba

bili

da

de

de

Blo

qu

eio

37

Comparação Escala Linear X Logarítmica

0.2 0.4 0.6 0.8

0,00E+000

1,00E-001

2,00E-001

3,00E-001

4,00E-001

5,00E-001

6,00E-001

7,00E-001

8,00E-001

Rede A

Rede B

Carga na Rede

Pro

ba

bili

da

de

de

Blo

qu

eio

0.2 0.4 0.6 0.8

1,00E-003

1,00E-002

1,00E-001

1,00E+000

Rede A

Rede B

Carga na Rede (%)

Pro

ba

bili

da

de

de

Blo

qu

eio

Escala Linear Escala Logarítmica38

Dados melhor visualizados em Escala Logarítmica, mas apresentados em Escala Linear

10 100 1000 10000 100000

0

10000

20000

30000

40000

50000

60000

x

y

Atenção especial para os valores dos dados!!!Note que a Escala do Eixo X já é logarítmica.

39

Escala Log x Log

10 100 1000 10000 100000

1

10

100

1000

10000

100000

x

y

Melhor apresentação dos valores reais!

40

Concluindo...

o Nesta aula discutimos alguns pontos importantes da visualização de dados usando gráficos. Estes pontos são:

• Elementos (eixos e legendas)• Tamanho• Aproximação de Funções• Curvas de Erros• Escalas

41

42

Exercícios – Parte IIIExercício de Sala de Aula: Dado um conjunto de dados que representam os resultados de exames de saúde obtidos de um grupo de 40 homens (Tabela 1):

1- Faça gráfico de dispersão para as variáveis Altura x Peso, Idade x Altura, Idade x Peso, Peso x Colesterol, Idade X IMC e IMC x Peso.

2- Calcule a correlação entre Altura x Peso, Idade x Altura, Idade x Peso, Peso x Colesterol, Idade X IMC e IMC x Peso.

3- As correlações obtidas (exercício 1) corroboram com a intuição fornecida pelos gráficos de dispersão (exercício 2)?

4 – Discuta as correlações obtidas. É possível haver uma relação causa-efeito entre algumas dessas variáveis? Por quê?

43

Exercícios de Sala – Continuação5- Faça dois gráficos de dispersão do IMC x Peso, atribuindo erros de 5 e 10% para o IMC.

6- Para cada um dos gráficos trace linhas de tendência linear, logarítmica exponencial e geométrica.

7- Discuta a equação da curva de ajuste e o coeficiente R2

para todos os ajustes realizados. Qual das curvas de regressão melhor se ajusta aos dados?

8- Faça uma previsão (usando curvas de regressão) de qual será altura de uma pessoa quando ela tiver 45 anos. Discuta o resultado.

Exercício para casa: Dado o conjunto de dados que relaciona massa com diâmetro em um experimento de dimensão fractal (Método utilizado para medir comprimentos, áreas e volumes fragmentados) (Tabela 2):

1- Faça um gráfico linear da massa (M) x diâmetro (D). 2- Faça um gráfico (“loglog”) da massa (M) x diâmetro (D). 3- Converta os dados da tabela em log(M) e log(D) e faça um gráfico linear dos dados convertidos.4- Determine a dimensão fractal, dado pelo coeficiente angular da reta do gráfico de logM x LogD.

Obs.: A dimensão fractal é dada pela relação:

M ~ Ddf onde M e D correspondem à massa e ao diâmetro medidos respectivamente. Ao fazer um gráfico “loglog” da massa em função do D temos que:

log (M) = df. log (D)

Desta forma, se o gráfico “loglog” for uma reta descrita por uma equação do tipo: y= A.x+ B, o valor da dimensão fractal será dados por A.

44

45

Tabela 1

46

D (mm) M(g)

2 10,56

4 111,43

5 237,96

8 1176,27

10 2511,89

12 4668,92

14 7885,61

16 12416,75

18 18532,18

20 26515,63

22 36663,77

24 49285,39

26 64700,76

28 83241,00

30 105247,62

32 131072,00

34 161075,07

36 195626,87

38 235106,28

40 279900,69

42 330405,74

44 387025,07

46 450170,08

48 520259,73

50 597720,31

Tabela 2