estatistica - uspconteudo.icmc.usp.br/pessoas/ehlers/sme0221/intro.pdf · estatistica ricardo...
TRANSCRIPT
-
Estatistica
Ricardo [email protected]
Departamento de Matemática Aplicada e Estat́ıstica
Universidade de São Paulo
-
Introdução
-
O que é Estat́ıstica
• Ciência de aprendizagem a partir de dados.
• Envolve a coleta e análise de dados e sua conseqüentetransformação em informação.
• Objetivos: postular, refutar ou validar hipóteses cient́ıficassobre um fenômeno observável.
• Analogamente: tomada de decisão nos mais variadosproblemas onde existe incerteza.
• Usando Teoria das Probabilidades, os estat́ısticos formalizameste processo de forma a aperfeiçoá-lo.
• Os métodos estat́ısticos tem um forte embasamentomatemático.
Informação Dados → Análise → Tomada de Decisão
1
-
Probabilidade não existe.
Bruno de Finetti
Todos os modelos estão errados, mas alguns são úteis.
George P. Box
2
-
Velocidades de 82 galáxias em Km/seg na constelação de Coroa
Boreal
0 10 20 30 40
0.0
00
.05
0.1
00
.15
0.2
0
velocity of galaxy (1000km/s)
de
nsity
3
-
• Quantos grupos de galáxias existem?
• Os valores mais afastados formam outro grupo ou são’outliers’?
• Como tratar problemas de identificação do modelo?
• Se uma nova galáxia for descoberta ela pertencerá a qualgrupo com qual probabilidade?
4
-
Análise Temporal
-
Análise e Previsão de Séries Temporais.
0 50 100 150 200 250
−4
−2
02
46
Time
se
rie
s
-
• Existem padrões temporais ?
• Como fazer boas previsões? (O que é uma“boa”previsão?)
• Como construir os intervalos de previsão?
• Quão longe no futuro é seguro prever?
6
-
Taxas de câmbio diárias em relação ao Dolar Americano.
Franco Marco
Libra Dolar Canadense
0 500 1000 1500 2000 0 500 1000 1500 2000
1.1
1.2
1.3
1.4
1.5
1.4
1.5
1.6
1.7
1.8
1.9
0.50
0.55
0.60
0.65
0.70
5.0
5.5
6.0
Time 7
-
Retornos diários em relação ao Dolar Americano.
Franco Marco
Libra Dolar Canadense
0 500 1000 1500 2000 0 500 1000 1500 2000
−0.01
0.00
0.01
−0.02
0.00
0.02
−0.02
0.00
0.02
−0.02
−0.01
0.00
0.01
0.02
Time 8
-
Contágio Financeiro
• Aumento significativo da probabilidade de crise em um páıscondicional a crise em outro páıs.
• Por exemplo, a ocorrência de crise cambial em um páısaumenta a probabilidade de ataques especulativos em outrospáıses.
9
-
Preços diários, alguns indices de mercado europeu
1992 1993 1994 1995 1996 1997 1998
20
00
30
00
40
00
50
00
60
00
70
00
80
00
DAX
SMI
CAC
FTSE
10
-
Ozônio (em PPB) e radiação solar em NY 1/5/1973 a 30/9/1973
05
01
00
15
0
Ozo
ne
0 50 100 150
Index
01
00
20
03
00
So
lar
11
-
Dados peso versus idade (em dias) de frangos sob diferentes dietas.
100
200
300
0 5 10 15 20
Time
we
igh
t
Diet
1
2
3
4
12
-
0 5101520 0 5101520 0 5101520 0 5101520 0 5101520
0 5101520 0 5101520 0 5101520 0 5101520
100
200
300
100
200
300
100
200
300
100
200
300
100
200
300
100
200
300
we
igh
t
13
-
Tendência de preços de casas por estado americano (1975 a 2013).
0
250000
500000
750000
1980 1990 2000 2010
Date
Ho
me.V
alu
e
State
AK
AL
AR
AZ
CA
CO
CT
DC
DE
FL
GA
HI
IA
ID
IL
IN
KS
KY
LA
MA
MD
ME
MI
MN
MO
MS
MT
NC
ND
NE
NH
NJ
NM
NV
NY
OH
OK
OR
PA
RI
SC
SD
TN
TX
UT
VA
VT
WA
WI
WV
WY
14
-
VA VT WA WI WV WY
OK OR PA RI SC SD TN TX UT
NC ND NE NH NJ NM NV NY OH
LA MA MD ME MI MN MO MS MT
FL GA HI IA ID IL IN KS KY
AK AL AR AZ CA CO CT DC DE
198019902000201019801990200020101980199020002010198019902000201019801990200020101980199020002010
198019902000201019801990200020101980199020002010
0
250000
500000
750000
0
250000
500000
750000
0
250000
500000
750000
0
250000
500000
750000
0
250000
500000
750000
0
250000
500000
750000
Ho
me.V
alu
e
15
-
Alguns Tipos de Associação
-
Medidas de Associação para Valores Extremos (Dados simulados)
−5.0
−2.5
0.0
2.5
−4 0 4
x
y
16
-
Valores Extremos (minimos e máximos)
−5.0
−2.5
0.0
2.5
−4 0 4
x
y
17
-
Dados de peso, altura e idade (questionário estudantil)
50
60
70
80
90
1.5 1.6 1.7 1.8
Alt
Peso
17
19
21
23
25Idade
18
-
Dados de peso, altura e sexo (questionário estudantil)
50
60
70
80
90
1.5 1.6 1.7 1.8
Alt
Peso
Sexo
F
M
19
-
Dados de peso, altura, idade e sexo (questionário estudantil)
50
60
70
80
90
1.5 1.6 1.7 1.8
Alt
Peso
17
19
21
23
25Idade
Sexo
F
M
20
-
Dados de peso, altura, idade e sexo (questionário estudantil)
AlturaPeso
Idade
21
-
Afghanistan
Argentina Barbados
Bhutan
Botswana
Brazil
Britain
Cape Verde
China
Congo
FranceGermany
Greece
IndiaIraq
ItalyJapan
Myanmar
New Zealand
Norway
Russia
Rwanda
Singapore
South Africa
Sudan
United States
Venezuela
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1 2 3 4 5 6 7 8 9 10
Corruption Perceptions Index, 2011 (10=least corrupt)
Hu
ma
n D
eve
lop
me
nt
Ind
ex,
20
11
(1
=B
est)
Corruption and Human development
22
-
Análise Espacial
-
Medidas de associação em 2 dimensões
X
Y
2
4
6
8
10
2 4 6 8 10
0
1
2
3
4
5
23
-
Taxa de Desemprego por condado nos EUA, 2009
2−4% 4−6% 6−8% 8−10% >10%
24
-
Abalos sismicos (MB > 4) em torno das Ilhas Fiji desde 1964
100 120 140 160 180
−4
0−
30
−2
0−
10
0
25
-
xxxxx
26
-
Modelos e Inferência
-
Um modelo é uma simplificação da realidade(e alguns são úteis)
Quantidades observáveis Quantidades não observáveis(podem ser medidas) (parâmetros e variáveis latentes)
Abordagens: Clássica e Bayesiana
Intuição sem base teórica e reflexão em geral resulta em erro.
Dados: os valores observados das quantidades observáveis.
27
-
Inferência estat́ıstica
Processo de tirar conclusões sobre um conjunto maior (população)usando informação de um conjunto menor (amostra).
PopulaçãoTodos os casos ou situações sobre as quais o pesquisador querfazer inferências.
Exemplos,
• Fazer inferências sobre concentração de poluentes numdeterminado lençol freático,
• Predizer a quantidade de petróleo num poço a ser perfurado,
• Estimar o tempo de vida útil de um componente eletrônico.
28
-
AmostraUm subconjunto qualquer da população.
Por que não observar a população inteira?
• Alto custo.
• Tempo muito longo.
• Impossibilidade f́ısica (e.g. estudo de poluição amosférica).
• Imposśıvel lógica (e.g. em ensaios destrutivos).
29
-
• Variáveis: caracteŕısticas de uma população que diferem deum indiv́ıduo para outro e as quais queremos estudar.
• Observações: medidas de uma ou mais variáveis de umindiv́ıduo na amostra.
• Censo: estudo que inclui todos os elementos de umapopulação.
30
-
Dados Brutos
-
Exemplo. Dados parciais de um questionário estudantil.
http://www.ime.usp.br/~noproest/dados/questionario.txt
Turma Sexo Idade Alt Peso Filhos Fuma Toler Exerc Cine OpCine TV OpTV
A F 17 1.60 60.50 2 NAO P 0 1 B 16 RA F 18 1.69 55.00 1 NAO M 0 1 B 7 RA M 18 1.85 72.80 2 NAO P 5 2 M 15 RA M 25 1.85 80.90 2 NAO P 5 2 B 20 RA F 19 1.58 55.00 1 NAO M 2 2 B 5 RA M 19 1.76 60.00 3 NAO M 2 1 B 2 RA F 20 1.60 58.00 1 NAO P 3 1 B 7 RA F 18 1.64 47.00 1 SIM I 2 2 M 10 RA F 18 1.62 57.80 3 NAO M 3 3 M 12 RA F 17 1.64 58.00 2 NAO M 2 2 M 10 RA F 18 1.72 70.00 1 SIM I 10 2 B 8 NA F 18 1.66 54.00 3 NAO M 0 2 B 0 RA F 21 1.70 58.00 2 NAO M 6 1 M 30 RA M 19 1.78 68.50 1 SIM I 5 1 M 2 NA F 18 1.65 63.50 1 NAO I 4 1 B 10 R
31
-
Id: identificaç~ao do aluno.
Turma: turma a que o aluno foi alocado (A ou B).
Sexo: F se feminino, M se masculino.
Idade: idade em anos.
Alt: altura em metros.
Peso: peso em quilogramas.
Filhos: número de filhos na familia.
Fuma: hábito de fumar, sim ou n~ao.
Toler: tolerância ao cigarro:
(I) indiferente, (P) incomoda pouco e (M) incomoda muito.
Exerc: horas de atividade fisica, por semana.
Cine: número de vezes em que vai ao cinema por semana.
OpCine: opini~ao a respeito das salas de cinema na cidade:
(B) regular a boa e (M) muito boa.
TV: horas gastas assistindo TV, por semana.
OpTV: opini~ao a respeito da qualidade da programaç~aoo na TV:
(R) ruim, (M) média, (B) boa e (N) n~ao sabe.
32
-
Exemplo. Dados de incidência de cancer.
http://www.ime.usp.br/~noproest/dados/cancer.txt
Grupo Idade AKP P LDH ALB N GL
1 71 8.00 3.20 7.80 62 6 1131 66 10.50 5.10 50.10 57 9 931 83 8.50 3.30 15.30 53 21 1091 52 12.80 3.20 18.80 45 14 911 61 7.40 4.30 12.90 69 19 781 54 8.10 2.70 15.90 57 10 1221 27 3.80 3.20 24.90 64 14 881 91 7.80 3.50 30.10 61 28 1041 74 8.20 3.20 20.70 66 21 911 67 14.00 2.90 15.80 60 15 1031 43 7.30 3.90 11.80 68 15 931 40 5.50 2.80 18.10 63 16 961 64 6.30 3.20 22.40 56 14 1271 23 3.30 2.40 24.20 61 13 931 58 10.30 3.00 14.90 62 14 1021 18 9.30 2.70 12.50 55 6 99
33
-
coluna 1: Identificaç~ao do paciente.
coluna 2: Diagnóstico:
1 = Falso-negativo: diagnosticados como n~ao tendo a
doença quando na verdade a tinham.
2 = Negativo: diagnosticados como n~ao tendo a doença
quando de fato n~ao a tinham.
3 = Positivo: diagnosticados corretamente como tendo a doença.
4 = Falso-positivo: diagnosticados como tendo a doença
quando na verdade n~ao tinham.
coluna 3: Idade.
coluna 4: Espectro quı́mico da análise do sangue:
alkaliine phosphatose (AKP).
coluna 5: Concentraç~ao de fosfato no sangue (P).
coluna 6: Enzima, lactate dehydrogenase (LDH).
coluna 7: Albumina (ALB).
coluna 8: Nitrogênio na uréia (N).
coluna 9: Glicose (GL).
34
IntroduçãoO que é EstatísticaAnálise TemporalContágio FinanceiroAlguns Tipos de AssociaçãoAnálise EspacialModelos e InferênciaInferência estatísticaDados Brutos