estatistica - uspconteudo.icmc.usp.br/pessoas/ehlers/sme0221/intro.pdf · estatistica ricardo...

41
Estatistica Ricardo Ehlers [email protected] Departamento de Matem´ atica Aplicada e Estat´ ıstica Universidade de S˜ ao Paulo

Upload: others

Post on 29-Dec-2019

9 views

Category:

Documents


0 download

TRANSCRIPT

  • Estatistica

    Ricardo [email protected]

    Departamento de Matemática Aplicada e Estat́ıstica

    Universidade de São Paulo

  • Introdução

  • O que é Estat́ıstica

    • Ciência de aprendizagem a partir de dados.

    • Envolve a coleta e análise de dados e sua conseqüentetransformação em informação.

    • Objetivos: postular, refutar ou validar hipóteses cient́ıficassobre um fenômeno observável.

    • Analogamente: tomada de decisão nos mais variadosproblemas onde existe incerteza.

    • Usando Teoria das Probabilidades, os estat́ısticos formalizameste processo de forma a aperfeiçoá-lo.

    • Os métodos estat́ısticos tem um forte embasamentomatemático.

    Informação Dados → Análise → Tomada de Decisão

    1

  • Probabilidade não existe.

    Bruno de Finetti

    Todos os modelos estão errados, mas alguns são úteis.

    George P. Box

    2

  • Velocidades de 82 galáxias em Km/seg na constelação de Coroa

    Boreal

    0 10 20 30 40

    0.0

    00

    .05

    0.1

    00

    .15

    0.2

    0

    velocity of galaxy (1000km/s)

    de

    nsity

    3

  • • Quantos grupos de galáxias existem?

    • Os valores mais afastados formam outro grupo ou são’outliers’?

    • Como tratar problemas de identificação do modelo?

    • Se uma nova galáxia for descoberta ela pertencerá a qualgrupo com qual probabilidade?

    4

  • Análise Temporal

  • Análise e Previsão de Séries Temporais.

    0 50 100 150 200 250

    −4

    −2

    02

    46

    Time

    se

    rie

    s

  • • Existem padrões temporais ?

    • Como fazer boas previsões? (O que é uma“boa”previsão?)

    • Como construir os intervalos de previsão?

    • Quão longe no futuro é seguro prever?

    6

  • Taxas de câmbio diárias em relação ao Dolar Americano.

    Franco Marco

    Libra Dolar Canadense

    0 500 1000 1500 2000 0 500 1000 1500 2000

    1.1

    1.2

    1.3

    1.4

    1.5

    1.4

    1.5

    1.6

    1.7

    1.8

    1.9

    0.50

    0.55

    0.60

    0.65

    0.70

    5.0

    5.5

    6.0

    Time 7

  • Retornos diários em relação ao Dolar Americano.

    Franco Marco

    Libra Dolar Canadense

    0 500 1000 1500 2000 0 500 1000 1500 2000

    −0.01

    0.00

    0.01

    −0.02

    0.00

    0.02

    −0.02

    0.00

    0.02

    −0.02

    −0.01

    0.00

    0.01

    0.02

    Time 8

  • Contágio Financeiro

    • Aumento significativo da probabilidade de crise em um páıscondicional a crise em outro páıs.

    • Por exemplo, a ocorrência de crise cambial em um páısaumenta a probabilidade de ataques especulativos em outrospáıses.

    9

  • Preços diários, alguns indices de mercado europeu

    1992 1993 1994 1995 1996 1997 1998

    20

    00

    30

    00

    40

    00

    50

    00

    60

    00

    70

    00

    80

    00

    DAX

    SMI

    CAC

    FTSE

    10

  • Ozônio (em PPB) e radiação solar em NY 1/5/1973 a 30/9/1973

    05

    01

    00

    15

    0

    Ozo

    ne

    0 50 100 150

    Index

    01

    00

    20

    03

    00

    So

    lar

    11

  • Dados peso versus idade (em dias) de frangos sob diferentes dietas.

    100

    200

    300

    0 5 10 15 20

    Time

    we

    igh

    t

    Diet

    1

    2

    3

    4

    12

  • 0 5101520 0 5101520 0 5101520 0 5101520 0 5101520

    0 5101520 0 5101520 0 5101520 0 5101520

    100

    200

    300

    100

    200

    300

    100

    200

    300

    100

    200

    300

    100

    200

    300

    100

    200

    300

    we

    igh

    t

    13

  • Tendência de preços de casas por estado americano (1975 a 2013).

    0

    250000

    500000

    750000

    1980 1990 2000 2010

    Date

    Ho

    me.V

    alu

    e

    State

    AK

    AL

    AR

    AZ

    CA

    CO

    CT

    DC

    DE

    FL

    GA

    HI

    IA

    ID

    IL

    IN

    KS

    KY

    LA

    MA

    MD

    ME

    MI

    MN

    MO

    MS

    MT

    NC

    ND

    NE

    NH

    NJ

    NM

    NV

    NY

    OH

    OK

    OR

    PA

    RI

    SC

    SD

    TN

    TX

    UT

    VA

    VT

    WA

    WI

    WV

    WY

    14

  • VA VT WA WI WV WY

    OK OR PA RI SC SD TN TX UT

    NC ND NE NH NJ NM NV NY OH

    LA MA MD ME MI MN MO MS MT

    FL GA HI IA ID IL IN KS KY

    AK AL AR AZ CA CO CT DC DE

    198019902000201019801990200020101980199020002010198019902000201019801990200020101980199020002010

    198019902000201019801990200020101980199020002010

    0

    250000

    500000

    750000

    0

    250000

    500000

    750000

    0

    250000

    500000

    750000

    0

    250000

    500000

    750000

    0

    250000

    500000

    750000

    0

    250000

    500000

    750000

    Ho

    me.V

    alu

    e

    15

  • Alguns Tipos de Associação

  • Medidas de Associação para Valores Extremos (Dados simulados)

    −5.0

    −2.5

    0.0

    2.5

    −4 0 4

    x

    y

    16

  • Valores Extremos (minimos e máximos)

    −5.0

    −2.5

    0.0

    2.5

    −4 0 4

    x

    y

    17

  • Dados de peso, altura e idade (questionário estudantil)

    50

    60

    70

    80

    90

    1.5 1.6 1.7 1.8

    Alt

    Peso

    17

    19

    21

    23

    25Idade

    18

  • Dados de peso, altura e sexo (questionário estudantil)

    50

    60

    70

    80

    90

    1.5 1.6 1.7 1.8

    Alt

    Peso

    Sexo

    F

    M

    19

  • Dados de peso, altura, idade e sexo (questionário estudantil)

    50

    60

    70

    80

    90

    1.5 1.6 1.7 1.8

    Alt

    Peso

    17

    19

    21

    23

    25Idade

    Sexo

    F

    M

    20

  • Dados de peso, altura, idade e sexo (questionário estudantil)

    AlturaPeso

    Idade

    21

  • Afghanistan

    Argentina Barbados

    Bhutan

    Botswana

    Brazil

    Britain

    Cape Verde

    China

    Congo

    FranceGermany

    Greece

    IndiaIraq

    ItalyJapan

    Myanmar

    New Zealand

    Norway

    Russia

    Rwanda

    Singapore

    South Africa

    Sudan

    United States

    Venezuela

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1.0

    1 2 3 4 5 6 7 8 9 10

    Corruption Perceptions Index, 2011 (10=least corrupt)

    Hu

    ma

    n D

    eve

    lop

    me

    nt

    Ind

    ex,

    20

    11

    (1

    =B

    est)

    Corruption and Human development

    22

  • Análise Espacial

  • Medidas de associação em 2 dimensões

    X

    Y

    2

    4

    6

    8

    10

    2 4 6 8 10

    0

    1

    2

    3

    4

    5

    23

  • Taxa de Desemprego por condado nos EUA, 2009

    2−4% 4−6% 6−8% 8−10% >10%

    24

  • Abalos sismicos (MB > 4) em torno das Ilhas Fiji desde 1964

    100 120 140 160 180

    −4

    0−

    30

    −2

    0−

    10

    0

    25

  • xxxxx

    26

  • Modelos e Inferência

  • Um modelo é uma simplificação da realidade(e alguns são úteis)

    Quantidades observáveis Quantidades não observáveis(podem ser medidas) (parâmetros e variáveis latentes)

    Abordagens: Clássica e Bayesiana

    Intuição sem base teórica e reflexão em geral resulta em erro.

    Dados: os valores observados das quantidades observáveis.

    27

  • Inferência estat́ıstica

    Processo de tirar conclusões sobre um conjunto maior (população)usando informação de um conjunto menor (amostra).

    PopulaçãoTodos os casos ou situações sobre as quais o pesquisador querfazer inferências.

    Exemplos,

    • Fazer inferências sobre concentração de poluentes numdeterminado lençol freático,

    • Predizer a quantidade de petróleo num poço a ser perfurado,

    • Estimar o tempo de vida útil de um componente eletrônico.

    28

  • AmostraUm subconjunto qualquer da população.

    Por que não observar a população inteira?

    • Alto custo.

    • Tempo muito longo.

    • Impossibilidade f́ısica (e.g. estudo de poluição amosférica).

    • Imposśıvel lógica (e.g. em ensaios destrutivos).

    29

  • • Variáveis: caracteŕısticas de uma população que diferem deum indiv́ıduo para outro e as quais queremos estudar.

    • Observações: medidas de uma ou mais variáveis de umindiv́ıduo na amostra.

    • Censo: estudo que inclui todos os elementos de umapopulação.

    30

  • Dados Brutos

  • Exemplo. Dados parciais de um questionário estudantil.

    http://www.ime.usp.br/~noproest/dados/questionario.txt

    Turma Sexo Idade Alt Peso Filhos Fuma Toler Exerc Cine OpCine TV OpTV

    A F 17 1.60 60.50 2 NAO P 0 1 B 16 RA F 18 1.69 55.00 1 NAO M 0 1 B 7 RA M 18 1.85 72.80 2 NAO P 5 2 M 15 RA M 25 1.85 80.90 2 NAO P 5 2 B 20 RA F 19 1.58 55.00 1 NAO M 2 2 B 5 RA M 19 1.76 60.00 3 NAO M 2 1 B 2 RA F 20 1.60 58.00 1 NAO P 3 1 B 7 RA F 18 1.64 47.00 1 SIM I 2 2 M 10 RA F 18 1.62 57.80 3 NAO M 3 3 M 12 RA F 17 1.64 58.00 2 NAO M 2 2 M 10 RA F 18 1.72 70.00 1 SIM I 10 2 B 8 NA F 18 1.66 54.00 3 NAO M 0 2 B 0 RA F 21 1.70 58.00 2 NAO M 6 1 M 30 RA M 19 1.78 68.50 1 SIM I 5 1 M 2 NA F 18 1.65 63.50 1 NAO I 4 1 B 10 R

    31

  • Id: identificaç~ao do aluno.

    Turma: turma a que o aluno foi alocado (A ou B).

    Sexo: F se feminino, M se masculino.

    Idade: idade em anos.

    Alt: altura em metros.

    Peso: peso em quilogramas.

    Filhos: número de filhos na familia.

    Fuma: hábito de fumar, sim ou n~ao.

    Toler: tolerância ao cigarro:

    (I) indiferente, (P) incomoda pouco e (M) incomoda muito.

    Exerc: horas de atividade fisica, por semana.

    Cine: número de vezes em que vai ao cinema por semana.

    OpCine: opini~ao a respeito das salas de cinema na cidade:

    (B) regular a boa e (M) muito boa.

    TV: horas gastas assistindo TV, por semana.

    OpTV: opini~ao a respeito da qualidade da programaç~aoo na TV:

    (R) ruim, (M) média, (B) boa e (N) n~ao sabe.

    32

  • Exemplo. Dados de incidência de cancer.

    http://www.ime.usp.br/~noproest/dados/cancer.txt

    Grupo Idade AKP P LDH ALB N GL

    1 71 8.00 3.20 7.80 62 6 1131 66 10.50 5.10 50.10 57 9 931 83 8.50 3.30 15.30 53 21 1091 52 12.80 3.20 18.80 45 14 911 61 7.40 4.30 12.90 69 19 781 54 8.10 2.70 15.90 57 10 1221 27 3.80 3.20 24.90 64 14 881 91 7.80 3.50 30.10 61 28 1041 74 8.20 3.20 20.70 66 21 911 67 14.00 2.90 15.80 60 15 1031 43 7.30 3.90 11.80 68 15 931 40 5.50 2.80 18.10 63 16 961 64 6.30 3.20 22.40 56 14 1271 23 3.30 2.40 24.20 61 13 931 58 10.30 3.00 14.90 62 14 1021 18 9.30 2.70 12.50 55 6 99

    33

  • coluna 1: Identificaç~ao do paciente.

    coluna 2: Diagnóstico:

    1 = Falso-negativo: diagnosticados como n~ao tendo a

    doença quando na verdade a tinham.

    2 = Negativo: diagnosticados como n~ao tendo a doença

    quando de fato n~ao a tinham.

    3 = Positivo: diagnosticados corretamente como tendo a doença.

    4 = Falso-positivo: diagnosticados como tendo a doença

    quando na verdade n~ao tinham.

    coluna 3: Idade.

    coluna 4: Espectro quı́mico da análise do sangue:

    alkaliine phosphatose (AKP).

    coluna 5: Concentraç~ao de fosfato no sangue (P).

    coluna 6: Enzima, lactate dehydrogenase (LDH).

    coluna 7: Albumina (ALB).

    coluna 8: Nitrogênio na uréia (N).

    coluna 9: Glicose (GL).

    34

    IntroduçãoO que é EstatísticaAnálise TemporalContágio FinanceiroAlguns Tipos de AssociaçãoAnálise EspacialModelos e InferênciaInferência estatísticaDados Brutos