teorema do limite central, distribuição amostral ... · amostral, estimação por ponto e ......

Teorema do Limite Central, distribuição amostral, estimação por ponto e

intervalo de confiança

Prof. Marcos Pó Métodos Quantitativos para Ciências Sociais

Distribuição amostral

• Duas amostragens iguais oriundas da mesma população quase certamente terão estatísticas diferentes. Diferentes amostragens produzirão amostras com estatísticas distintas.

• Amostragens são probabilísticas, portanto, estatísticas baseadas nas amostragens também o são.

• Se as características da amostragem da população são conhecidas, a probabilidade de cada resultado pode ser determinada, ou seja, podemos determinar a probabilidade de que uma estatística amostral esteja dentro de determinado intervalo em relação ao parâmetro populacional.

2

3

POPULAÇÃO

Amostras variadas, ainda que da

mesma população, geram estatísticas

diferentes.

• As amostras são aleatórias, ou seja, todos os elementos da população possuem a mesma probabilidade de serem sorteados.

► Isso se chama seleção randômica.

• Amostras diferentes, ainda que do mesmo tamanho e da mesma população, geram estatísticas diferentes.

4

Pressupostos

Simulação

• Utilizando a planilha “Simulação alturas”, determinar a média e o desvio-padrão de cada uma das 30 amostras para as os seguintes tamanhos amostrais: n = 15; n = 60 e n = 150.

• Depois, utilizando as médias obtidas em cada uma das observações amostrais, determinar média, desvio-padrão e amplitude (mínimo e máximo) e compará-los em um quadro.

5

n

Amplitude das amostras Das médias

médias desvios-padrão

mín máx mín máx média dpad

15

60

150

Simulação

• Parece haver alguma relação entre o desvio-padrão das médias e o tamanho da amostra (n)?

6

n

Amplitude das amostras Das médias

médias desvios-padrão

mín máx mín máx média dpad

15 1,550 1,751 0,085 0,208 1,668 0,041

60 1,638 1,720 0,114 0,181 1,669 0,020

150 1,643 1,703 0,132 0,161 1,668 0,013

População = X~N(1,67; 0,152)

Teorema do Limite Central (TLC)

Quando o tamanho da amostra (n) aumenta, independente da f.d.p. da população, a distribuição amostral da média da amostra (x) converge para uma distribuição normal.

7

Histogramas de distribuição da

média para amostras de algumas populações

Por que o TLC é importante para nós?

• Se a média de uma amostra for um estimador razoável não será necessário conhecer a f.d.p. da população, pois a distribuição de probabilidades da média das amostras será aproximadamente uma normal.

• Dessa forma conseguimos fazer inferências a respeito da amostra, tais como estimar se está dentro dos nossos critérios de aceitação.

• A média das distribuições amostrais será igual à da população (μ) e a sua variância será dada por σ2/n:

8

= μE x n

= Var x

2 n

= x

Distribuição amostral da média

• Seja X uma variável aleatória (v.a.) com média μ e variância σ2, e seja (X1, X2,..., Xn) uma Amostra Aleatória Simples (AAS) de X, de tamanho n, então:

• Ou seja, quanto maior a amostra, menor o desvio padrão da distribuição amostral.

= X)E(

n =

n =

XX

2

2

9

Exemplo: uso da curva normal e do TLC

Uma v.a. x tem distribuição normal, com média 100 e desvio-padrão 10 X~N(100; 102).

a. Qual a P(90<X<110)?

b. Se X for a média de uma amostra de 16 elementos tirados dessa população, calcule P(90<X<110)?

c. Que tamanho deveria ter a amostra para que P(90<X<110) = 0,95?

10

Estimação de parâmetros

• Problemas: ► Estimar parâmetros de uma população a partir de amostras

► Testar hipótese sobre os parâmetros

• Estimador: estatística usada para aferir parâmetro da população.

• Genericamente: T estimador de

• Há vários estimadores possíveis. ► Ex. para média populacional :

• Erro entre a estimativa e o alvo: ► erro absoluto: |T-|

► erro quadrático: (T-)²

x

x

x

x

x

x

erro

x

11

Características de um bom estimador

• Precisão: proximidade da média de todas as observações.

• Acurácia: proximidade do valor alvo.

• Ausência de viés: distância das observações em relação ao alvo.

(a) (b) (c)

12

Estimador de ponto

• Fornece um número único como estimativa de um parâmetro da população.

• Nossa preocupação é em minimizar o erro:

• Ou seja, que nossa estimativa amostral seja o mais próxima possível do parâmetro da população.

• Pequena questão crucial: como saber se estamos perto se não temos noção dos parâmetros da população?

2 2

2

ˆ ˆˆE

13

Estimação de intervalos

• Quando determinamos uma estimativa T de uma amostra, não temos nenhuma indicação de sua proximidade em relação ao parâmetro θ da população.

• Diferente da estimação pontual, a estimação por intervalo nos permite julgar a magnitude do erro que estamos cometendo.

• A sua determinação é baseada na distribuição amostral do estimador pontual.

14

Ilustrativamente

Fo

nte

: Bu

ssab

; Mo

rett

in, 2

00

2: 3

04

95,096,196,1 = X X xxP

15

Intervalo de confiança (IC)

• IC = Probabilidade de que um intervalo estimado de valores contenha o parâmetro populacional que queremos determinar.

• Também definido como coeficiente (ou nível) de confiança (γ), cujos valores mais comuns são 95% e 99%.

Fonte: Bussab; Morettin, 2002: 305

16

Metaforicamente

x

x

x

x

x

x

96,1x

96,1x96,1x

96,1x

96,1x

96,1x

Estimador pontual Estimador intervalar

17

• É o intervalo que contém o parâmetro da população que queremos estimar com um determinado grau de certeza, indicado pelo coeficiente de confiança γ.

• O uso de intervalo permite estabelecer um julgamento do erro que estamos cometendo, que é determinado com base na distribuição amostral do estimador pontual.

18

Intervalo de confiança: resumo

γ

α/2 α/2

= XX

xn

zxn

zPIC

;

n

ppzpp

n

ppzpPIC

p

)1(ˆˆ

)1(ˆ

;ˆ

Intervalo de confiança: outra interpretação

É um intervalo que contém o parâmetro populacional que queremos estimar, com um grau

de confiança indicado pelo coeficiente γ (gama).

Ele permite estabelecer um julgamento do erro que podemos estar cometendo e a probabilidade de que nossa amostra tenha gerado resultados além desse erro.

γ

α/2 α/2

nZxIC

x

;

n

ppZpIC

p

)1(ˆ

;ˆ

19

‘Erro’ que podemos

estar cometendo

γ (gama) é a confiança que temos de estar, no máximo, cometendo esse erro com nossa amostra.

1. Do público que frequenta um posto de saúde é retirada uma amostra de 100 pessoas, obtendo-se uma renda média de R$2.500 e desvio-padrão de R$1.000.

a. Qual o intervalo de confiança de 95% para a renda média dos usuários do posto?

b. Com que grau de confiança pode-se dizer que a renda média dos usuários é R$2.500±R$100?

2. Calcule o intervalo de confiança para a média de altura de uma

população normal em cada uma das amostras abaixo:

3. Uma amostra aleatória de 484 donas de casa revela que 60% viram os comunicados de vacinação veiculados no intervalo da programação matinal de televisão. Construa um intervalo de confiança de 90% para a proporção das donas de casa que viram os comunicados.

20

Exemplos

n σ γ

170 cm 25 15 cm 95%

170 cm 225 15 cm 95%

170 cm 225 15 cm 99%

E se a variância da população não for conhecida?

• Nesse caso temos que usar o s da amostra para determinar o intervalo de confiança.

• Podemos ter duas situações:

► Amostras grandes: nesse caso pode-se considerar que a amostra aproxima-se da normal.

► Amostras pequenas: usar a distribuição t de Student.

• Costuma-se tomar arbitrariamente 30 (ou 60) como referência para definir se uma amostra é grande ou pequena, mas deve-se analisar o problema e a variância antes de decidir.

21

Distribuição t de Student

• Desenvolvida por Willian S. Gosset em 1908, que publicou suas descobertas sob o pseudônimo Student.

• Ele desenvolveu essa distribuição enquanto trabalhava nas cervejarias Guinness, na Irlanda, visando resolver problemas relacionados às pequenas amostragens que não se comportavam como predito pela distribuição normal.

22

Distribuição t de Student

• A distribuição t é semelhante à normal, porém com caudas mais largas.

• O parâmetro que a define é o número de graus de liberdade (ν). Quanto mais graus de liberdade, mais próxima da normal será sua curva.

► Graus de liberdade são o número de escolhas livres depois que uma estatística como a média é calculada.

► No caso de intervalos de confiança e teste de hipótese sobre médias:

gl = ν = n-1.

Fonte: http://en.wikipedia.org/wiki/File:Student_t_pdf.svg

23

http://en.wikipedia.org/wiki/File:Student_t_pdf.svg

Distribuição amostral de uma proporção

• Consideramos X uma v.a. onde:

1, se portador da característica

X

0, se não for portador da característica

• Ex.: doador de órgãos, profissão, preferência futebolística, eleitor do candidato tal...

• Uma proporção é a freqüência de ocorrência da característica, podendo ser descrita como uma porcentagem.

25

Proporção

• Proporção populacional de uma categoria é a frequência relativa com que el se observa na população.

X = total de vezes que a categoria ocorre na população

N = tamanho da população

• Proporção amostral é a frequência relativa com que a categoria se observa em uma amostra.

x = total de vezes que a categoria ocorre na amostra

n = tamanho da amostra

26

N

Xp

n

xp ˆ

Distribuição amostral de uma proporção

• Podemos aproximar a distribuição binomial para uma normal, onde a média e a variância são definidos como:

μ= E(X) = p

σ2 = Var(X) = p(1-p)

• Assim, distribuição amostral da proporção é:

n

pppNp

)1(;~ˆ

27

Intervalo de confiança para proporção

• O procedimento para o caso de proporção é o mesmo que para valores contínuos, com variância p(1-p).

• Se não tivermos ideia sobre o valor de p, há duas alternativas:

► Buscar uma estimativa de p por meio de uma pesquisa piloto

► Usar p(1-p) = 0,25 (valor máximo), de forma a obter uma estimativa conservadora do IC.

n

pppp

n

ppp zz

)1(ˆ

)1(ˆ

28

Exemplo: binomial como normal

1. Uma pesquisa de boca-de-urna com 400 eleitores aleatoriamente selecionados mostra que um candidato tem 51% das preferências dos votos válidos. Com base nisso, calcule:

a. A probabilidade de que o candidato não vença a eleição, ficando com menos de 50% dos votos.

b. A probabilidade anterior se a amostra fosse de 1024 eleitores.

2. Aceita-se que no preenchimento de cadastros de um departamento haja 5% de erros. A cada semana sorteia-se uma amostra de 25 cadastros e, se houver mais de 8% de erros, o serviço é interrompido para conferência de todos os cadastros feitos no período. Calcule a probabilidade de uma interrupção desnecessária.

29

Exercício em grupo para entrega na próxima aula

4. Alunos da UFXYZ, tentando salvar o que resta de humanidade nas redes sociais, tiveram a ideia de lançar uma campanha onde fariam demonstrações de afeto aos que fazem comentários retrógrados, desinformados ou preconceituosos. Para testar a adesão à campanha, fazem uma amostra aleatória de 80 estudantes, obtendo os seguintes resultados:

• Determine: a. Um intervalo de confiança de 95% de alunos que apoiariam a campanha.

b. O tamanho da amostra necessário para que os proponentes da campanha pudessem confiar, com 95% de certeza de que a maioria dos alunos a apoia.

Resposta n %

Apoio com certeza: menos mimimi, mais amor! 42 52,5%

Agora não dá, meu CR está perigando... 20 25%

Tomou água da samabaia? Abraçar ancap/comuna? Nunquinha!

18 22,5%

30

teorema do limite central, distribuição amostral ... · amostral, estimação por ponto e ......

Documents