teorema do limite central, distribuição amostral ... · amostral, estimação por ponto e ......
TRANSCRIPT
Teorema do Limite Central, distribuição amostral, estimação por ponto e
intervalo de confiança
Prof. Marcos Pó Métodos Quantitativos para Ciências Sociais
Distribuição amostral
• Duas amostragens iguais oriundas da mesma população quase certamente terão estatísticas diferentes. Diferentes amostragens produzirão amostras com estatísticas distintas.
• Amostragens são probabilísticas, portanto, estatísticas baseadas nas amostragens também o são.
• Se as características da amostragem da população são conhecidas, a probabilidade de cada resultado pode ser determinada, ou seja, podemos determinar a probabilidade de que uma estatística amostral esteja dentro de determinado intervalo em relação ao parâmetro populacional.
2
3
POPULAÇÃO
Amostras variadas, ainda que da
mesma população, geram estatísticas
diferentes.
• As amostras são aleatórias, ou seja, todos os elementos da população possuem a mesma probabilidade de serem sorteados.
► Isso se chama seleção randômica.
• Amostras diferentes, ainda que do mesmo tamanho e da mesma população, geram estatísticas diferentes.
4
Pressupostos
Simulação
• Utilizando a planilha “Simulação alturas”, determinar a média e o desvio-padrão de cada uma das 30 amostras para as os seguintes tamanhos amostrais: n = 15; n = 60 e n = 150.
• Depois, utilizando as médias obtidas em cada uma das observações amostrais, determinar média, desvio-padrão e amplitude (mínimo e máximo) e compará-los em um quadro.
5
n
Amplitude das amostras Das médias
médias desvios-padrão
mín máx mín máx média dpad
15
60
150
Simulação
• Parece haver alguma relação entre o desvio-padrão das médias e o tamanho da amostra (n)?
6
n
Amplitude das amostras Das médias
médias desvios-padrão
mín máx mín máx média dpad
15 1,550 1,751 0,085 0,208 1,668 0,041
60 1,638 1,720 0,114 0,181 1,669 0,020
150 1,643 1,703 0,132 0,161 1,668 0,013
População = X~N(1,67; 0,152)
Teorema do Limite Central (TLC)
Quando o tamanho da amostra (n) aumenta, independente da f.d.p. da população, a distribuição amostral da média da amostra (x) converge para uma distribuição normal.
7
Histogramas de distribuição da
média para amostras de algumas populações
Por que o TLC é importante para nós?
• Se a média de uma amostra for um estimador razoável não será necessário conhecer a f.d.p. da população, pois a distribuição de probabilidades da média das amostras será aproximadamente uma normal.
• Dessa forma conseguimos fazer inferências a respeito da amostra, tais como estimar se está dentro dos nossos critérios de aceitação.
• A média das distribuições amostrais será igual à da população (μ) e a sua variância será dada por σ2/n:
8
= μE x n
= Var x
2 n
= x
Distribuição amostral da média
• Seja X uma variável aleatória (v.a.) com média μ e variância σ2, e seja (X1, X2,..., Xn) uma Amostra Aleatória Simples (AAS) de X, de tamanho n, então:
• Ou seja, quanto maior a amostra, menor o desvio padrão da distribuição amostral.
= X)E(
n =
n =
XX
2
2
9
Exemplo: uso da curva normal e do TLC
Uma v.a. x tem distribuição normal, com média 100 e desvio-padrão 10 X~N(100; 102).
a. Qual a P(90<X<110)?
b. Se X for a média de uma amostra de 16 elementos tirados dessa população, calcule P(90<X<110)?
c. Que tamanho deveria ter a amostra para que P(90<X<110) = 0,95?
10
Estimação de parâmetros
• Problemas: ► Estimar parâmetros de uma população a partir de amostras
► Testar hipótese sobre os parâmetros
• Estimador: estatística usada para aferir parâmetro da população.
• Genericamente: T estimador de
• Há vários estimadores possíveis. ► Ex. para média populacional :
• Erro entre a estimativa e o alvo: ► erro absoluto: |T-|
► erro quadrático: (T-)²
x
x
x
x
x
x
erro
x
11
Características de um bom estimador
• Precisão: proximidade da média de todas as observações.
• Acurácia: proximidade do valor alvo.
• Ausência de viés: distância das observações em relação ao alvo.
(a) (b) (c)
12
Estimador de ponto
• Fornece um número único como estimativa de um parâmetro da população.
• Nossa preocupação é em minimizar o erro:
• Ou seja, que nossa estimativa amostral seja o mais próxima possível do parâmetro da população.
• Pequena questão crucial: como saber se estamos perto se não temos noção dos parâmetros da população?
2 2
2
ˆ ˆˆE
13
Estimação de intervalos
• Quando determinamos uma estimativa T de uma amostra, não temos nenhuma indicação de sua proximidade em relação ao parâmetro θ da população.
• Diferente da estimação pontual, a estimação por intervalo nos permite julgar a magnitude do erro que estamos cometendo.
• A sua determinação é baseada na distribuição amostral do estimador pontual.
14
Ilustrativamente
Fo
nte
: Bu
ssab
; Mo
rett
in, 2
00
2: 3
04
95,096,196,1 = X X xxP
15
Intervalo de confiança (IC)
• IC = Probabilidade de que um intervalo estimado de valores contenha o parâmetro populacional que queremos determinar.
• Também definido como coeficiente (ou nível) de confiança (γ), cujos valores mais comuns são 95% e 99%.
Fonte: Bussab; Morettin, 2002: 305
16
Metaforicamente
x
x
x
x
x
x
96,1x
96,1x96,1x
96,1x
96,1x
96,1x
Estimador pontual Estimador intervalar
17
• É o intervalo que contém o parâmetro da população que queremos estimar com um determinado grau de certeza, indicado pelo coeficiente de confiança γ.
• O uso de intervalo permite estabelecer um julgamento do erro que estamos cometendo, que é determinado com base na distribuição amostral do estimador pontual.
18
Intervalo de confiança: resumo
γ
α/2 α/2
= XX
xn
zxn
zPIC
;
n
ppzpp
n
ppzpPIC
p
)1(ˆˆ
)1(ˆ
;ˆ
Intervalo de confiança: outra interpretação
É um intervalo que contém o parâmetro populacional que queremos estimar, com um grau
de confiança indicado pelo coeficiente γ (gama).
Ele permite estabelecer um julgamento do erro que podemos estar cometendo e a probabilidade de que nossa amostra tenha gerado resultados além desse erro.
γ
α/2 α/2
nZxIC
x
;
n
ppZpIC
p
)1(ˆ
;ˆ
19
‘Erro’ que podemos
estar cometendo
γ (gama) é a confiança que temos de estar, no máximo, cometendo esse erro com nossa amostra.
1. Do público que frequenta um posto de saúde é retirada uma amostra de 100 pessoas, obtendo-se uma renda média de R$2.500 e desvio-padrão de R$1.000.
a. Qual o intervalo de confiança de 95% para a renda média dos usuários do posto?
b. Com que grau de confiança pode-se dizer que a renda média dos usuários é R$2.500±R$100?
2. Calcule o intervalo de confiança para a média de altura de uma
população normal em cada uma das amostras abaixo:
3. Uma amostra aleatória de 484 donas de casa revela que 60% viram os comunicados de vacinação veiculados no intervalo da programação matinal de televisão. Construa um intervalo de confiança de 90% para a proporção das donas de casa que viram os comunicados.
20
Exemplos
n σ γ
170 cm 25 15 cm 95%
170 cm 225 15 cm 95%
170 cm 225 15 cm 99%
E se a variância da população não for conhecida?
• Nesse caso temos que usar o s da amostra para determinar o intervalo de confiança.
• Podemos ter duas situações:
► Amostras grandes: nesse caso pode-se considerar que a amostra aproxima-se da normal.
► Amostras pequenas: usar a distribuição t de Student.
• Costuma-se tomar arbitrariamente 30 (ou 60) como referência para definir se uma amostra é grande ou pequena, mas deve-se analisar o problema e a variância antes de decidir.
21
Distribuição t de Student
• Desenvolvida por Willian S. Gosset em 1908, que publicou suas descobertas sob o pseudônimo Student.
• Ele desenvolveu essa distribuição enquanto trabalhava nas cervejarias Guinness, na Irlanda, visando resolver problemas relacionados às pequenas amostragens que não se comportavam como predito pela distribuição normal.
22
Distribuição t de Student
• A distribuição t é semelhante à normal, porém com caudas mais largas.
• O parâmetro que a define é o número de graus de liberdade (ν). Quanto mais graus de liberdade, mais próxima da normal será sua curva.
► Graus de liberdade são o número de escolhas livres depois que uma estatística como a média é calculada.
► No caso de intervalos de confiança e teste de hipótese sobre médias:
gl = ν = n-1.
Fonte: http://en.wikipedia.org/wiki/File:Student_t_pdf.svg
23
24
Distribuição amostral de uma proporção
• Consideramos X uma v.a. onde:
1, se portador da característica
X
0, se não for portador da característica
• Ex.: doador de órgãos, profissão, preferência futebolística, eleitor do candidato tal...
• Uma proporção é a freqüência de ocorrência da característica, podendo ser descrita como uma porcentagem.
25
Proporção
• Proporção populacional de uma categoria é a frequência relativa com que el se observa na população.
X = total de vezes que a categoria ocorre na população
N = tamanho da população
• Proporção amostral é a frequência relativa com que a categoria se observa em uma amostra.
x = total de vezes que a categoria ocorre na amostra
n = tamanho da amostra
26
N
Xp
n
xp ˆ
Distribuição amostral de uma proporção
• Podemos aproximar a distribuição binomial para uma normal, onde a média e a variância são definidos como:
μ= E(X) = p
σ2 = Var(X) = p(1-p)
• Assim, distribuição amostral da proporção é:
n
pppNp
)1(;~ˆ
27
Intervalo de confiança para proporção
• O procedimento para o caso de proporção é o mesmo que para valores contínuos, com variância p(1-p).
• Se não tivermos ideia sobre o valor de p, há duas alternativas:
► Buscar uma estimativa de p por meio de uma pesquisa piloto
► Usar p(1-p) = 0,25 (valor máximo), de forma a obter uma estimativa conservadora do IC.
n
pppp
n
ppp zz
)1(ˆ
)1(ˆ
28
Exemplo: binomial como normal
1. Uma pesquisa de boca-de-urna com 400 eleitores aleatoriamente selecionados mostra que um candidato tem 51% das preferências dos votos válidos. Com base nisso, calcule:
a. A probabilidade de que o candidato não vença a eleição, ficando com menos de 50% dos votos.
b. A probabilidade anterior se a amostra fosse de 1024 eleitores.
2. Aceita-se que no preenchimento de cadastros de um departamento haja 5% de erros. A cada semana sorteia-se uma amostra de 25 cadastros e, se houver mais de 8% de erros, o serviço é interrompido para conferência de todos os cadastros feitos no período. Calcule a probabilidade de uma interrupção desnecessária.
29
Exercício em grupo para entrega na próxima aula
4. Alunos da UFXYZ, tentando salvar o que resta de humanidade nas redes sociais, tiveram a ideia de lançar uma campanha onde fariam demonstrações de afeto aos que fazem comentários retrógrados, desinformados ou preconceituosos. Para testar a adesão à campanha, fazem uma amostra aleatória de 80 estudantes, obtendo os seguintes resultados:
• Determine: a. Um intervalo de confiança de 95% de alunos que apoiariam a campanha.
b. O tamanho da amostra necessário para que os proponentes da campanha pudessem confiar, com 95% de certeza de que a maioria dos alunos a apoia.
Resposta n %
Apoio com certeza: menos mimimi, mais amor! 42 52,5%
Agora não dá, meu CR está perigando... 20 25%
Tomou água da samabaia? Abraçar ancap/comuna? Nunquinha!
18 22,5%
30