aula 1. introdução à inferência estatísticayambar/mae0229/aulas... · aula 1. introdução à...
TRANSCRIPT
Aula 1. Introdução à Inferência Estatística
Capítulo 10, Bussab&Morettin “Estatística Básica” 7ª Edição
População
Características
Informações contidas
nos dados
Conclusões
sobre as
características
da população
Técnicas de amostragem
Análise
descritiva
Inferência
estatística
Estatística
Amostra / dados
𝑥1, 𝑥2, … , 𝑥𝑛
População é o conjunto de todos os elementos ou resultados sob
investigação
Amostra é qualquer subconjunto da
população
População ↔ Amostra
Exemplo 10.1: Consideramos uma pesquisa para estudar os salários dos 500 funcionários da Companhia M&B. Seleciona-se uma amostra de 36 indivíduos, e anotam-se os seus salários.
População = 500 salários correspondentes aos 500 funcionários
Amostra = 36 salários de funcionários selecionados
Esperamos que amostra reflita as caraterísticas principais da distribuição populacional de salários da empresa =
Amostra representativa
População ↔ Amostra
Exemplo 10.3: Consideramos uma pesquisa para estudar a duração de vida útil de um novo tipo de lâmpadas, pois acredita-se que a duração desse novo tipo é maior. Então 100 lâmpadas do novo tipo são deixadas acesas até queimarem.
População = a vida útil de todas as lâmpadas fabricadas ou que venham a ser fabricadas por essa empresa; = a distribuição de vida útil de lâmpada fabricada por empresa
Amostra = tempos de vida observada de 100 lâmpadas selecionados
Esperamos que amostra reflita as caraterísticas principais da distribuição populacional de vida útil de lâmpadas produzidas pela empresa =
Amostra representativa
População
Características
Técnicas de amostragem
Amostra / dados
𝑥1, 𝑥2, … , 𝑥𝑛 A.A.S.
Amostragem Aleatória Simples
Aleatoriamente sorteia-se um elemento da população, sendo que todos os elementos têm a mesma chance de ser escolhidos. Repete-se o procedimento até que sejam sorteadas as n unidades da amostra. AAS com/sem reposição. AAS com reposição implica a propriedade de independência entre unidades selecionadas. Isso facilita o tratamento matemático de propriedades de estimadores que vamos construir em cima de amostra.
Amostra / dados
𝑥1, 𝑥2, … , 𝑥𝑛
Amostra aleatória simples
𝑋1, 𝑋2, … , 𝑋𝑛
Amostra Aleatória Simples de tamanho 𝑛 de uma variável aleatória 𝑋, com dada distribuição, é o conjunto de 𝑛 variáveis aleatórias independentes 𝑋1, 𝑋2, … , 𝑋𝑛 cada uma com a mesma distribuição de 𝑋.
Amostra / dados
𝑥1, 𝑥2, … , 𝑥𝑛
Amostra aleatória simples
𝑋1, 𝑋2, … , 𝑋𝑛
Amostra Aleatória Simples de tamanho 𝑛 de uma variável aleatória 𝑋, com dada distribuição, é o conjunto de 𝑛 variáveis aleatórias independentes 𝑋1, 𝑋2, … , 𝑋𝑛 cada uma com a mesma distribuição de 𝑋.
População
Características
é v.a. 𝑋
Amostra / dados
𝑥1, 𝑥2, … , 𝑥𝑛
Amostra aleatória simples
𝑋1, 𝑋2, … , 𝑋𝑛
Amostra Aleatória Simples de tamanho 𝑛 de uma variável aleatória 𝑋, com dada distribuição, é o conjunto de 𝑛 variáveis aleatórias independentes 𝑋1, 𝑋2, … , 𝑋𝑛 cada uma com a mesma distribuição de 𝑋.
População
Características
é v.a. 𝑋
Em caso de população 𝑋 contínua, com função de densidade 𝑓(𝑥), a densidade conjunta da amostra (𝑋1, 𝑋2, … , 𝑋𝑛) será dada por 𝑓(𝑥1, 𝑥2, … , 𝑥𝑛) tal que
𝑓 𝑥1, 𝑥2, … , 𝑥𝑛 = 𝑓 𝑥1 𝑓(𝑥2)…𝑓(𝑥𝑛)
Estatística
Qualquer função de amostra (𝑋1, 𝑋2, … , 𝑋𝑛) chamaremos estatística
𝑋 =1
𝑛 𝑋𝑖
𝑛
𝑖=1
𝑆2 =1
𝑛 − 1 𝑋𝑖 − 𝑋
2
𝑛
𝑖=1
𝑋(1) = min 𝑋1, 𝑋2, … , 𝑋𝑛
𝑋(𝑛) = max 𝑋1, 𝑋2, … , 𝑋𝑛
𝑋(𝑖) − 𝑖-gêsima maior observação da amostra
𝑊 = 𝑋(𝑛) − 𝑋(1)
Amostra ↔amostra
amostra (𝑋1, 𝑋2, … , 𝑋𝑛) é vetor aleatório
amostra (𝑥1, 𝑥2, … , 𝑥𝑛) é vetor de números observados
estatística 𝑋 =1
𝑛 𝑋𝑖𝑛𝑖=1
é variável aleatória
estatística 𝑥 =1
𝑛 𝑥𝑖𝑛𝑖=1
é valor observado de 𝑋
estatística 𝑆2 =1
𝑛−1 𝑋𝑖 − 𝑋
2𝑛𝑖=1
é variável aleatória
estatística 𝑠2 =1
𝑛−1 𝑥𝑖 − 𝑥
2𝑛𝑖=1
é valor observado de 𝑆2
distribuição populacional 𝑋~𝑓(𝑥)
distribuição amostral da estatística
𝑇𝑛 = 𝑇𝑛 𝑋1, 𝑋2, … , 𝑋𝑛 𝑇𝑛~𝑔(𝑦)
distribuição populacional 𝑋~𝑁(𝜇, 𝜎2)
distribuição amostral da estatística
𝑋 =1
𝑛 𝑋𝑖
𝑛
𝑖=1
𝑋 ~𝑁 𝜇,𝜎2
𝑛
Distribuição amostral da média
Teorema. Seja 𝑋 uma variável aleatória com média 𝜇 e variância 𝜎2, e seja 𝑋1, 𝑋2, … , 𝑋𝑛 uma amostra aleatória simples (AAS) de variável 𝑋. Então
𝐸 𝑋 = 𝜇, 𝑉𝑎𝑟 𝑋 =𝜎2
𝑛
𝐸 𝑋 = 𝐸1
𝑛 𝑋𝑖
𝑛
𝑖=1
=1
𝑛 𝐸 𝑋𝑖
𝑛
𝑖=1
=1
𝑛 𝜇
𝑛
𝑖=1
=1
𝑛𝑛𝜇 = 𝜇
𝑉𝑎𝑟 𝑋 = 𝑉𝑎𝑟1
𝑛 𝑋𝑖
𝑛
𝑖=1
=1
𝑛 𝑉𝑎𝑟 𝑋𝑖
𝑛
𝑖=1
=1
𝑛 𝜎2𝑛
𝑖=1
=1
𝑛𝑛𝜎2 = 𝜎2
Distribuição amostral da média
𝑍 =𝑋 − 𝜇
𝜎/ 𝑛=𝑛(𝑋 − 𝜇)
𝜎 ≈ 𝑁 0,1
aprox
Distribuição amostral da média
Teorema. Seja 𝑋 uma variável aleatória normal com média 𝜇 e variância 𝜎2, 𝑋~𝑁(𝜇, 𝜎2) , e seja 𝑋1, 𝑋2, … , 𝑋𝑛 uma amostra aleatória simples (AAS) de variável 𝑋. Então
𝑋 ~𝑁 𝜇,𝜎2
𝑛
𝑍 =𝑋 − 𝜇
𝜎/ 𝑛=𝑛(𝑋 − 𝜇)
𝜎~𝑁 0,1
distribuição populacional 𝑋~𝑁(2,1)
distribuição amostral da estatística 𝑛 = 5
𝑋 ~𝑁 2,1
5
Exemplo 10.11
Uma máquina está regulada para encher pacotes de café automaticamente segundo a distribuição normal com média de 500 gramas e desvio padrão de 10 gramas. Colhendo-se uma amostra de 𝑛 = 100 pacotes e pesando-os. Qual é a probabilidade de encontramos a média 𝑥 defirindo de 500 g. de menos de 2 gramas.
𝑃 𝑋 − 500 < 2 = 𝑃 498 < 𝑋 < 502 = = 𝑃 −2 < 𝑍 < 2 ≈ 0.95
Distribuição amostral de proporção
distribuição populacional 𝑋~𝐵 (𝑝)
𝐸 𝑋 = 𝑝 𝑉𝑎𝑟 𝑋 = 𝑝(1 − 𝑝)
Distribuição amostral de proporção
distribuição amostra 𝑋1, 𝑋2, … , 𝑋𝑛 𝑋𝑖~𝐵 (𝑝)
𝐸 𝑋𝑖 = 𝑝 𝑉𝑎𝑟 𝑋𝑖 = 𝑝(1 − 𝑝)
𝑍 =𝑋 − 𝜇
𝜎/ 𝑛=𝑛(𝑋 − 𝜇)
𝜎 ≈ 𝑁 0,1
𝑍 =𝑛(𝑝 − 𝑝)
𝑝(1 − 𝑝) ≈ 𝑁 0,1
Exemplo 10.12
Suponha que 30% dos estudantes de uma escola sejam mulheres. Colhemos uma AAS de 𝑛 = 10 estudantes e calculamos 𝑝 proporção de mulheres na amostra. Qual probabilidade de que 𝑝 difere de 𝑝 em menos de 0,01?
𝐸 𝑝 = 𝑝, 𝑉𝑎𝑟 𝑝 =𝑝(1 − 𝑝)
𝑛
𝑝 ≈ 𝑁 𝑝,𝑝 1 − 𝑝
𝑛= 𝑁(0.3, 0.021)
𝑃 𝑝 − 𝑝 < 0.01 = 𝑃 −0.01 < 𝑝 − 𝑝 < 0.01 ≈
≈ 𝑃 −0.01
0.021< 𝑍 <
0.01
0.021= 𝑃 −0.07 < 𝑍 < 0.07 = 0.056
Da relação
),(1
2
ppε
zn
segue que o tamanho amostral n, dados e a
margem de erro , tem a forma
, )(1
n
ppzε
onde z é tal que = P(-z Z z) e Z ~ N(0,1).
Dimensionamento da amostra
Entretanto, nesta expressão, n depende de p(1-p), que
é desconhecido.
Como calcular o valor de n?
Pela figura observamos que: • a função p(1-p) é uma parábola simétrica em torno de p = 0,5;
Assim, na prática, substituímos p(1-p) por seu valor máximo,
obtendo , 0,25
2
ε
zn
que pode fornecer um valor de n maior do que o necessário.
Gráfico da função p(1-p), para 0 p 1.
• o máximo de p(1-p) é 0,25, alcançado quando p = 0,5.
Pergunta: É possível reduzir o tamanho da amostra quando temos alguma informação a respeito de p?
Em alguns casos, podemos substituir a informação
p(1-p), que aparece na expressão de n, por um valor
menor que 0,25.
Por exemplo, sabemos que:
• p não é superior a 0,30, ou
• p é pelo menos 0,80, ou
• p está entre 0,30 e 0,60.
Resposta: Depende do tipo de informação sobre p.
Vimos que, se nada sabemos sobre o valor de p, no cálculo de n, substituímos p(1-p) por seu valor máximo, e calculamos
. 0,25
2
ε
zn
Se temos a informação de que p é no máximo
0,30 (p 0,30), então o valor máximo de p(1-p) será
dado por 0,3x0,7 = 0,21.
Redução do tamanho da amostra
Logo, reduzimos o valor de n para
. 0,21
2
ε
zn
Agora, se p é pelo menos 0,80 (p 0,80), então o máximo valor de p(1-p) é 0,8x0,2 = 0,16, e temos
. 0,16
2
ε
zn
Mas, se 0,30 p 0,60, o máximo valor de p(1-p) é
0,5x0,5=0,25 e, neste caso, não há redução, ou seja,
.0,25
2
ε
zn
Exemplo 3: No Exemplo 2, suponha que temos a informação de que no máximo 30% dos alunos da USP foram ao teatro no último mês.
conseguindo uma redução de 2401- 2017 = 384 estudantes.
Portanto, temos que p 0,30 e, como vimos, o
máximo de p(1-p) neste caso é 0,21.
,estudantes 20170,210,02
1,960,21
22
ε
zn
Assim, precisamos amostrar
Intervalo de confiança para p
Vimos que a estimativa intervalar para p tem a forma:
, ε pε ; p ˆˆ
n
ppzp
n
ppzp p ; γIC
)()()(
ˆ1ˆˆ
ˆ1ˆˆ ;
Na prática, substituímos a proporção desconhecida p
pela proporção amostral , obtendo o seguinte
intervalo de confiança com coeficiente de confiança : p̂
com e z tal que = P(-z Z z) na N(0,1).
n
ppzε
)(
1