aula 1. introdução à inferência estatísticayambar/mae0229/aulas... · aula 1. introdução à...

Aula 1. Introdução à Inferência Estatística

Capítulo 10, Bussab&Morettin “Estatística Básica” 7ª Edição

População

Características

Informações contidas

nos dados

Conclusões

sobre as

características

da população

Técnicas de amostragem

Análise

descritiva

Inferência

estatística

Estatística

Amostra / dados

𝑥1, 𝑥2, … , 𝑥𝑛

População é o conjunto de todos os elementos ou resultados sob

investigação

Amostra é qualquer subconjunto da

população

População ↔ Amostra

Exemplo 10.1: Consideramos uma pesquisa para estudar os salários dos 500 funcionários da Companhia M&B. Seleciona-se uma amostra de 36 indivíduos, e anotam-se os seus salários.

População = 500 salários correspondentes aos 500 funcionários

Amostra = 36 salários de funcionários selecionados

Esperamos que amostra reflita as caraterísticas principais da distribuição populacional de salários da empresa =

Amostra representativa

População ↔ Amostra

Exemplo 10.3: Consideramos uma pesquisa para estudar a duração de vida útil de um novo tipo de lâmpadas, pois acredita-se que a duração desse novo tipo é maior. Então 100 lâmpadas do novo tipo são deixadas acesas até queimarem.

População = a vida útil de todas as lâmpadas fabricadas ou que venham a ser fabricadas por essa empresa; = a distribuição de vida útil de lâmpada fabricada por empresa

Amostra = tempos de vida observada de 100 lâmpadas selecionados

Esperamos que amostra reflita as caraterísticas principais da distribuição populacional de vida útil de lâmpadas produzidas pela empresa =

Amostra representativa

População

Características

Técnicas de amostragem

Amostra / dados

𝑥1, 𝑥2, … , 𝑥𝑛 A.A.S.

Amostragem Aleatória Simples

Aleatoriamente sorteia-se um elemento da população, sendo que todos os elementos têm a mesma chance de ser escolhidos. Repete-se o procedimento até que sejam sorteadas as n unidades da amostra. AAS com/sem reposição. AAS com reposição implica a propriedade de independência entre unidades selecionadas. Isso facilita o tratamento matemático de propriedades de estimadores que vamos construir em cima de amostra.

Amostra / dados

𝑥1, 𝑥2, … , 𝑥𝑛

Amostra aleatória simples

𝑋1, 𝑋2, … , 𝑋𝑛

Amostra Aleatória Simples de tamanho 𝑛 de uma variável aleatória 𝑋, com dada distribuição, é o conjunto de 𝑛 variáveis aleatórias independentes 𝑋1, 𝑋2, … , 𝑋𝑛 cada uma com a mesma distribuição de 𝑋.

Amostra / dados

𝑥1, 𝑥2, … , 𝑥𝑛


𝑋1, 𝑋2, … , 𝑋𝑛


População

Características

é v.a. 𝑋

Amostra / dados

𝑥1, 𝑥2, … , 𝑥𝑛


𝑋1, 𝑋2, … , 𝑋𝑛


População

Características

é v.a. 𝑋

Em caso de população 𝑋 contínua, com função de densidade 𝑓(𝑥), a densidade conjunta da amostra (𝑋1, 𝑋2, … , 𝑋𝑛) será dada por 𝑓(𝑥1, 𝑥2, … , 𝑥𝑛) tal que

𝑓 𝑥1, 𝑥2, … , 𝑥𝑛 = 𝑓 𝑥1 𝑓(𝑥2)…𝑓(𝑥𝑛)

Estatística

Qualquer função de amostra (𝑋1, 𝑋2, … , 𝑋𝑛) chamaremos estatística

𝑋 =1

𝑛 𝑋𝑖

𝑛

𝑖=1

𝑆2 =1

𝑛 − 1 𝑋𝑖 − 𝑋

2

𝑛

𝑖=1

𝑋(1) = min 𝑋1, 𝑋2, … , 𝑋𝑛

𝑋(𝑛) = max 𝑋1, 𝑋2, … , 𝑋𝑛

𝑋(𝑖) − 𝑖-gêsima maior observação da amostra

𝑊 = 𝑋(𝑛) − 𝑋(1)

Amostra ↔amostra

amostra (𝑋1, 𝑋2, … , 𝑋𝑛) é vetor aleatório

amostra (𝑥1, 𝑥2, … , 𝑥𝑛) é vetor de números observados

estatística 𝑋 =1

𝑛 𝑋𝑖𝑛𝑖=1

é variável aleatória

estatística 𝑥 =1

𝑛 𝑥𝑖𝑛𝑖=1

é valor observado de 𝑋

estatística 𝑆2 =1

𝑛−1 𝑋𝑖 − 𝑋

2𝑛𝑖=1

é variável aleatória

estatística 𝑠2 =1

𝑛−1 𝑥𝑖 − 𝑥

2𝑛𝑖=1

é valor observado de 𝑆2

distribuição populacional 𝑋~𝑓(𝑥)

distribuição amostral da estatística

𝑇𝑛 = 𝑇𝑛 𝑋1, 𝑋2, … , 𝑋𝑛 𝑇𝑛~𝑔(𝑦)

distribuição populacional 𝑋~𝑁(𝜇, 𝜎2)

distribuição amostral da estatística

𝑋 =1

𝑛 𝑋𝑖

𝑛

𝑖=1

𝑋 ~𝑁 𝜇,𝜎2

𝑛

Distribuição amostral da média

Teorema. Seja 𝑋 uma variável aleatória com média 𝜇 e variância 𝜎2, e seja 𝑋1, 𝑋2, … , 𝑋𝑛 uma amostra aleatória simples (AAS) de variável 𝑋. Então

𝐸 𝑋 = 𝜇, 𝑉𝑎𝑟 𝑋 =𝜎2

𝑛

𝐸 𝑋 = 𝐸1

𝑛 𝑋𝑖

𝑛

𝑖=1

=1

𝑛 𝐸 𝑋𝑖

𝑛

𝑖=1

=1

𝑛 𝜇

𝑛

𝑖=1

=1

𝑛𝑛𝜇 = 𝜇

𝑉𝑎𝑟 𝑋 = 𝑉𝑎𝑟1

𝑛 𝑋𝑖

𝑛

𝑖=1

=1

𝑛 𝑉𝑎𝑟 𝑋𝑖

𝑛

𝑖=1

=1

𝑛 𝜎2𝑛

𝑖=1

=1

𝑛𝑛𝜎2 = 𝜎2


𝑍 =𝑋 − 𝜇

𝜎/ 𝑛=𝑛(𝑋 − 𝜇)

𝜎 ≈ 𝑁 0,1

aprox


Teorema. Seja 𝑋 uma variável aleatória normal com média 𝜇 e variância 𝜎2, 𝑋~𝑁(𝜇, 𝜎2) , e seja 𝑋1, 𝑋2, … , 𝑋𝑛 uma amostra aleatória simples (AAS) de variável 𝑋. Então

𝑋 ~𝑁 𝜇,𝜎2

𝑛

𝑍 =𝑋 − 𝜇

𝜎/ 𝑛=𝑛(𝑋 − 𝜇)

𝜎~𝑁 0,1

distribuição populacional 𝑋~𝑁(2,1)

distribuição amostral da estatística 𝑛 = 5

𝑋 ~𝑁 2,1

5

Exemplo 10.11

Uma máquina está regulada para encher pacotes de café automaticamente segundo a distribuição normal com média de 500 gramas e desvio padrão de 10 gramas. Colhendo-se uma amostra de 𝑛 = 100 pacotes e pesando-os. Qual é a probabilidade de encontramos a média 𝑥 defirindo de 500 g. de menos de 2 gramas.

𝑃 𝑋 − 500 < 2 = 𝑃 498 < 𝑋 < 502 = = 𝑃 −2 < 𝑍 < 2 ≈ 0.95

Distribuição amostral de proporção

distribuição populacional 𝑋~𝐵 (𝑝)

𝐸 𝑋 = 𝑝 𝑉𝑎𝑟 𝑋 = 𝑝(1 − 𝑝)

Distribuição amostral de proporção

distribuição amostra 𝑋1, 𝑋2, … , 𝑋𝑛 𝑋𝑖~𝐵 (𝑝)

𝐸 𝑋𝑖 = 𝑝 𝑉𝑎𝑟 𝑋𝑖 = 𝑝(1 − 𝑝)

𝑍 =𝑋 − 𝜇

𝜎/ 𝑛=𝑛(𝑋 − 𝜇)

𝜎 ≈ 𝑁 0,1

𝑍 =𝑛(𝑝 − 𝑝)

𝑝(1 − 𝑝) ≈ 𝑁 0,1

Exemplo 10.12

Suponha que 30% dos estudantes de uma escola sejam mulheres. Colhemos uma AAS de 𝑛 = 10 estudantes e calculamos 𝑝 proporção de mulheres na amostra. Qual probabilidade de que 𝑝 difere de 𝑝 em menos de 0,01?

𝐸 𝑝 = 𝑝, 𝑉𝑎𝑟 𝑝 =𝑝(1 − 𝑝)

𝑛

𝑝 ≈ 𝑁 𝑝,𝑝 1 − 𝑝

𝑛= 𝑁(0.3, 0.021)

𝑃 𝑝 − 𝑝 < 0.01 = 𝑃 −0.01 < 𝑝 − 𝑝 < 0.01 ≈

≈ 𝑃 −0.01

0.021< 𝑍 <

0.01

0.021= 𝑃 −0.07 < 𝑍 < 0.07 = 0.056

Da relação

),(1

2

ppε

zn

segue que o tamanho amostral n, dados e a

margem de erro , tem a forma

, )(1

n

ppzε

onde z é tal que = P(-z Z z) e Z ~ N(0,1).

Dimensionamento da amostra

Entretanto, nesta expressão, n depende de p(1-p), que

é desconhecido.

Como calcular o valor de n?

Pela figura observamos que: • a função p(1-p) é uma parábola simétrica em torno de p = 0,5;

Assim, na prática, substituímos p(1-p) por seu valor máximo,

obtendo , 0,25

2

ε

zn

que pode fornecer um valor de n maior do que o necessário.

Gráfico da função p(1-p), para 0 p 1.

• o máximo de p(1-p) é 0,25, alcançado quando p = 0,5.

Pergunta: É possível reduzir o tamanho da amostra quando temos alguma informação a respeito de p?

Em alguns casos, podemos substituir a informação

p(1-p), que aparece na expressão de n, por um valor

menor que 0,25.

Por exemplo, sabemos que:

• p não é superior a 0,30, ou

• p é pelo menos 0,80, ou

• p está entre 0,30 e 0,60.

Resposta: Depende do tipo de informação sobre p.

Vimos que, se nada sabemos sobre o valor de p, no cálculo de n, substituímos p(1-p) por seu valor máximo, e calculamos

. 0,25

2

ε

zn

Se temos a informação de que p é no máximo

0,30 (p 0,30), então o valor máximo de p(1-p) será

dado por 0,3x0,7 = 0,21.

Redução do tamanho da amostra

Logo, reduzimos o valor de n para

. 0,21

2

ε

zn

Agora, se p é pelo menos 0,80 (p 0,80), então o máximo valor de p(1-p) é 0,8x0,2 = 0,16, e temos

. 0,16

2

ε

zn

Mas, se 0,30 p 0,60, o máximo valor de p(1-p) é

0,5x0,5=0,25 e, neste caso, não há redução, ou seja,

.0,25

2

ε

zn

Exemplo 3: No Exemplo 2, suponha que temos a informação de que no máximo 30% dos alunos da USP foram ao teatro no último mês.

conseguindo uma redução de 2401- 2017 = 384 estudantes.

Portanto, temos que p 0,30 e, como vimos, o

máximo de p(1-p) neste caso é 0,21.

,estudantes 20170,210,02

1,960,21

22

ε

zn

Assim, precisamos amostrar

Intervalo de confiança para p

Vimos que a estimativa intervalar para p tem a forma:

, ε pε ; p ˆˆ

n

ppzp

n

ppzp p ; γIC

)()()(

ˆ1ˆˆ

ˆ1ˆˆ ;

Na prática, substituímos a proporção desconhecida p

pela proporção amostral , obtendo o seguinte

intervalo de confiança com coeficiente de confiança : p̂

com e z tal que = P(-z Z z) na N(0,1).

n

ppzε

)(

1

aula 1. introdução à inferência estatísticayambar/mae0229/aulas... · aula 1. introdução à...

Documents