ipaee capitulo3 2
DESCRIPTION
Material integrante do curso "Introdução ao Planejamento e Análise Estatística de Experimentos" - Prof. Pedro Ferreira Filho e Profa. Estela Maris P. Bereta - UFSCarTRANSCRIPT
UNIVERSIDADE FEDERAL DE SÃO CARLOS CC EE NN TT RR OO DD EE CC II ÊÊ NN CC II AA SS EE XX AA TT AA SS EE DD EE TT EE CC NN OO LL OO GG II AA
DD EE PP AA RR TT AA MM EE NN TT OO DD EE EE SS TT AA TT ÍÍ SS TT II CC AA
IINN TT RR OO DD UU ÇÇ ÃÃ OO AA OO PPLL AA NN EE JJ AA MM EE NN TT OO EE AANN ÁÁ LL II SS EE
EESS TT AA TT ÍÍ SS TT II CC AA DD EE EEXX PP EE RR II MM EE NN TT OO SS
CC AA PP ÍÍ TT UU LL OO ## 33
IINN TT RR OO DD UU ÇÇ ÃÃ OO AA PPRR OO BB AA BB II LL II DD AA DD EE EE AA
IINN FF EE RR ÊÊ NN CC II AA EESS TT AA TT ÍÍ SS TT II CC AA
PPAARRTTEE ## 22
PP RR OO FF .. PP EE DD RR OO FF EE RR RR EE II RR AA FF II LL HH OO
PP RR OO FF aa .. EE SS TT EE LL AA MM AA RR II SS PP .. BB EE RR EE TT AA
22 ºº SS EE MM EE SS TT RR EE DD EE 22 00 11 00
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
2
33 .. 44 .. II NN FF EE RR ÊÊ NN CC II AA EE SS TT AA TT ÍÍ SS TT II CC AA ::
33 .. 44 .. 11 .. II NN TT RR OO DD UU ÇÇ ÃÃ OO ::
O campo da inferência estatística consiste naqueles métodos usados para tomar decisões ou
tirar conclusões acerca de uma população. Esses métodos utilizam a informação contida em uma
amostra da população para tirar conclusões. Mostramos na Fig. 3.10 a relação entre uma população
e uma amostra. Este ponto inicia nosso estudo dos métodos estatísticos usados para a inferência e a
tomada de decisões.
Figura 3.10. Relação entre uma população e uma amostra
Inferência estatística pode ser dividida em duas grandes áreas: estimação de parâmetros e teste
de hipóteses. Como um exemplo de um problema de estimação de parâmetros, suponha que um
engenheiro de estruturas esteja analisando a resistência a tensão de um componente usado em um
chassi de automóvel. Uma vez que a variabilidade da resistência à tração esta naturalmente presente
entre componentes individuais, devido às diferenças nas bateladas da matéria-prima nos processos
de fabricação e nos procedimentos de medidas (por exemplo), o engenheiro está interessado na
estimação da resistência média a tração dos componentes. Na pratica, o engenheiro usara dados da
amostra para calcular um número que e, de algum modo, um valor razoável (ou tentativa) da média
verdadeira. Esse número é chamado de estimativa. Veremos que e possível estabelecer a precisão da
estimativa.
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
3
Considere agora uma situação em que duas temperaturas diferentes de reação, como t1 e t2
possam ser usadas em um processo químico. O engenheiro conjectura que t1 resulta em rendimentos
maiores que t2 o teste estatístico de hipóteses e a estrutura para resolver problemas desse tipo.
Nesse caso, a hipótese seria que o rendimento médio usando a temperatura t1 é maior que o
rendimento médio usando a temperatura t2. Note que não há ênfase na estimação de rendimentos;
em vez disso, o foco esta na tirada de conclusões acerca de uma hipótese estabelecida.
33 .. 44 .. 22 .. DD EE FF II NN II ÇÇ ÕÕ EE SS EE PP RR OO PP RR II EE DD AA DD EE SS BB ÁÁ SS II CC AA SS :: Na maioria dos problemas de inferência estatística, é impossível ou impraticável observar a
população inteira. Por exemplo, não poderíamos testar à resistência a tração de todos os elementos
estruturais dos chassis, pois consumiria muito tempo e seria muito caro. Além disso, alguns (talvez
muitos) desses elementos estruturais não existam mais no tempo em que a decisão deve ser feita;
assim, para uma larga extensão, temos de visualizar a população como conceitual. Logo,
dependemos de um conjunto de observações da população para ajudar a tomar decisões à cerca da
população.
Para que nossas inferências sejam validas, a amostra tem que ser representativa da
população. É freqüentemente tentador selecionar uma amostra com as observações que sejam mais
convenientes ou exercer julgamento na seleção da amostra. Esses procedimentos podem
freqüentemente introduzir alguma tendência na amostra e, como resultado, o parâmetro de interesse
será consistentemente subestimado (ou superestimado) por tal amostra. Alem disso, o
comportamento de uma amostra de julgamento não pode ser estatisticamente descrito. Para evitar
essas dificuldades, é desejável selecionar uma amostra aleatória como o resultado de algum
mecanismo de chance. Conseqüentemente, a seleção de uma amostra e um experimento aleatório e
cada observação na amostra e o valor observado de uma variável aleatória. As observações na
população determinam a distribuição de probabilidades da variável aleatória.
Para definir uma amostra aleatória, faça X ser uma variável aleatória que represente o resultado
de uma seleção de uma observação proveniente da população. Faça f(x) denotar a função densidade
de probabilidade de X Suponha que cada observação na amostra seja obtida independentemente,
sob condições inalteradas. Ou seja, as observações para a amostra são obtidas, observando-se X
independentemente, sob condições inalteradas, isto é, n vezes. Faça X denotar a variável aleatória
que representa a i-ésima replica. Então, X1, X2, ..., Xn é uma amostra aleatória e os valores numéricos
obtidos são denotados por x1, x2,...,xn. As variáveis aleatórias em uma amostra aleatória são
independentes, com a mesma distribuição de probabilidades f(x), por causa das condições idênticas
sob as quais cada observação é obtida. Isto é, a função densidade de probabilidade marginal de X1,
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
4
X2, ...,Xn e fx1,x2,...,xn(x1, x2,...,xn), respectivamente, e pela independência, a função densidade de
probabilidade conjunta da amostra aleatória é f(x1)f(x2)...f(xn).
Definição 1: As variáveis aleatórias (X1,X2,...,Xn) são uma amostra aleatória de tamanho n, se: (a)
os X’s são variáveis aleatórias independentes (b) todos os Xi’s tiverem a mesma distribuição de
probabilidade.
Para ilustrar essa definição, suponha que estejamos investigando a vida efetiva de serviço de um
componente eletrônico usado em um marca-passo cardíaco e que a vida do componente seja
normalmente distribuída. Então, esperaríamos que cada uma das observações da vida do
componente Xl, X2, ..., Xn em uma amostra aleatória de n componentes fosse uma variável aleatória
independente com, exatamente, a mesma distribuição normal. Depois dos dados serem coletados, os
valores numéricos dos tempos de vida observados são denotados por x1,x2,...,xn.
A finalidade principal de tomar uma amostra aleatória e obter informação sobre os
parâmetros desconhecidos da população.
Definição 2: Uma estatística é qualquer função das observações de uma amostra aleatória.
Encontramos estatísticas anteriormente. Por exemplo, se X1, X2, ...,Xn. for uma amostra aleatória
de tamanho n, então a média da amostra X , a variância da amostra S2 e o desvio-padrão S da
amostra são estatísticas. O processo de tirar conclusões sobre a população, baseando-se nos dados
da amostra, faz uso considerável dessas estatísticas.
Desde que uma estatística seja uma variável aleatória, ela terá uma distribuição de probabilidades.
Chamamos a distribuição de probabilidades de uma estatística de distribuição amostral. A noção de
uma distribuição amostral é muito importante e será discutida e ilustrada mais adiante neste capitulo.
Uma aplicação muito importante de estatísticas e a obtenção das estimativas dos parâmetros, tais
como a media da população e a variância da população. Em problemas de inferência, é conveniente
ter um símbolo geral para representar o parâmetro de interesse. Usaremos o símbolo grego θ (teta)
para representar o parâmetro. O objetivo da estimação e selecionar um único número baseado nos
dados da amostra, sendo esse o valor mais plausível para θ. Um valor numérico de uma estatística
amostra será usado como a estimativa.
Definição 3: Uma estimativa pontual de algum parâmetro θ da população é um único valor
numérico de uma estatística θ .
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
5
Como um exemplo, suponha que a variável aleatória X seja normalmente distribuída com uma
média desconhecida µµµµ. A média da amostra é um estimador da média desconhecida µµµµ da população.
Isto é X=µ . Depois de a amostra ter sido selecionada, o valor numérico x e a estimativa de µµµµ.
Assim, se x1 = 25, x2 = 30, x3 = 29 e x4 = 31, então a estimativa de µµµµ é
75.284
31293025 =+++=X
Similarmente, se a variância da população σσσσ2 for também desconhecida, um estimador para σσσσ2
será a variância da amostra S2 e o valor numérico s2 = 6.9, calculado a partir dos dados amostrais,
é chamado de estimativa de σσσσ2.
Problemas de estimação ocorrem freqüentemente em engenharia. Geralmente, necessitamos
estimar:
•••• A média µµµµ de uma única população;
•••• A variância σσσσ2 (ou desvio-padrão σσσσ) de uma única população;
•••• A proporção p de itens em uma população que pertence a uma classe de interesse;.
•••• A diferença nas médias de duas populações, µµµµ1 - µµµµ2;.
•••• A diferença nas proporções de duas populações, p1 – p2;
Estimativas razoáveis desses parâmetros são dadas a seguir:
•••• Para µµµµ, a estimativa é x=µ , a média da amostra.
•••• Para σσσσ2 a estimativa é 22ˆ s=σ a variância da amostra.
•••• Para p, a estimativa é nxp =2ˆ a proporção da amostra, sendo x o numero de itens em uma
amostra aleatória de tamanho n que pertence a classe de interesse.
•••• Para µµµµ1 - µµµµ2, a estimativa é 2121 ˆˆ xx −=− µµ a diferença entre as médias de duas amostras
aleatórias independentes.
•••• Para p1 – p2 a estimativa é 21 ˆˆ pp − , a diferença entre duas proporções amostrais, calculadas
a partir de duas amostras aleatórias independentes.
Podemos ter varias escolhas diferentes para o estimador pontual de um parâmetro. Por
exemplo, se desejarmos estimar a média de uma população, podemos considerar como
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
6
estimadores a média ou a mediana da amostra ou talvez a média das observações menores e
maiores da amostra. De modo a decidir qual estimador de um parâmetro particular é o melhor
para se usar, necessitamos examinar suas propriedades estatísticas e desenvolver algum critério
para comparar os estimadores.
Os critérios para escolha do “melhor” estimador para um determinado parâmetro populacional
são definidos a partir de “propriedades” desejáveis destes estimadores. As propriedades mais
consideradas são:
Propriedade 1: Um estimador θ é não viciado (ou não tendencioso) para um parâmetro
populacional θ se:
( ) θθ =ˆE
Essa propriedade diz que um estimador deve estar "perto", de algum modo, do valor ver-
dadeiro do parâmetro desconhecido. Formalmente, dizemos que θ é um estimador não tendencioso
de θ, se o valor esperado de θ for igual a θ. Isso é equivalente a dizer que a média da distribuição
de probabilidades de θ (ou a media da distribuição amostral de θ) é igual a θ.
Propriedade 2: Sejam 1θ e 2θ dois estimadores não viciados de um parâmetro θ. 1θ é mais eficiente do
que 2θ se:
Var( 1θ ) < Var( 2θ )
ou seja, um estimador é mais eficiente quanto menor for a sua variância, ou ainda, quanto mais
preciso (menor dispersão) ele for.
Definição 4: Se considerarmos todos os estimadores não viciados de um parâmetro θ, aquele com
menor variância será denominado de estimador não viciado de menor variância.
A interpretação das propriedades acima pode ser observada a partir da seguinte situação:
Deseja-se comprar um rifle, e após algumas seleções, restaram quatro alternativas que
denominamos de rifles A, B, C e D. Realiza-se um teste para cada um dos rifles que consistiu em
fixá-lo num cavalete, mirar o centro de um alvo e disparar 15 tiros. Os resultados estão na figura
3.11.
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
7
Figura 3.11 Resultados de 15 tiros dados por 4 rifles
Questão: Qual o melhor rifle?
Características:
Rifle A: Não viciado com baixa precisão (grande dispersão ou variância);
Rifle B: Viciado com baixa precisão;
Rifle C: Não viciado com boa precisão;
Rifle D: Viciado com alta precisão;
33 .. 44 .. 33 .. MM ÉÉ TT OO DD OO SS DD EE EE SS TT II MM AA ÇÇ ÃÃ OO ::
A forma de obtenção de um estimador para um dado parâmetro populacional, de preferência
com as propriedades desejáveis, pode ser feita utilizando-se diferentes procedimentos chamados de
métodos de estimação. Esses métodos não serão aqui apresentados e podem ser vistos, por
exemplo, em Montgomery e Runger (ver bibliografia do curso). Destacamos que os principais
métodos de estimação são:
•••• Métodos dos Momentos;
•••• Método da Máxima Verossimilhança;
•••• Método dos Mínimos Quadrados;
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
8
33 .. 55 .. DD II SS TT RR II BB UU II ÇÇ ÕÕ EE SS AA MM OO SS TT RR AA II SS ::
A inferência estatística como vimos anteriormente, tem por objetivo tomar decisões acerca de
uma população, baseando-se na informação contida em uma amostra aleatória proveniente daquela
população. Por exemplo, podemos estar interessados no volume médio de enchimento de uma lata
de refrigerante. O volume médio de enchimento na população e 300 ml. Um engenheiro considera
uma amostra aleatória de 25 latas e calcula o volume médio amostral de enchimento como 298=x
ml. 0 engenheiro decidirá, provavelmente, que a média da população é µµµµ = 300 ml, muito embora a
média amostral tenha sido 298 ml, porque ele sabe que a média amostral é uma estimativa razoável
de µµµµ e que com a média amostral de 298 ml é muito provável de ocorrer, mesmo se a média
verdadeira da população for µµµµ = 300 ml. De fato, se a média verdadeira for 300 ml, então os testes
de 25 latas feitos repetidamente, talvez a cada 5 minutos, produzirão valores de x que variarão
acima e abaixo de µµµµ = 300 ml.
A média amostral e uma estatística; isto e, ela e uma variável aleatória que depende dos
resultados obtidos em cada amostra particular. Uma vez que uma estatística e uma variável aleatória,
ela tem uma distribuição de probabilidades.
Definição: A distribuição de probabilidades de uma estatística e chamada de uma distribuição
amostral.
Por exemplo, a distribuição de probabilidades de X é chamada de distribuição
amostral da média.
A distribuição amostral de uma estatística depende da distribuição da população, do tamanho
da amostra e do método de seleção da amostra. A próxima seção deste capítulo apresenta talvez a
mais importante distribuição amostral. Outras distribuições amostrais e suas aplicações serão
ilustradas quando necessárias (por exemplo, a distribuição amostral da variância amostral).
33 .. 55 .. 11 .. DD II SS TT RR II BB UU II ÇÇ ÃÃ OO AA MM OO SS TT RR AA LL DD AA MM ÉÉ DD II AA ::
33 .. 55 .. 11 .. 11 .. DD II SS TT RR II BB UU II ÇÇ ÃÃ OO AA MM OO SS TT RR AA LL PP AA RR AA UU MM AA MM ÉÉ DD II AA ::
Considere a determinação da distribuição amostral da média X da amostra. Suponha que
uma amostra aleatória de tamanho n seja retirada de uma população normal com média µµµµ e
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
9
variância σσσσ2. Então, pela propriedade reprodutiva da distribuição normal, concluímos que a média da
amostra tem uma distribuição normal com média µµ =X
e variância nX
22 σσ = , ou seja, a
distribuição da média da amostra tem como média o mesmo valor da média da populacional da
característica em estudo (estimador não viciado) e variância igual à variância populacional dividida
pelo tamanho da amostra.
Notação:
Se ),(~ 2σµNX i então ),(~2
nNX σµ
Observação: Propriedade reprodutiva ⇒ Uma combinação linear de variáveis aleatórias normais é
também normal.
Se estivermos amostrando de uma população que tenha uma distribuição desconhecida de
probabilidades, a distribuição amostral da média da amostra será aproximadamente normal, com
média µµµµ e variância σσσσ2/n, se o tamanho n da amostra for grande. Esse é um dos mais úteis
teoremas em estatística, o chamado teorema central do limite.
33 .. 55 .. 11 .. 22 .. TT EE OO RR EE MM AA DD OO LL II MM II TT EE CC EE NN TT RR AA LL ::
Se X1, X2 ,..., Xn representa uma amostra aleatória de tamanho n de uma variável X
com média µ e variância finita σ2, obtida em uma população (finita ou infinita) e se X for a
média da amostra, então a forma limite da distribuição para n grande é dada por
n
XZ σ
µ)−=
Interpretação: O Teorema Central do Limite nos diz que, independente da distribuição que
a característica em estudo pode ser representada, a medida que o tamanho da amostra
aumenta, a distribuição amostral da média X pode ser representada pelo modelo normal.
A qualidade da aproximação normal para X depende do tamanho n da amostra. A
Fig. 3.12(a) mostra a distribuição obtida para o arremesso de um único dado verdadeiro com
seis faces. As probabilidades são iguais a (1/6) para todos os valores obtidos, 1,2,3,4,5 ou 6.
A Fig. 3.12(b) mostra a distribuição das pontuações médias obtidas quando arremessando
três, cinco e dez vezes o dado, respectivamente. Note que, embora a população (um dado)
esteja relativamente longe da normal, a distribuição das medias será aproximada
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
10
razoavelmente bem pela distribuição normal, para amostras de tamanho tão pequeno
quanto cinco. (As distribuições dos arremessos dos dados são discretas, enquanto a normal
e continua.) Embora o teorema central do limite trabalhe bem para pequenas amostras (n =
4, 5) na maioria dos casos, particularmente onde a população seja continua, unimodal e
simétrica, amostras maiores serão necessária em outras situações, dependendo da forma da
população. Em muitos casos de interesse prático, se n ~ 30, a aproximação normal será
satisfatória, independente da formal da população. Se n < 30, o teorema central do limite
funcionara, se a distribuição da população não for muito diferente da normal.
Exemplo: Uma companhia eletrônica fabrica resistores que têm uma resistência média de 100Ω e
um desvio padrão de 10Ω. A distribuição das resistências pode ser representada pelo modelo normal.
Encontre a probabilidade de uma amostra aleatória de tamanho n = 25 resistores ter uma resistência
média menor que 95Ω?
Solução:
X = resistência dos resistores ⇒ )10,100(~ 2NX
X = Média da amostra de n = 25 resistores
⇒ )22510,100(~),(~
22=⇒ NXnNX σµ
Conseqüentemente a probabilidade desejada é dada por:
[ ] [ ] 0062.05.22
)10095)95 =−<=
−<−=< ZP
n
XPXP σ
µ
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
11
Figura 3.12 Distribuição das pontuações médias obtidas quando arremessamos dados
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
12
33 .. 55 .. 11 .. 33 .. DD II SS TT RR II BB UU II ÇÇ ÃÃ OO AA MM OO SS TT RR AA LL PP AA RR AA DD II FF EE RR EE NN ÇÇ AA DD EE DD UU AA SS MM ÉÉ DD II AA SS ::
Agora consideremos o caso em que temos duas populações independentes. Faça a primeira
população ter uma média µ1 e variância 21σ e a segunda população ter uma média µ2 e variância
22σ . Suponha que ambas as populações possam ser representadas pelo modelo normal. Então,
usando o fato de que combinações lineares de variáveis aleatórias normais têm distribuição normal,
podemos dizer que a distribuição amostral de 21 XX − é normal, com média
212121µµµµµ −=−=− XXXX
e variância
2
2
1
2
222 21
12121 nnXX
XXXX
σσσσσ +=+=−
Portanto:
),(~2
22
1
21
2121 nnNXX
σσµµ +−−
Se as duas populações não forem normalmente distribuídas, porem se ambos os tamanhos da
amostra n1 e n2 forem maiores que 30, podemos usar o teorema central do limite e considerar que
21 XeX sigam aproximadamente distribuições normais independentes. Por conseguinte, a distribuição
amostral de 21 XX − é aproximadamente normal, com média e variância dadas acima. Se n1 ou n2
forem menores que 30, então a distribuição amostral de 21 XX − será aproximadamente normal,
com média e variância dadas acima, desde que a população da qual a amostra e retirada não seja
drasticamente deferente da normal.
Exemplo: A vida efetiva de um componente usado em um motor de uma turbina de um avião a jato
é uma variável aleatória, com media de 5.000 h e desvio-padrão de 40 h. A distribuição da vida efe-
tiva é razoavelmente próxima da distribuição normal. 0 fabricante do motor introduz uma melhoria
no processo de fabricação para esse componente, que aumenta a vida media para 5.050 h e diminui
o desvio-padrão para 30 h. Suponha que uma amostra aleatória de n1= 16 componentes seja
selecionada do processo "antigo" e uma amostra aleatória de n2 = 25 componentes seja selecionada
do processo "melhorado". Qual é a probabilidade de que a diferença nas duas médias amostrais
12 XX − I seja no mínimo de 25 h? Considere que o processo antigo e o melhorado possam ser
considerados como populações independentes.
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
13
Solução:
X1 = tempo de vida do processo antigo ⇒ )40,5000(~ 21 NX
X2 = tempo de vida do processo melhorado ⇒ )30,5050(~ 22 NX
Logo:
)101640,5000(~
2
1 =NX )62530,5050(~
2
21 =NX
e
)136,50()106,50005050(~ 2212 NNXX =+−−
Desta forma:
[ ] [ ] [ ] 9838.0001617.0114.2114.2136
)50252512 =−=−<−=−>=
−>=>− ZPZPZPXXP
33 .. 66 .. II NN TT EE RR VV AA LL OO SS DD EE CC OO NN FF II AA NN ÇÇ AA ::
33 .. 66 .. 11 .. II NN TT RR OO DD UU ÇÇ ÃÃ OO ::
Em muitas situações, uma estimativa pontual de um parâmetro, como foi vista até o
momento, não fornece informação completa para um engenheiro. Por exemplo, considere o
problema da condutividade térmica de ferro Armco. Usando uma temperatura de 100ºF e uma
potência de 550w, 10 medidas foram observadas obtendo-se uma média amostral de
924.41=x BTU/h.ft.oF. É improvável que a média verdadeira da condutividade térmica µ seja
exatamente igual a esse valor; assim, uma questão relevante aparece: quão próximo esta x da
média verdadeira? Calcular o erro-padrão da estimativa (desvio do estimador) é um guia aproximado
para a precisão da estimação. Outra abordagem é usar um intervalo de confiança para expressar o
grau de incerteza associado com uma estimativa.
Uma estimativa do intervalo de confiança de um parâmetro desconhecido θ é um intervalo da
forma l ≤≤≤≤ θθθθ ≤≤≤≤ s em que os pontos finais l e s dependem do valor numérico da estatística θ da
amostra para uma amostra particular. Uma vez que amostras diferentes produzirão valores
diferentes de θ e , conseqüentemente, valores diferentes dos pontos finais l e s, esses pontos finais
são valores de variáveis aleatórias, como L e S, respectivamente. Da distribuição amostral da media
estatística e, seremos capazes de determinar valores de L e S, tal que a seguinte afirmação sobre
probabilidade seja verdadeira:
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
14
P [ L ≤≤≤≤ θθθθ ≤≤≤≤ S ] = 1 - αααα
sendo 0 < αααα < 1. Assim, temos uma probabilidade de 1 - αααα de selecionar uma amostra que
produzira um intervalo contendo o valor verdadeiro de θ.
O intervalo resultante:
l ≤≤≤≤ θθθθ ≤≤≤≤ s
é chamado de intervalo com 100(1 - αααα)% de confiança para o parâmetro θ . As grandezas l e s são
chamadas de limites inferior e superior de confiança, respectivamente, e (1 - αααα) é chamado de
coeficiente de confiança. A interpretação de um intervalo de confiança é que se um número infinito
de amostras aleatórias for calculado e um intervalo com 100(1 - αααα)% de confiança para θ for
calculado a partir de cada amostra, então 100(1 - αααα)% desses intervalos conterão o valor verdadeiro
de θ.
A situação e ilustrada na Figura 3.13, que mostra vários intervalos com 100(1 - αααα)% de
confiança para o parâmetro θ de uma distribuição. Os pontos nos centros dos intervalos indicam a
estimativa pontual de θ (ou seja, θ ). Note que um dos 25 intervalos não contém θ. Se esse fosse um
intervalo com 95%, no final das contas, somente 5% dos intervalos não conteriam θ.
Figura 3.13. Construção repetida de um intervalo de confiança para θ
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
15
Agora, na prática, obtemos somente uma amostra aleatória e calculamos um intervalo de
confiança. Uma vez que esse intervalo conterá ou não o valor verdadeiro de θ, não é razoável fixar
um nível de probabilidade a esse evento específico. A afirmação apropriada é: O intervalo observado
[l, s] contém o valor verdadeiro de θ, com 100(1 - αααα) de confiança. Essa afirmação tem uma
interpretação de freqüência; ou seja, não sabemos se a afirmação é verdadeira para essa amostra
especifica, mas o método usado para obter o intervalo [l, s] resulta em afirmações corretas em 100(
1 - αααα)% do tempo.
O comprimento θθθθ - l do intervalo observado de confiança é uma importante medida da qualidade
da informação obtida a partir da amostra. A metade do comprimento do intervalo θθθθ - l ou s - θθθθ e
chamada de precisão do estimador. Quanto maior for o intervalo de confiança, mais confiantes
estaremos de que o intervalo realmente contém o valor verdadeiro de θ. Por outro lado, quanto
maior for o intervalo, menos informação teremos a respeito do valor verdadeiro de θ. Em uma
situação ideal, gostaríamos de obter um intervalo relativamente pequeno com alta confiança.
Em muitas situações práticas, é fácil encontrar os pontos finais que definem o intervalo de
confiança para um parâmetro. Por exemplo, os pontos finais para o intervalo de confiança para a
média µµµµ de uma distribuição normal envolvem o erro-padrão da média amostral X . Na verdade, o
intervalo de confiança para µµµµ é encontrado adicionando e subtraindo um múltiplo do erro-padrão
nσ ou do erro-padrao estimado
nS , para a média amostral.
Intervalos de confiança estão intimamente relacionados à outra técnica estatística de tomada de
decisão, chamada de teste de hipóteses. As hipóteses são apenas afirmações sobre os parâmetros
das distribuições de probabilidades. O objetivo é tomar decisões a respeito dessas afirmações.
Freqüentemente, essas decisões podem ser tomadas examinando a faixa de valores razoáveis para
um parâmetro a partir de um intervalo de confiança. A seguir, discutiremos e ilustraremos teste de
hipóteses relacionado à média populacional.
33 .. 66 .. 22 .. II NN TT EE RR VV AA LL OO DD EE CC OO NN FF II AA NN ÇÇ AA PP AA RR AA MM ÉÉ DD II AA µµµµµµµµ ::
A estimação pontual fixa um valor numérico que esteja satisfatoriamente próximo do
verdadeiro valor do parâmetro. A estimação intervalar, como apresentado no tópico anterior,
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
16
determina intervalos com limites aleatórios, que contenham o valor do parâmetro, com uma margem
de segurança prefixada.
Vimos ainda que para uma amostra suficientemente grande, independente da distribuição da
característica em estudo, a distribuição das médias amostrais em torno da média populacional µ é
normal com desvio padrão nσ (erro padrão (EP) da média). Quanto menor o valor de EP mais
próximas estarão às médias amostrais da média populacional µ.
Um estimador pontual com base em uma amostra especifica um único valor como estimativa
do parâmetro de interesse. Esse procedimento não permite julgar qual a possível magnitude do erro
que estamos cometendo. A forma usual de se considerar conjuntamente o estimador e a precisão
com que se estima o parâmetro é através dos intervalos de confiança que são baseados na
distribuição amostral do estimador pontual.
Qualquer intervalo de confiança tem duas partes: um intervalo calculado a partir dos dados e
um de nível confiança de 100(1 - αααα)%. Um intervalo usualmente assume a seguinte forma:
Estimativa Pontual ±±±± margem de erro
O nível (ou coeficiente) de confiança (100(1 - αααα)%) é a taxa de sucesso do método que
produz o intervalo, ou ainda a cada n amostras (100(1 - αααα)%) irão conter o verdadeiro valor do
parâmetro.
Para toda estatística de interesse, é possível encontrar um intervalo de confiança da forma
acima apresentada. Nesse curso, nos limitaremos a estudar o caso onde o interesse é o estudo da
média µ da população.
33 .. 66 .. 22 .. 11 .. II NN TT EE RR VV AA LL OO DD EE CC OO NN FF II AA NN ÇÇ AA PP AA RR AA MM ÉÉ DD II AA µµµµµµµµ CC OO MM VV AA RR II ÂÂ NN CC II AA
CC OO NN HH EE CC II DD AA ::
Nossa primeira situação é aquela onde temos interesse em construir um intervalo de
confiança para a média µµµµ, de uma característica que pode ser representada pelo modelo normal e
que a variância deste modelo é conhecida (situação pouco usual em termos práticos!).
Para estimar a média µ de uma população usamos a média X da amostra observada.
Qualquer que seja a amostra coletada, no intervalo de confiança definiremos um “erro” observado
em torno do valor médio, este “erro” é dado por )( µ−= xe , ou seja, o desvio da média amostral
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
17
em relação a verdadeira média populacional. Consideremos a variável aleatória “erro” dada
por )( µε −= X . Dividindo esta última expressão por n
σ temos pelo Teorema Central do Limite que,
)1;0(~)(
NX
nnσσ
µε −=
Assim, fixado um valor (100(1 - αααα)%) tal que 0 < α < 1, podemos encontrar um valor de Zα/2 tal
que
αε σα −=< 1)( 2/ n
zP
O índice de Zα/2 apresenta o valor αααα dividido por 2 uma vez que a “massa” αααα deve ser distribuída
igualmente em torno de 0. O valor de Zα/2 pode ser obtido da tabela da normal padrão.
Podemos determinar a probabilidade de a estimativa pontual estar a uma determinada
distância da média verdadeira, ou seja, determinar a probabilidade de cometermos erros de
determinada magnitude. Por exemplo, αααα = 5% ⇒ (1-αααα)=0.95
αε σα −=< 1)( 2/ n
zP
95,0)96,1( =<n
P σε
95,0)96,1( =<−n
XP σµ
95,0)96,196,1( =<−<−nn
XP σσ µ
(100(1 - αααα)%)
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
18
95,0)96,196,1( =+<<−nn
XXP σσ µ
Portanto, o intervalo de confiança para µ, com coeficiente de confiança (100(1 - αααα)%) é dado
por
Valores para 2/αz mais usuais:
Nível de Confiança 90% 95% 99% Valor crítico: 2/αz 1.645 1.960 2.576
Amplitude do intervalo:
A amplitude do intervalo de confiança é dada pela diferença entre o extremo inferior e
superior, isto é,
nzX
σα 2/+ - (
nzX
σα 2/− ) = 2
nz
σα 2/
É usual se referir à semi-amplitude, como o erro envolvido na estimação.
Exemplo 1: Um cientista descobriu que uma doença que afeta indivíduos de certa região está
relacionada com a concentração da substância A no sangue, sendo considerado doente todo
indivíduo para o qual a concentração de A é menor que 1,488 mg/cm3. Com o intuito de conhecer a
concentração da substância A no sangue em indivíduos desta região afetados pela moléstia em
estudo, o cientista avaliou um grupo 867 pessoas. Supondo que a concentração da substância A no
sangue, em indivíduos com a doença em estudo, tem distribuição normal com média µ desconhecida
e desvio padrão 0,4 mg/cm3 determine uma estimativa intervalar com 95% de confiança para o nível
médio da concentração de substância, sabendo que para esta amostra de 867 pessoas obteve-se
x =1,23.
Determinação do tamanho da amostra:
Este assunto pertence ao que na Estatística se denomina Teoria de Amostragem que não é
objeto deste curso, no entanto podemos calcular para algumas situações especiais, o tamanho da
amostra necessário, como uma aplicação de intervalos de confiança. Se o objetivo é estimar a média
podemos usar os intervalos anteriormente estabelecidos, para obter o tamanho da amostra. Para isto
precisamos fixar o maior erro da estimativa aceitável e o nível de confiança com o qual desejamos
[ ]n
zXn
zXICσσαµ αα 2/2/ ,)% - (1;( +−=
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
19
trabalhar. À medida que n cresce o erro padrão da média n
σ, decresce. Conseqüentemente o
intervalo de confiança torna-se mais estreito. Com isto, a média µ é estimada com maior precisão.
Em muitas situações, aumentar o tamanho da amostra implica em aumento de custo, por
exemplo, tempo, recursos financeiros, etc. Tem-se desta forma um impasse entre precisão na
estimativa de µ e o custo desta estimação. Idealmente, seria interessante analisarmos o problema
sob o ponto de vista de estimar µ, com precisão desejada e de acordo com os recursos disponíveis.
Entretanto, ignoraremos o fator custo e apenas consideraremos o problema de determinação do
tamanho da amostra para uma precisão pré-estabelecida.
Durante a fase do planejamento do experimento, o pesquisador pode estabelecer o erro
tolerável, e na estimação de µ. Esta margem de erro pode ser expressa como:
)( µ−= xe
Como já visto anteriormente o intervalo de confiança aleatório para µ é dado por:
nzX
nzX
σµσαα 2/2/ +≤≤−
que pode ser reescrito como
nzX σ
αµ 2/≤− (1)
O fator nz σ
α 2/ é na verdade a precisão usada na estimação de µ através de x . Observe
que )( µ−= xE é a variável aleatória erro. Reescrevendo (1) como
nzE /2/ σα≤
Igualando nz /2/ σα ao erro e, pré-estabelecido pelo pesquisador, na pior das hipóteses
temos:
e = nz /2/ σα
Portanto, o tamanho mínimo necessário da amostra para estimar µ com precisão e, é dado
por:
2
∗=e
zn
σ
Sendo z* o valor crítico para o nível de confiança desejado.
33 .. 66 .. 22 .. 22 .. II NN TT EE RR VV AA LL OO DD EE CC OO NN FF II AA NN ÇÇ AA PP AA RR AA MM ÉÉ DD II AA µµµµµµµµ CC OO MM VV AA RR II ÂÂ NN CC II AA
DD EE SS CC OO NN HH EE CC II DD AA ::
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
20
Nas situações praticas é usual conhecermos o modelo probabilístico (usualmente o normal,
nos problemas de Engenharia) associado à variável aleatória em estudo. Porém os parâmetros desse
modelo são desconhecidos na situação em estudo, portanto devem ser estimados a partir dos dados
da própria amostra. No caso do modelo normal, nessa situação tanto a média µµµµ e a variância σσσσ2 não
são conhecidos e seus valores serão estimados pela média e variância amostral.
Agora se a distribuição de X, variável em estudo é normal, então a média amostral X tem
distribuição N(µ, σ2/n). Se σσσσ2 é conhecido, como vimos no tópico anterior, um intervalo de confiança
para µµµµ, é dado por ]*[n
zX σ± . Embora a situação de normalidade seja razoável em muitos
casos práticos, dificilmente se conhece a variância de uma população quando sua média é
desconhecida.
Quando σσσσ2 é desconhecido, e a nossa amostra aleatória (X1,..., Xn) é constituída de
variáveis aleatórias independentes com densidade normal de média µ e variância σ2, utilizamos o
“melhor” estimador para σσσσ2 que é por s2. Nesse caso, o intervalo de confiança é obtido utilizando-se
uma nova estatística:
n
Sx
XT
µ−=
sendo s o estimador do desvio padrão σσσσ . Temos que T também é uma variável aleatória, mas
apesar de X ter distribuição normal, o denominador de T envolve a variável aleatória S2, que fará
com que a função de densidade de T seja diferente da normal. Essa estatística tem distribuição
conhecida como t-Student com n-1 graus de liberdade, sendo n o tamanho da amostra. A forma da
distribuição t-Student é parecida com a da normal. É simétrica em relação a zero, mas apresenta
caudas “grossas”, ou seja, maior variância do que a normal. Aumentando-se o tamanho de amostra
n, a distribuição t de Student aproxima-se do modelo normal.
Pode-se observar, pela figura abaixo, que a distribuição t –Student é muito semelhante à
curva normal. À medida que aumentam os graus de liberdade, a distribuição t-Student aproxima-se
da distribuição normal padronizada (média = 0, desvio-padrão = 1). A curva normal padronizada é
um caso particular da distribuição t quando graus de liberdade tende ao infinito. Para os propósitos
práticos, os valores da distribuição t-Student aproximam-se dos valores da distribuição normal
padronizada relativamente depressa, tal que quando graus de liberdade= 30 esses valores são quase
idênticos.
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
21
Para cada valor de graus de liberdade temos uma distribuição diferente.
O procedimento para a obtenção do intervalo é semelhante ao desenvolvido anteriormente.
Utilizando a estatística,
1~ −−= n
n
S tX
Tx
µ
que nos permite construir o intervalo de confiança para µ. Para isto através da tabela da distribuição
tn-1, obtemos um valor de t* tal que
)1(*)*( αµ −=≤−≤− tX
tPn
Sx
Ou seja,
P( - t*≤ tn-1 ≤ t*)= 11--αα
αµ −=+≤≤− 1)**(n
S
n
S xx tXtXP
Assim, um intervalo de confiança para µ com nível de confiança de 100(11--αα)) % é dado por:
] ; [:))1(;()2/(,1)2/(,1 n
Snn
Sn
xx tXtXIC αααµ −− +−−
( )2/,1 α−nt denota o percentil αααα/2 (que é equivalente ao percentil ((11--((αα//22)) )da distribuição t-
Student com n-1 graus de liberdade. Assim, o intervalo de confiança para µ é centrado na estimativa
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
22
do efeito, e varia de uma quantidade *t desvios padrão para baixo até o mesmo número de desvios
padrão para cima.
EExxeemmpplloo 33:: Em uma pesquisa para toxinas produzidas por um parasita que infecta as safras de
milho, um bioquímico preparou extratos da cultura do parasita com solventes orgânicos e mediu a
quantidade de substância tóxica por grama de solução. Para uma amostra de 9 culturas encontrou
uma quantidade média de substância tóxica igual a 1,02 miligramas e um desvio padrão de 0,26
miligramas. Seja µ a verdadeira quantidade média de substância tóxica. Construir um Intervalo de
95% de confiança para µ.
Observação:
• Se variância σ2 for desconhecida e a variável não tem densidade normal, é necessário considerar
um tamanho de amostra suficientemente grande. Pois, nesse caso, é sabido que S2 se aproxima
de σ2 de tal forma que seu uso, juntamente com aplicação do Teorema Central do Limite,
permite considerar X como tendo distribuição Normal. Conseqüentemente )1,0(~ NX
n
Sx
µ−, e
um intervalo de confiança γ para µ é dado por:
] ; [:))1(;( )2/()2/( n
S
n
S xx zXzXIC αααµ +−−
Exemplo 4: Para estimar o rendimento semanal de operários de construção de uma grande cidade,
um sociólogo seleciona uma amostra aleatória de 75 operários. A média amostral é dada por x =
427,00 reais e s= 15,00 reais. Determine um intervalo de confiança para µ considerando coeficientes
de confiança 0,90 e 0,95.
33 .. 66 .. 33 .. II NN TT EE RR VV AA LL OO DD EE CC OO NN FF II AA NN ÇÇ AA PP AA RR AA DD II FF EE RR EE NN ÇÇ AA SS DD EE
MM ÉÉ DD II AA SS ::
Engenheiros e cientistas estão freqüentemente interessados em comparar duas condições diferentes,
com o objetivo de determinar se as mesmas produzem diferentes resultados na resposta que esta
sendo observada. Essas condições são chamadas na maioria das vezes de tratamentos.
Consideremos a seguinte situação: Dois tratamentos são definidos por duas diferentes formulações
de tinta (formulação padrão e uma nova formulação) e a resposta é o tempo de secagem. O objetivo
do estudo é determinar se a nova formulação resulta redução do tempo de secagem.
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
23
Nesse caso, o objetivo do estudo passa pelo estudo das médias observadas em amostras de
unidades de observação submetidas aos dois tratamentos em estudos (diferentes formulações, no
exemplo).
Uma das formas possíveis de analisar o comportamento de dois tratamentos é o estudo da
diferença de suas médias. A partir do valor estimado, a partir da amostra, podermos identificar que
tratamento apresenta melhor desempenho na resposta de interesse.
Portanto, para análise do problema utilizaremos a distribuição da estatística “diferença de
duas médias” apresentada em
Lembrando:
Se o primeiro tratamento tem uma media µ1 e variância 21σ e o segundo tratamento tem uma
media µ2 e variância 22σ . Supondo que ambas as populações possam ser representadas pelo
modelo normal ou que as condições do Teorema Central do Limite são satisfeitas, podemos dizer que
a distribuição amostral de 21 XX − é normal, com media
212121µµµµµ −=−=− XXXX
e variância
2
2
1
2
222 21
12121 nnXX
XXXX
σσσσσ +=+=−
Portanto:
),(~2
22
1
21
2121 nnNXX
σσµµ +−−
A distribuição amostral da diferença entre duas médias nos leva a considerar, para fins de
obtenção de um intervalo de confiança, as seguintes situações:
•••• Variâncias dos diferentes grupos (tratamentos) são conhecidas;
•••• Variâncias dos diferentes grupos (tratamentos) são desconhecidas e portanto também
precisam ser estimadas na amostra;
Mas temos ainda que, para ambos os casos precisamos considerar se as variâncias são iguais ou
diferentes nos diferentes tratamentos, surge ai também duas alternativas:
•••• Variâncias Iguais;
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
24
•••• Variâncias Diferentes;
33 .. 66 .. 33 .. 11 .. II NN TT EE RR VV AA LL OO DD EE CC OO NN FF II AA NN ÇÇ AA PP AA RR AA DD II FF EE RR EE NN ÇÇ AA DD EE MM ÉÉ DD II AA SS CC OO MM
VV AA RR II ÂÂ NN CC II AA SS CC OO NN HH EE CC II DD AA SS ::
Considerando o resultado acima apresentado:
),(~2
22
1
21
2121 nnNXX
σσµµ +−−
e utilizando os mesmos procedimentos utilizados no caso de uma amostra, podemos facilmente
mostrar que um intervalo de confiança (100(1 - αααα)%) para a diferença de médias, µ1 - µ2 é dado
por:
+−−≤−≤+−−
2
22
1
21
2/21212
22
1
21
2/21 nnzXX
nnzXX
σσµµσσαα
ou seja:
ασσµµσσαα −=
+−−≤−≤+−− 1
2
22
1
21
2/21212
22
1
21
2/21 nnzXX
nnzXXP
Exemplo:
Testes de resistência à tensão foram realizados em duas estruturas contendo dois teores de
alumínio. Essas estruturas foram usadas na fabricação das asas de um avião comercial. De
experiências passadas com o passado de fabricação dessas estruturas e com o procedimento de
testes, os desvios-padrão das resistências a tensão são considerados conhecidos e dados por 1.0 no
caso da estrutura 1 e de 1.5 na estrutura 2. Uma amostra de 10 unidades da estrutura 1 resultaram
em uma resistência a tensão média de 87.6 enquanto que uma amostra de 12 unidades da estrutura
2 resultou em uma média de 74.5. Encontre um intervalo de confiança de 90% para a diferença das
médias de resistência a tensão das duas estruturas.
Solução: Seja:
X1 = resistência a tensão na estrutura 1
X2 = resistência a tensão na estrutura 2
Considerando ainda que em ambos os casos a resistência a tensão pode ser representada por um
modelo normal, temos que:
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
25
)12
5.1
10
1,(~),(~
2
21212
22
1
21
2121 +−−⇒+−− µµσσµµ NXXnn
NXX
e o intervalo de confiança é dado por:
[ ][ ]98.1322.12
88.01.1388.01.13
12
5.1
10
1645.11.13
12
5.1
10
1645.11.13
12
5.1
10
15.746.87
12
5.1
10
15.746.87
21
21
2
21
2
2
2/21
2
2/
2
22
1
21
2/21212
22
1
21
2/21
≤−≤=+≤−≤−
=
++≤−≤+−
=
++−≤−≤+−−
=
++−≤−≤+−−
µµµµ
µµ
µµ
σσµµσσ
αα
αα
zz
nnzXX
nnzXX
Questão:
Qual o significado destes intervalos ser todo positivo?
Observação:
Se as variâncias dos diferentes tratamentos (grupos) além de conhecidas forem iguais, temos que:
222
21 σσσ == então a expressão do intervalo de confiança fica simplificada da seguinte forma:
+−−≤−≤+−−
212/2121
212/21
1111
nnzXX
nnzXX σµµσ αα
33 .. 66 .. 33 .. 22 .. II NN TT EE RR VV AA LL OO DD EE CC OO NN FF II AA NN ÇÇ AA PP AA RR AA DD II FF EE RR EE NN ÇÇ AA DD EE MM ÉÉ DD II AA SS CC OO MM
VV AA RR II ÂÂ NN CC II AA SS DD EE SS CC OO NN HH EE CC II DD AA SS EE II GG UU AA II SS ::
Nessa situação consideramos que a variância dos dois tratamentos em estudo são
desconhecidos, logo devem também ser estimados pela amostra. Porém, embora desconhecidas,
têm-se a informação que as variâncias dos dois tratamentos são iguais. Nesse caso temos:
+−−⇒
+−−
21
22121
2
22
1
21
2121
11,(~,~
nnNXX
nnNXX σµµσσµµ
Problema:
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
26
Considerando que as variância são desconhecidas, porém iguais e que é possível obter uma
estimativa para variância amostral em cada um dos tratamentos, como estimamos, a partir desses
valores, a variância que é igual para ambos os tratamentos?
Consideremos:
•••• uma amostra de tamanho n1 do tratamento 1 com variância estimada denotada por 21S ;
•••• uma amostra de tamanho n2 do tratamento 2 com variância estimada denotada por 22S ;
Parece ser razoável combinar as duas variâncias da amostras 21S e 2
2S para se obter um estimador
único para variância. Este estimador, denominado estimador combinado (pooled estimator) de
σσσσ2 é definido por:
2
)1()1(
21
222
2112
−+−+−
=nn
SnSnSp
conseqüentemente, pelos mesmos motivos expostos quando do estudo para a situação de uma única
média com variância desconhecida temos que
( ) ( )
+
−−−−+ 2
21
212121
~11
nn
p
t
nnS
XX µµ
e assim o intervalo de confiança (100(1 - αααα)%) para a diferença de médias, µ1 - µ2 é dado por:
+−−≤−≤+−− −+−+
21)2/(,22121
21)2/(,221
11112121 nn
StXXnn
StXX pnnpnn αα µµ
Exemplo:
As análises de dois lotes de carbono de cálcio mostraram as cinzas (%) indicadas na tabela a
seguir. Construir um intervalo de confiança de 95% para à diferença de médias destes dois lotes.
Amostras Lote 1 Lote 2
1 1.7 5.9
2 5.9 6.9
3 1.5 3.6
4 4.1 4.3
5 5.9 8.0
6 1.7 2.0
7 3.7 4.8
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
27
8 3.1 6.8
9 1.7 9.1
10 3.2 1.5
Média Amostral ix 3.25 5.29
Variância Amostral 2iS 2.805 6.263
Assim:
53.421010
263.6*9805.2*9
2
)1()1(
21
222
2112 =
−++=
−+−+−
=nn
SnSnSp
e o intervalo de confiança é dado por:
[ ]85.293.6
10
1
10
153.4101.204.2
10
1
10
153.4101.204.2
10
1
10
153.4%)5(29.525.3
10
1
10
153.4%)5(29.525.3
21
21
182118
−≤−≤−=
++−≤−≤+−−=
++−≤−≤+−−
µµ
µµ
µµ tt
Observação: Qual o significado do intervalo conter apenas valores negativos?
33 .. 66 .. 33 .. 33 .. II NN TT EE RR VV AA LL OO DD EE CC OO NN FF II AA NN ÇÇ AA PP AA RR AA DD II FF EE RR EE NN ÇÇ AA DD EE MM ÉÉ DD II AA SS CC OO MM
VV AA RR II ÂÂ NN CC II AA SS DD EE SS CC OO NN HH EE CC II DD AA SS EE DD II FF EE RR EE NN TT EE SS ::
Nessa situação temos que variância dos dois tratamentos em estudo são desconhecidas e
diferentes e a estimativa da variância amostral de cada grupo será utilizada como estimador das
mesmas.
•••• na amostra de tamanho n1 do tratamento 1, a variância estimada denotada por 21S será o
estimador de 21σ ;
•••• na amostra de tamanho n2 do tratamento 2, a variância estimada denotada por 22S será o
estimador de 22σ ;
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
28
Dessa forma, pelos mesmos motivos expostos quando do estudo para a situação de uma
única média com variância desconhecida temos que
( ) ( )
+
−−−v
p
t
nnS
XX~
11
21
2121 µµ
com v dado por:
2
11 2
2
2
22
1
2
1
21
2
2
22
1
21
−
+
++
+
=
n
n
S
n
n
S
n
S
n
S
v
e assim o intervalo de confiança (100(1 - αααα)%) para a diferença de médias, µ1 - µ2 é dado por:
+−−≤−≤+−−
2
22
1
21
)2/(,21212
22
1
21
)2/(,21 n
S
n
StXX
n
S
n
StXX vv αα µµ
Exemplo: Refazer o exemplo anterior considerando variâncias diferentes.
Variâncias Amostrais 805.221 =S 263.62
2 =S
( )( ) ( )
4.14204.01.
82.
2
11
6263.0
11
2805.0
6263.02805.02
1110
263.6
1110
805.2
10
263.6
10
805.2
2
11
22
2
22
2
2
2
2
22
1
2
1
21
2
2
22
1
21
=−+
=
−+
+=−
+
+=−
+
++
+
=
n
n
S
n
n
S
n
S
n
S
v
e
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho e Profa. Estela Maris Bereta
29
[ ][ ][ ]60.48.3
44.104.244.104.2
6263.2805.145.204.26263.2805.145.204.2
10
263.6
10
805.2%)5(29.525.3
10
263.6
10
805.2%)5(29.525.3
21
21
21
142114
−≤−≤−=+−≤−≤−−=
++−≤−≤+−−=
++−≤−≤+−−
µµµµ
µµ
µµ tt
Interpretação:
Observações:
•••• Em todas as situações, temos que as expressões apresentadas são simplificadas
quando n1=n2.
•••• Como identificar do ponto de vista estatístico se as variâncias dos dois grupos são
iguais ou não? Veremos no próximo ponto.
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
30
Anexo 1
t table with right tail probabilities
df\p 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.0005
1 0.324920 1.000000 3.077684 6.313752 12.70620 31.82052 63.65674 636.6192
2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991
3 0.276671 0.764892 1.637744 2.353363 3.18245 4.54070 5.84091 12.9240
4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103
5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688
6 0.264835 0.717558 1.439756 1.943180 2.44691 3.14267 3.70743 5.9588
7 0.263167 0.711142 1.414924 1.894579 2.36462 2.99795 3.49948 5.4079
8 0.261921 0.706387 1.396815 1.859548 2.30600 2.89646 3.35539 5.0413
9 0.260955 0.702722 1.383029 1.833113 2.26216 2.82144 3.24984 4.7809
10 0.260185 0.699812 1.372184 1.812461 2.22814 2.76377 3.16927 4.5869
11 0.259556 0.697445 1.363430 1.795885 2.20099 2.71808 3.10581 4.4370
12 0.259033 0.695483 1.356217 1.782288 2.17881 2.68100 3.05454 4.3178
13 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208
14 0.258213 0.692417 1.345030 1.761310 2.14479 2.62449 2.97684 4.1405
15 0.257885 0.691197 1.340606 1.753050 2.13145 2.60248 2.94671 4.0728
16 0.257599 0.690132 1.336757 1.745884 2.11991 2.58349 2.92078 4.0150
17 0.257347 0.689195 1.333379 1.739607 2.10982 2.56693 2.89823 3.9651
18 0.257123 0.688364 1.330391 1.734064 2.10092 2.55238 2.87844 3.9216
19 0.256923 0.687621 1.327728 1.729133 2.09302 2.53948 2.86093 3.8834
20 0.256743 0.686954 1.325341 1.724718 2.08596 2.52798 2.84534 3.8495
21 0.256580 0.686352 1.323188 1.720743 2.07961 2.51765 2.83136 3.8193
22 0.256432 0.685805 1.321237 1.717144 2.07387 2.50832 2.81876 3.7921
23 0.256297 0.685306 1.319460 1.713872 2.06866 2.49987 2.80734 3.7676
24 0.256173 0.684850 1.317836 1.710882 2.06390 2.49216 2.79694 3.7454
25 0.256060 0.684430 1.316345 1.708141 2.05954 2.48511 2.78744 3.7251
26 0.255955 0.684043 1.314972 1.705618 2.05553 2.47863 2.77871 3.7066
27 0.255858 0.683685 1.313703 1.703288 2.05183 2.47266 2.77068 3.6896
28 0.255768 0.683353 1.312527 1.701131 2.04841 2.46714 2.76326 3.6739
29 0.255684 0.683044 1.311434 1.699127 2.04523 2.46202 2.75639 3.6594
30 0.255605 0.682756 1.310415 1.697261 2.04227 2.45726 2.75000 3.6460
inf 0.253347 0.674490 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
31
33 .. 77 .. TT EE SS TT EE DD EE HH II PP ÓÓ TT EE SS EE SS ::
33 .. 77 .. 11 .. II NN TT RR OO DD UU ÇÇ ÃÃ OO :: Inferir significa tirar uma conclusão. A inferência estatística oferece-nos métodos para
tirarmos conclusões para a população a partir dos dados amostrais disponíveis, conclusões estas que
devem levar em conta a variabilidade natural dos dados. Na verdade, nos tópicos anteriores já
estabelecemos algumas formas de se obter conclusões a partir dos dados amostrais. O que será novo
a partir de agora é que recorremos à probabilidade para descrever a variação que se produz pelo
acaso.
Definimos anteriormente que a inferência estatística pode ser realizada a partir da estimação
(pontual e por intervalos) e através de testes de hipóteses. Na parte de estimação, vimos que os
intervalos de confiança são um dos tipos mais comuns de inferência estatística. Eles são apropriados
quando nosso objetivo é estimar um parâmetro populacional. Por outro lado, os testes de hipóteses,
também chamados de testes de significância, são direcionados a um objetivo diferente: avaliar a
evidência fornecida pelos dados sobre alguma afirmação feita sobre a população.
Especificamente, em problemas de Engenharia, muitos problemas exigem uma tomada de
decisão entre aceitar ou rejeitar uma afirmação a cerca de uma característica populacional. A
afirmação a ser investigada é denominada de hipótese e o procedimento de tomada de decisão
sobre a hipótese é o que denominamos de teste de hipótese. Por exemplo, suponha que estamos
interessados na taxa de queima de um propelente sólido, usado para fornecer energia aos sistemas
de escapamento de aeronaves. A taxa de queima é uma variável aleatória que pode ser descrita por
um modelo de probabilidade. O interesse no problema consiste em verificar se a taxa média de
queima (parâmetro do modelo de probabilidade) é ou não equivalente a 50 cm/s.
Os testes de hipóteses é um dos aspectos mais úteis da inferência estatística, uma vez que
muitos tipos de problemas de tomada de decisão, teste ou experimentos, no mundo da engenharia,
podem ser formulados como um problema desse tipo. Podemos considerar o teste estatístico de
hipóteses como o estágio da análise de dados de um experimento comparativo, em que o
engenheiro, como no exemplo acima, deseja comparar a média de uma população a dado valor
especifico de interesse no problema. Esses experimentos comparativos simples são freqüentemente
encontrados na prática e fornecem uma boa base para problemas mais complexos de
planejamento de experimentos que serão discutidos as seguir.
Considerando que os métodos de inferência baseiam-se nas distribuições amostrais, eles
requerem um modelo probabilístico para os dados. Modelos probabilísticos confiáveis podem
aparecer de muitas maneiras, e a segurança do modelo e a confiabilidade da inferência são máximas
quando os dados são provenientes de um modelo apropriadamente aleatorizado. Quando utilizamos
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
32
a inferência estatística estamos considerando os dados como se eles fossem provenientes de uma
amostra aleatória ou de um experimento onde em alguma etapa de sua execução, houve uma forma
de atribuição ou sorteio aleatório. Caso isto não se verifique as nossas conclusões poderão ser objeto
de contestação.
Um teste de significância é um procedimento formal para comparar dados observados com
uma hipótese, cuja veracidade procura-se avaliar. A hipótese constitui-se em uma afirmação que se
faz sobre os parâmetros de uma população ou de um modelo. Os resultados de um teste são
expressos em termos de uma probabilidade que mede quão bem os dados e a hipótese concordam
entre si.
33 .. 77 .. 22 .. DD EE FF II NN II ÇÇ ÕÕ EE SS EE CC OO NN CC EE II TT OO SS BB ÁÁ SS II CC OO SS ::
Definição 1: Em estatística, uma hipótese, é uma afirmativa sobre uma propriedade da população,
ou ainda, uma afirmação sobre os parâmetros de uma ou mais populações.
Definição 2: Um teste de hipótese (ou teste de significâncias), é um procedimento para se
verificar a veracidade ou não de uma hipótese estatística.
Consideremos o exemplo da taxa de queima de um propeleno sólido, acima apresentado.
Nesse problema a tomada de decisão significa concluir por uma das duas seguintes alternativas.
H1 : A taxa média de queima do propeleno sólido é 50 cm/s.
H2 : A taxa média de queima do propeleno sólido não é 50 cm/s.
Sob ponto de vista estatístico, considerando que µ representa a taxa média de queima
populacional, as hipóteses acima são definidas como.
H0 : µ = 50 cm/s
H1 : µ ≠ 50 cm/s
A alternativa H1 ou Hipótese H0 é chamada de hipótese nula enquanto que a alternativa H2
ou hipótese H1 é chamada de hipótese alternativa.
Definição 3: A Hipótese Nula é a afirmativa de que o parâmetro populacional é igual a uma valor
específico.
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
33
Definição 4: A Hipótese Alternativa é a afirmativa de que o parâmetro populacional tem um valor
que, de alguma forma, difere da hipótese nula.
No exemplo, temos que a hipótese alternativa especifica valores de µ que podem ser maiores
ou menores que 50 cm/s, nessa situação dizemos que a hipótese alternativa é bilateral. Em
determinadas situações, podemos desejar formular uma hipótese unilateral, ou seja, verificar se o
valor de µ é especificamente maior ou menor que o valor definido pela hipótese nula. No exemplo:
H0 : µ = 50 cm/s ou H0 : µ = 50 cm/s
H1 : µ > 50 cm/s H1 : µ < 50 cm/s
O valor do parâmetro especificado da população na hipótese nula (50 cm/s, no exemplo), é
geralmente definido a partir de uma das três maneiras:
1. Pode ser resultado de experiências passadas ou de conhecimento do processo ou mesmo de
testes ou experimentos prévios;
2. O valor pode ser determinado, a partir de alguma teoria ou modelo relativo ao processo em
estudo;
3. O valor de parâmetro da população resulta de considerações externas, tais como valor de
projeto ou especificações de engenharia ou a partir de obrigações contratuais.
A partir de um teste de hipóteses verificamos se os dados provenientes da amostra são
consistentes com a hipótese em estudo. A medida que os dados forem consistentes com a hipótese,
concluiremos que a hipótese é verdadeira; no entanto se essa informação for inconsistente com a
hipótese, concluiremos que a hipótese é falsa. Destacamos que a veracidade ou falsidade de uma
hipótese especifica nunca pode ser conhecida com certeza, exceto se toda população fosse
observada, o que é usualmente impossível na prática.
A estrutura de problemas de testes de hipóteses será idêntica em todas as aplicações que
iremos considerar. A hipótese nula é aquela que se deseja testar. A rejeição dessa hipótese leva a
aceitação da hipótese alternativa. Testar a hipótese envolve considerar uma amostra aleatória,
calcular uma estatística de teste a partir dos dados amostrais e, então a partir da estatística de teste
tomar uma decisão com respeito à hipótese nula.
Definição 5: Uma estatística de teste é um valor calculado a partir dos dados amostrais e é
usada para tomar a decisão sobre a rejeição ou não da hipótese nula. Para isso faz-se necessário a
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
34
comparação da estatística com um valor de referência a fim de ser possível a tomada de decisão de
rejeição ou não da hipótese.
Com o objetivo de ilustrar as definições e conceitos acima, considere o problema da taxa de
queima do propelente, introduzido anteriormente. A hipótese nula e a taxa média de queima ser 50
cm/s; a alternativa é: essa taxa não é igual a 50 cm/s. Ou seja, desejamos testar
H0 : µ = 50 cm/s
H1 : µ ≠ 50 cm/s
Suponha que uma amostra de n = 10 espécimes seja testada e que a taxa media de queima
da amostra x seja observada. A média amostral é uma estimativa da media verdadeira µ da
população. Um valor da media amostral x que caia próximo ao valor da hipótese de µ = 50 cm/s é
uma evidência de que a media verdadeira µ é realmente 50 cm/s; isto é, tal evidencia suporta a
hipótese nula Ho. Por outro lado, uma média amostral que seja consideravelmente diferente de 50
cm/s evidencia de que a hipótese alternativa H1 é valida. Assim, a média amostral é a estatística de
teste nesse caso.
A média amostral pode assumir muitos valores. Suponha que se 48,5 < x < 51,5, não
rejeitaremos a hipótese nula Ho: µ = 50. Se x < 48,5 ou x > 51,5, rejeitaremos a hipótese nula em
favor da hipótese alternativa H1: µ ≠ 50. Isso é ilustrado na Fig. 3.14. Os valores de x que forem
menores do que 48,5 e maiores do que 51,5 constituem a região critica para o teste, enquanto todos
os valores que estejam no intervalo 48,5 < x < 51,5 formam uma região para a qual falharemos em
rejeitar a hipótese nula. Por convenção, ela geralmente e chamada de região de aceitação. O limite
entre as regiões critica e a região de aceitação é chamada de valores críticos. Em nosso exemplo, os
valores críticos são 48,5 e 51,5. E comum estabelecer conclusões relativas a hipótese nula Ho. Logo,
rejeitaremos Ho em favor de H1 se a estatística de teste cair na região crítica e deixamos de
rejeitar H0 caso contrário.
Figura 3.13 Critério de decisão no teste de H0 contra H1
Definição 6: Região crítica é definida pelo conjunto de valores para os quais a hipótese H0 é
rejeitada.
Região de não Rejeição de Ho Região Crítica 1 Região Crítica 2
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
35
Definição 7: Valor (ES) crítico (s) valor a partir do(s) qual(is) a hipótese H0 é rejeitada, ou seja,
valores limites da região crítica.
O procedimento de decisão acima estabelecido pode conduzir a uma de duas conclusões
erradas. Por exemplo, a verdadeira taxa media de queima do propelente poderia ser igual a 50
cm/s. Entretanto, para os espécimes de propelente selecionados aleatoriamente que são testados,
poderíamos observar um valor de estatística de teste x que caísse na região crítica.
Rejeitaríamos então a hipótese nula Ho em favor da alternativa H1 quando, de fato, Ho seria
realmente verdadeira. Esse tipo de conclusão errada é chamado de erro tipo I.
Definição 8: O erro tipo I é definido quando rejeitamos a hipótese Ho, quando ela é de fato
verdadeira.
Agora, suponha que a taxa media de queima seja diferente de 50 cm/s, mesmo que a media
amostral x caísse na região de aceitação. Nesse caso, não rejeitaríamos H0, isto é, falharíamos em
rejeitar H0 quando ela de fato não é verdadeira. Esse tipo de conclusão errada é chamado de erro
tipo II.
Definição 9: O erro tipo II é definido quando não rejeitamos a hipótese Ho, quando ela é de fato
falsa.
Assim, testando qualquer hipótese estatística, quatro situações diferentes determinam se a decisão
final esta correta ou errada. Essas situações técnicas estão apresentadas na Tabela 3.1.
Tabela 3.1. Decisões em um teste de Hipóteses
DD EE CC II SS ÃÃ OO
BB AA SS EE AA DD AA NN AA
AA MM OO SS TT RR AA
SS II TT UU AA ÇÇ ÃÃ OO NN AA PP OO PP UU LL AA ÇÇ ÃÃ OO
H0 Verdadeira H0 Falsa
Não rejeitar H0 Decisão correta Erro Tipo II
Rejeitar H0 Erro Tipo I Decisão correta
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
36
Pelo fato de a nossa decisão estar baseada em variáveis aleatórias, probabilidades podem ser
associadas aos erros tipo I e tipo II da Tabela 3.1. A probabilidade de cometer o erro tipo I é,
usualmente denotada pela letra grega α. Ou seja,
αααα = P(erro tipo I) = P(rejeitar H0 quando H0 é verdadeira)
Em algumas referências, a probabilidade do erro tipo I é chamada de nível de significância ou
tamanho do teste. No exemplo da taxa de queima do propelente, um erro tipo I ocorrerá quando
51>x ou 5.48<x para a taxa media de queima do propelente µ = 50 cm/s. Suponha que o
desvio-padrao da taxa de queima seja σ = 2,5 cm/s e que a taxa de queima tenha uma distribuição
para a qual as condições do teorema central do limite se apliquem, de modo que a distribuição da
media amostral seja aproximadamente normal, com media µ = 50 e desvio-padrão
79.010
5.2 ==n
σ. A probabilidade de cometer o erro tipo I (ou o nível de significância
de nosso teste) é igual à soma das áreas que foram sombreadas nas extremidades da distribuição
normal na figura 3.14.
Figura 3.14. Região Crítica para o teste
Lembremos que o cálculo da área sombreada é dada por:
( ) ( ) ( ) ( )( ) 057434.0028717.0*290.12
90.190.15.515.48
==−<=>+−<=>+<=
ZP
ZPZPXPXPα
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
37
Isso significa que 5,76% de todas as amostras aleatórias conduziriam a rejeição da hipótese H0: µ
= 50 cm/s, quando a verdadeira taxa media de queima fosse realmente 50 cm/s.
Da inspeção da Fig. 3.14, notamos que podemos reduzir α alargando a região de aceitação. Por
exemplo, se considerarmos os valores críticos 48 e 52, o valor de α será:
( ) ( ) ( ) ( )( ) 0114.00057.0*253.22
53.253.25248
==−<=>+−<=>+<=
ZP
ZPZPXPXPα
Poderíamos também reduzir α, aumentando o tamanho da amostra. Se n=16, então
625.016
5.2 ==n
σ e usando a região critica original da Fig. 3.14, encontramos
( ) ( ) ( ) ( )( ) 0164.00082.0*240.22
40.240.25.515.48
==−<=>+−<=>+<=
ZP
ZPZPXPXPα
Na avaliação de um procedimento de teste de hipóteses também é importante examinar a
probabilidade de um erro tipo II, que denotaremos por β, isto é:
β= P(erro tipo II)
= P(não rejeitar Ho quando Ho é de fato falsa)
O procedimento para calculo de β é análogo ao calculo de α, exceto que nesse caso faz-se
necessário fixar diferentes valores de µ fora da região critica pré-estabelecida, considerando que a
média amostral ocorre dentro da região de não rejeição, por exemplo, podemos calcular β
considerando µ=52. Nesse caso teríamos:
( )( )( )2643.0
63.043.4
)52/5.515.48
52 que Hrejeitar 0
=−<<−=
=<<====
ZP
XP
dadonãoP
µµβ
Valores de α e β, calculados para diferentes regiões de aceitação, com diferentes tamanhos
de amostra são apresentados na tabela 3.2.
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
38
Tabela 3.2. Valores para α e β em diferentes situações
Região não Rejeição Tamanho da
Amostra
α = Erro tipo
I
β=Erro tipo II
µ=52
β=Erro tipo II
µ=50.5
5.515.48 << x 10 0.0576 0.2643 0.8923
5248 << x 10 0.0114 0.5000 0.9705
5.515.48 << x 16 0.0164 0.2119 0.9445
5248 << x 16 0.0014 0.5000 0.9918
Os valores acima, bem como a discussão anterior nos apontam quatro importantes pontos a
serem observados.
•••• O tamanho da região critica, e conseqüentemente a probabilidade do erro tipo I, α, pode
sempre ser reduzido através da seleção apropriada dos valores críticos;
•••• Os erros tipo I e tipo II estão relacionados. Uma diminuição na probabilidade de um tipo de
erro sempre resulta em um aumento da probabilidade do outro, desde que o tamanho da
amostra n não varie;
•••• Um aumento no tamanho da amostra reduzira, geralmente, α e β, desde que os valores
críticos sejam mantidos constantes;
•••• Quando a hipótese nula é falsa, β aumenta à medida que o valor do parâmetro se aproxima
do valor usado na hipótese nula. O valor de β diminui à medida que aumenta a diferença
entre a média verdadeira e o valor utilizado na hipótese.
Usualmente o pesquisador controla a probabilidade a do erro tipo I quando ele ou ela seleciona os
valores críticos. Assim, geralmente é fácil para o analista estabelecer a probabilidade de erro tipo I
em (ou perto de) qualquer valor desejado. Uma vez que o analista pode controlar diretamente a
probabilidade de rejeitar erroneamente Ho, sempre pensamos na rejeição da hipótese nula Ho como
uma conclusão forte.
Por outro lado, a probabilidade β do erro tipo II não e constante, mas depende do valor
verdadeiro do parâmetro. Ela depende também do tamanho da amostra que tenhamos selecionado.
Pelo fato de a probabilidade β do erro tipo II ser uma função do tamanho da amostra e da extensão
com que a hipótese nula Ho e falsa, costumam-se pensar na aceitação de Ho como uma conclusão
fraca, a menos que saibamos que β seja aceitavelmente pequena. Conseqüentemente, em vez de
dizer "aceitamos Ho", preferimos a terminologia "falhamos em rejeitar Ho". Falhar em rejeitar H0,
implica que não encontramos evidencia suficiente para rejeitar Ho, ou seja, para fazer uma afirmação
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
39
forte. Falhar em rejeitar H0, não significa necessariamente que haja uma alta probabilidade dc que
Ho seja verdadeira (isso pode significar simplesmente que mais dados são requeridos para atingir
uma conclusão forte (isso pode ter implicações importantes para a formulação das hipóteses.
Um importante conceito de que faremos uso e o do poder de um teste estatístico.
Definição 10: O Poder de um teste estatístico é a probabilidade de rejeitar a hipótese nula H0,
quando a hipótese alternativa é verdadeira.
O poder do teste é calculado como 1 - β e pode ser interpretada como a probabilidade de
rejeitar corretamente uma hipótese nula falsa. Freqüentemente, comparamos testes
estatísticos através da comparação de suas propriedades de poder Por exemplo, considere o
problema da taxa de queima de propelente, quando estamos testando Ho: µ = 50 cm/s contra H1: µ
≠ 50 cm/s. Suponha que o valor verdadeiro da media seja µ = 52. Quando n = 10, encontramos que
β = 0,2643; assim, o poder deste teste é 1 - β ~ 1 - 0,2643 = 0.7357 quando µ ~ 52.
O poder do teste é uma medida muito descritiva e concisa da sensibilidade de um teste
estatístico em que por sensibilidade tendemos a habilidade do teste de detectar diferenças. Nesse
caso. a sensibilidade do teste para detectar a diferença entre a taxa media de queima de 50 cm/s e
52 cmls é 0.7357. Isto é, se a média verdadeira for realmente 52 cm/s esse teste rejeitará
corretamente Ho: µ = 50 e "detectara" essa diferença em 73.57% das vezes. Se esse valor de poder
for julgado como sendo muito baixo, o analista poderá aumentar tanto αααα como o tamanho da
amostra n.
33 .. 77 .. 33 .. PP RR OO CC EE DD II MM EE NN TT OO GG EE RR AA LL PP AA RR AA UU MM TT EE SS TT EE DD EE HH II PP ÓÓ TT EE SS EE SS ::
A seqüência de etapas necessárias para aplicação de um teste de hipóteses pode ser definida
da seguinte forma:
Procedimento Padrão:
• Estabelecer as hipóteses nula (H0) e alternativa (H1) de interesse no problema;
• Escolha um nível de significância α (Probabilidade de erro tipo I) para o
problema;
• Identifique a estatística apropriada às hipóteses estabelecidas inicialmente;
• Definir a forma da região crítica, ou seja, valores para os quais a hipótese nula é
rejeitada;
• Calcule, a partir dos dados amostrais, o valor da estatística de teste;
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
40
• Decidir se H0 deve ser rejeitada ou não, ou seja, verificar se a estatística de teste
acima calculada pertence ou não a região critica.
Procedimento Alternativo: Uso do valor “p” (p-value)
• Estabelecer as hipóteses nula (H0) e alternativa (H1) de interesse no problema;
• Escolha um nível de significância α (Probabilidade de erro tipo I) para o
problema;
• Identifique a estatística apropriada às hipóteses estabelecidas inicialmente;
• Definir a forma da região crítica, ou seja, valores para os quais a hipótese nula é
rejeitada;
• Calcule, a partir dos dados amostrais, o valor da estatística de teste e o seu
respectivo valor p;
• Decidir se H0 deve ser rejeitada ou não, ou seja, verificar se o valor p é menor ou
maior que o nível de significância α. Se:
Valor p < α ⇒ rejeitar H0
Valor p > α ⇒ não rejeitar H0
33 .. 77 .. 44 .. TT EE SS TT EE DD EE HH II PP ÓÓ TT EE SS EE SS PP AA RR AA MM ÉÉ DD II AA CC OO MM VV AA RR II ÂÂ NN CC II AA
DD EE SS CC OO NN HH EE CC II DD AA ::
O problema está restrito ao estudo de um único tratamento sobre o qual existe interesse em
se verificar o grau de eficiência com respeito a uma dada medida de interesse. Em geral, problemas
nesta situação têm por objetivo fazer inferência sobre uma característica especifica da população em
estudo.
EXEMPLO:
Uma máquina produz peças cujo controle de qualidade é realizado com base no diâmetro da
peça. Para a peça ser considerada sob controle o diâmetro da mesma deve ser igual a µ0.
Problema:
Como verificar se a produção diária da peça pode ser considerada sob controle ou não?
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
41
Solução Usual:
Observa-se uma amostra aleatória de n peças da produção diária registrando-se o valor do
diâmetro de cada uma. Com os dados observados é verificado se o diâmetro médio das peças pode
ser ou não considerado igual a µ0.
ANÁLISE ESTATÍSTICA:
Seja:
X : medida de interesse – diâmetro da peça no exemplo;
(X1, X2, ... , Xn) é uma amostra aleatória simples desta característica; ondição muito
importante)
Suposição Usual:
X1, X2, ... , Xn ~ N (µµµµ, σσσσ2)
A medida de interesse pode ser representada por um modelo normal com parâmetros µµµµ e
σσσσ2.e a \distribuição seja pequena.
Consideremos:
∑= iXn1
X ( )∑ −−
= 2i
2 XX1n
1S α = erro tipo I
No exemplo:
Hipótese Nula: A produção diária de peças esta sob controle.
Sob ponto de vista estatístico: O diâmetro médio das peças é igual a µ0.
Ho : µµµµ = µµµµo
Possíveis Alternativas:
i) H1 : µ ≠ µo ( o diâmetro médio é diferente de µo – teste bilateral)
ii) H1 : µ > µo (o diâmetro médio é maior que µo – teste unilateral)
iii) Ho : µ < µo (o diâmetro médio é menor que µo – teste unilateral)
Considerando σ2 desconhecido, a estatística de teste para H0 é dada por:
nS/
µXt oc
−= ~ tn-1
logo, rejeita-se Ho se:
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
42
i) | tc | > tn-1; αααα/2
ii) tc > tn-1; αααα
iii) tc < - tn-1; αααα
ALTERNATIVA:
Associado a tc é possível determinar o “valor p” (nível mínimo de significância) dado por P
[|t| > tc].
O valor p é a probabilidade, calculada sob a suposição de que H0 é verdadeira, de que a
estatística de teste assumirá um valor que seja ao menos tão ou mais extremo do que o valor
realmente observado. Valores pequenos de P indicam uma forte evidência contra H0. Extremo
aqui significa “distante do que seria de se esperar caso H0 fosse verdadeira”. As direções em que se
mede essa “distância do valor esperado” são determinadas pela hipótese alternativa H1. O cálculo
dos valores de P requer que se conheça a distribuição amostral da estatística de teste quando H0 é
verdadeira.
Uma maneira de avaliar se o valor P é pequeno o suficiente ao ponto de rejeitarmos H0 é fixar
antecipadamente quanta evidência é necessária para se rejeitar H0. Esse nível decisivo é α. Se o
valor P for tão pequeno ou menor do que um valor especificado α, os dados são estatisticamente
significantes ao nível de significância α.
Assim rejeita-se H0 se:
i) p-valor < αααα
ii) (p-valor)/2 < αααα
iii) (p-valor)/2 < αααα
Cuidado: Verificar a forma que o software utilizado calcula o p-valor.
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
43
Vantagem: Não é necessário o conhecimento do valor de referência tn-1;αααα/2, tn-1;αααα ou - tn-1;αααα.
OBSERVAÇÃO:
Os valores de P são exatos se a distribuição populacional for normal, e nos demais casos, são
aproximadamente corretos para grandes amostras (uso do TLC).
Exemplo:
A resistência do concreto a compressão esta sendo testada por um engenheiro civil. Foram
testados 12 corpos de prova com o objetivo de verificar se a resistência do concreto pode ser
considerada igual a 2250 psi. Os resultados obtidos nos 12 corpos foram:
2216; 2237; 2249; 2204; 2225; 2301;2281;2263; 2318; 2255; 2275; 2295;
a) Enuncie e teste a hipótese de interesse;
a.1) Considere nível de significância α=5%
a.2) Calcule o p valor para a estatística
a.3) Qual a conclusão para a hipótese definida?
b) Como ficaria a análise do item a) se o interesse for em verificar se a resistência do concreto
pode ser superior a 2250?
33 .. 77 .. 55 .. TT EE SS TT EE DD EE HH II PP ÓÓ TT EE SS EE SS PP AA RR AA MM ÉÉ DD II AA CC OO MM VV AA RR II ÂÂ NN CC II AA
CC OO NN HH EE CC II DD AA ::
Neste caso, são validos todos os pressupostos apresentados no tópico anterior exceto que:
Considerando σ2 conhecido, a estatística de teste para H0 é dada por:
ZZ ~nS/
µX oc
−= onde Z ~N (0,1)
logo, rejeita-se Ho se:
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
44
i) | Zc | > Z αααα/2
ii) Zc > Z αααα
iii) Zc < - Zαααα
33 .. 77 .. 66 .. TT EE SS TT EE DD EE HH II PP ÓÓ TT EE SS EE SS PP AA RR AA VV AA RR II ÂÂ NN CC II AA ::
No problema de um tratamento usualmente estamos interessados em medir a eficiência do
mesmo segundo uma medida de interesse. Porém em várias situações, particularmente em
problemas de controle de qualidade, além de uma medida de eficiência do tratamento, existe
interesse no comportamento da variabilidade da medida de interesse. Nestes casos surge a
necessidade de teste de hipóteses a cerca da variância da medida de interesse, ou seja:
Ho : σ = σ2o
H1 :
<>≠
2
2
2
o
o
o
σσσσσσσσσσσσσσσσσσσσσσσσ
A estatística de teste, neste caso é dada por:
( ) 21n2
o
22 ~
σ
/S1n−
−= χχ c
sendo:
( )∑ −
−=
n 2i
2 XX1n
1S
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
45
21n−χ = modelo quiquadrado com n-1 graus de liberdade
Fixando α Rejeita-se Ho se
i) 2
21 1;-n
2c
22/ 1;n
2 ou αα χχχχ−− <>c
ii) 2 1;n
2 αχχ −>c
iii) 2 -1 ;1n
2 αχχ −<c
De forma análoga ao caso do teste de hipótese da média, podemos obter o p-valor
associado a c2χχχχ dado por [ ]2
cn P χχχχχχχχ >−2
1 .
Exemplo: No exemplo anterior verifique se a variância da resistência do concreto é ou não superior
a 34?
33 .. 77 .. 77 .. TT EE SS TT EE DD EE HH II PP ÓÓ TT EE SS EE SS PP AA RR AA DD II FF EE RR EE NN ÇÇ AA DD EE MM ÉÉ DD II AA SS :: Comparar duas populações ou dois tratamentos é uma das situações mais comuns na prática
estatística. Uma pergunta que aparece freqüentemente em qualquer problema de experimentação é
a seguinte: O tratamento (método) A é melhor (mais eficiente) que o tratamento (método) B?
Sob ponto de vista estatístico, isto significa comparar dois tratamentos a partir de dois
conjuntos de números resultantes das medidas obtidas da aplicação dos mesmos às unidades
experimentais (objetos, indivíduos,...). Para comparar as respostas de dois tratamentos ou
populações pode-se usar planos de pares equiparados ou comparar amostras aleatórias selecionadas
separadamente de cada população ou tratamento, não tendo nenhuma equiparação das unidades
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
46
das duas amostras. Os procedimentos de inferência para dados de duas amostras e pares
equiparados são diferentes.
OBJETIVO:
A investigação de interesse tem por objetivo a comparação do efeito produzido por dois
tratamentos (grupos, tratamentos, populações, ...).
Consideremos o seguinte Exemplo: Dois diferentes métodos (tratamentos) são submetidos
aleatoriamente a um grupo de unidade experimentais.
Hipótese: Qual dos métodos é mais eficiente: B é mais eficiente que A?
y1 = nota do método A
y2 = nota do método B
Ho : µµµµA = µµµµB
H1 : µµµµB > µµµµA
Consideremos os seguintes resultados:
Estatísticas Tratamentos
A B
amostra ni 8 8
Média y 5.0 7.0
variância S2 4.0 1.71
Diferença da média = 2YY AB =−=− 57 , ou seja, a média de B é 40% superior à de A.
Uma primeira conclusão: B é mesmo superior a A !
Seja:
yij = observação i-ésimo tratamento para o j-ésimo indivíduo. i = 1,2; j = 1, ... , 8
Suposição yi ~ N (µµµµi, σσσσ2i) (*).
Problema: Sob a suposição acima, nosso problema consiste na comparação de médias de duas
populações normais, ou seja, para o problema acima temos:
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
47
Variâncias são iguais ?
33 .. 77 .. 77 .. 11 .. TT EE SS TT EE DD EE HH II PP ÓÓ TT EE SS EE SS PP AA RR AA DD UU AA SS VV AA RR II ÂÂ NN CC II AA SS ::
Situações:
≠=
22
222
σσσσσσσσσσσσσσσσσσσσ 2
1
21
i conhecidos
≠=
22
222
σσσσσσσσσσσσσσσσσσσσ 2
1
21
i dosdesconheci
Suponha que temos duas amostras aleatórias independentes, de tamanhos n e m,
selecionadas de duas populações normais com a mesma variância σ2. Indiquemos os estimadores
de σ2 obtidos das amostras por 2AS e 2
BS , respectivamente Sejam U e V duas variáveis
aleatórias independentes, cada uma com distribuição qui-quadrado, com n-1 e m-1 graus de
liberdade, respectivamente, isto é, a v.a. ( ) 2
1n2
2
~σ
/S1n−
−= χAU e a v.a. ( ) 2
1m2
2
~σ
/S1m−
−= χBV
Então, a v.a. ( )
1;12B
2
2A
2
~σ/S
σ/S
)1/(
1n/−−=
−−
mnB
A FmV
U
Suposições:
• As duas populações são independentes.
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
48
• Cada uma das populações é normalmente distribuída. Esta suposição é importante porque os
procedimentos para variância são muito sensíveis a distribuições não normais.
A forma da distribuição é exatamente:
Forma Geral da Distribuição F
• É assimétrica;
• Valores da distribuição F são positivos;
• As distribuições F são umas famílias de distribuições com dois parâmetros. Os parâmetros são
os números de graus de liberdade das variâncias amostrais no numerador e denominador da
estatística F.
Essa variável é usada no teste para variância apresentado a seguir.
• Teste para igualdade de duas variâncias:
H0 : 222 σσσ == BA
H1 :
<>≠
22
22
22
BA
BA
BA
σσσσσσ
Sob a suposição de H0 é verdadeira, isto é, 222 σσσ == BA temos que a estatística de teste neste caso
é dada por:
1;12
2
~ −−= mnB
Ac F
S
SF
Fixando α, encontramos os pontos críticos (tabelado) para a distribuição F, assim rejeita-se Ho se:
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
49
( )21;1;1c2/;1;1 Fou αα −−−−− <>mnmnc FFF
;1;12
2
α−−>= mnB
Ac F
S
SF
( ) 1;1;12
2
α−−−<= mnB
Ac F
S
SF
O intervalo de confiança é obtido a partir da expressão:
α−=≤≤ −− 1)( 21;11 fFfP mn
α−=≤≤ 1)~σS
σS( 22
A2
2B
2
1 ffPB
A
Assim, IC(2
2
A
B
σσ
; 1-α ):
]S
S;
S
S[ 22
2
2
2
1 ffA
B
A
B
Tabelas de pontos críticos da F são mais difíceis de manejar, pois precisamos de uma tabela
separada para diferentes valores de α. A tabela fornecida apresenta os pontos críticos p superiores
das distribuições F para p=0,10; 0,05; 0,025; 0,01 e 0,001
Em geral, só temos tabelas da distribuição F correspondente à cauda à direita. Ou seja, não temos
disponível tabela que forneça F(12,6;0,90).
Pode-se mostrar que F(n-1, m-1; α)= 1/ F( m-1,n-1; (1-α)).
Assim, 1f =F(12,6;0,90)=1/F(6,12;0.10)
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
50
33 .. 77 .. 77 .. 22 .. TT EE SS TT EE DD EE HH II PP ÓÓ TT EE SS EE SS PP AA RR AA DD II FF EE RR EE NN ÇÇ AA DD EE MM ÉÉ DD II AA SS ::
Consideremos a situação em que os são dosdesconheci i2σσσσ :
a) σσσσ2i = σσσσ2
2 = σσσσ2
Fixado α = erro tipo I = Prob [ rej. H0/H0 é V], temos que a estatística de teste para:
Ho : µµµµA = µµµµB
H1 : µµµµB ≠ µµµµA
é dada por:
( ) ( )
21
ABc
n
1
n
1Sp
YYt
+
−−−= AB µµ
( ) ( )2nn
S1nS1nS
21
222
2112
p −+−+−
=
( )∑ −−
= 2ii
i
2i yy
1n
1S i= 1,2
Hipótese alternativa no caso geral,
H1 : µµµµB ≠≠≠≠ µµµµA
H1 : µµµµB > µµµµA
H1 : µµµµB < µµµµA
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
51
temos que a estatística de teste tc ~ tn1+n2-2, portanto, rejeita-se Ho se
• i)| tc | > tn1+n2-2; αααα/2
• tc > tn1+n2-2; αααα
• tc < - tn1+n2-2; αααα
Alternativa: Cálculo do p-valor conforme apresentado anteriormente.
Intervalo de confiança para a diferença AB µµ −
Assim, IC( AB µµ − ; 1-α ): ])(;)[(2121
11*11*nnpABnnpAB stxxstxx ++−+−−
b) σσσσ2i ≠≠≠≠ σσσσ2
2
Nas situações onde a hipótese de igualdade das variâncias dos diferentes tratamentos é
rejeitada, temos que a estatística para se testar:
Ho : µµµµA = µµµµB
H1 : µµµµA > µµµµB
é dada por:
( ) ( )
2
2B
1
2A
ABABc
n
S
n
S
YYt
+
−−−=
µµµµµµµµ
( )∑ −−
= 2ii
i
2i yy
1n
1S
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
52
a diferença é que neste caso podemos mostrar que: tc ~ tv sendo:
11 2
2
2
2
1
2
1
2
2
2
2
−
+−
+
=
n
nS
n
nS
n
S
n
S
v
BA
B
1
2A
Hipótese alternativa no caso geral,
H1 : µµµµB ≠≠≠≠ µµµµA
H1 : µµµµB > µµµµA
H1 : µµµµB < µµµµA
e rejeita-se Ho se
• | tc | > tv; αααα/2
• tc > tv; αααα
• tc < - tv; αααα
Retornando ao exemplo 1:
a) Teste de igualdade de variâncias:
3392711
42
2.
.S
SF
B
Ac ===
[ ]( ) 28401420233922 77 ..*.FP*valorp , ==>=−
logo:
b) Teste de Igualdade de Médias:
( ) ( ) ( )68918552
288
71147.S .
.*2nn
S1nS1nS p
21
222
2112
p =⇒=−+
+=−+
−−=
Capítulo 3 – Introdução a Probabilidade e a Inferência Estatística
Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta
53
( ) ( )3682
8
1
8
16891
57.
.n1
n1
Sp
YYt
21
ABABc =
+
−=+
−−−=
µµµµµµµµ
[ ]( ) 01640368214 ..tPvalorp =>=−
Observação:
Nos casos de variâncias conhecidas as estatísticas de teste são as mesmas substituindo-se S
(estima da amostra) por σ (valor conhecido) e a distribuição de referência passa da t para a normal.