apontamentos te¶oricos de probabilidades e estat¶‡sticajgama/ficheiros/apontamentos.pdf · 1.4...

58
UNIVERSIDADE DA BEIRA INTERIOR ApontamentosTe´oricos de Probabilidades e Estat´ ıstica Jorge Gama Ano Lectivo 2005/2006 0

Upload: dinhdiep

Post on 07-Nov-2018

218 views

Category:

Documents


2 download

TRANSCRIPT

UNIVERSIDADE DA BEIRA INTERIOR

Apontamentos Teoricosde

Probabilidades e Estatıstica

Jorge Gama

Ano Lectivo 2005/2006

0

Capıtulo 1

Teoria das Probabilidades

1.1 Introducao

Na Estatıstica Descritiva descreveram-se e analisaram-se conjuntos de observacoes relativas a fenomenos aleato-rios. Neste campo os conceitos estatısticos estabelecidos eram empıricos. Embora esse estudo seja importante,e sem duvida limitado quando se pretende analisar e interpretar ou tomar decisoes no contexto dos fenomenosem estudo.

Neste capıtulo estudaremos as nocoes basicas da Teoria das Probabilidades, teoria esta que e o suporte sobrea qual assenta a teoria da analise, interpretacao e tomadas de decisao no contexto do estudo dos fenomenosaleatorios, isto e, a Inferencia Estatıstica

A Teoria das Probabilidades (ou calculo das probabilidades) pode caracterizar-se como o modelo matematicodas “regularidades”que se observam nas distribuicoes de frequencias correspondentes aos fenomenos aleatorios

Todo o modelo matematico parte de determinadas propriedades basicas: os axiomas.No entanto, antes de abordarmos os axiomas da Teoria das Probabilidades e necessario introduzirmos/com-

preendermos determinados conceitos.Um fenomeno diz-se aleatorio quando o acaso interfere na ocorrencia de um ou mais dos resultados nos

quais tal fenomeno se pode traduzir. Conjugando determinado numero de condicoes, um resultado aleatoriopode ocorrer ou nao. Assim, um fenomeno aleatorio caracteriza-se fundamentalmente pelo seguinte:

a) Pode ser repetido inumeras vezes em identicas condicoes.

b) Nao se pode afirmar qual o resultado da realizacao de uma repeticao antes da sua realizacao.

c) Apesar de os resultados das experiencias se mostrarem irregulares, verifica-se que os resultados obtidos aocabo de uma longa repeticao da experiencia apresentam regularidade estatıstica

Exemplos 1.1

1. Considere-se o lancamento ao ar de uma moeda e registo da face voltada para cima.

Observacao 1.1 No caso de uma moeda perfeita, repetido o lancamento um numero elevado de vezesverifica-se aproximadamente o mesmo numero de faces e coroas, isto e, pode prever-se qual a proporcaode faces e coroas num grande numero de lancamentos (regularidade estatıstica).

2. Lancamento de um dado e registo do numero de pontos obtidos.

3. Extraccao de uma carta de um baralho e registo das suas caracterısticas.

4. Seleccao ao acaso de um habitante de uma cidade com o objectivo de conhecer as suas despesas mensais.

5. Observacao do sexo de um recem-nascido numa serie de nascimentos.

1.2 Espaco de Resultados

Definicao 1.1 O conjunto de todos os resultados possıveis associados a uma experiencia aleatoria denomina-se espaco de resultados (ou espaco-amostra, ou espaco amostral, ou espaco universal, ou, ainda, espacofundamental)

1

Notacao 1.1 O espaco de resultados associado a uma dada experiencia aleatoria sera designado por Ω. Qual-quer resultado individual e designado por ω (ω ∈ Ω).

Observacao 1.2 Os elementos de Ω podem ser numeros, sequencias de numeros, atributos ou grupos de atri-butos ou, ainda, uma combinacao de elementos quantitativos e qualitativos.

Exemplos 1.2

1. No lancamento de uma moeda se designarmos por F a face e por C a coroa, o espaco de resultados eΩ = F, C.

2. No lancamento de um dado de seis faces existem seis resultados possıveis. Designando por j, comj = 1, . . . , 6, o resultado que consiste na “aparicao da face com o numero j de pontos”, o espaco de re-sultados e

Ω = 1, 2, 3, 4, 5, 6.

3. No lancamento de uma moeda e de um dado, o espaco de resultados podera ser descrito por:

Ω = F1, F2, F3, F4, F5, F6, C1, C2, C3, C4, C5, C6.

1.3 Acontecimentos Aleatorios

Definicao 1.2 Os subconjuntos de Ω designam-se por acontecimentos.

Notacao 1.2

1. Os acontecimentos serao designados por letras maiusculas (A, B, C, . . . , A1, A2, . . . ).

2. Representaremos por P(Ω) as partes de Ω, isto e, o conjunto de todos o acontecimentos de Ω.

Observacoes 1.3

1. Obviamente, Ω e um acontecimento (dito acontecimento certo) ( Ω ∈ P(Ω)).

2. Ao acontecimento formado por um unico elemento (ω) damos a designacao de acontecimento elemen-tar.

3. O acontecimento ∅ denomina-se de acontecimento impossıvel ( ∅ ∈ P(Ω)).

Exemplo 1.3 No lancamento de duas moedas

Ω = (F, F ), (F, C), (C,F ), (C, C)

ou, simplesmente,Ω = FF, FC, CF, CC .

Acontecimentos elementares: FF, FC, CF e CC.Outros acontecimentos:A = FC, CF ≡ saıda de exactamente uma face (ou de exactamente uma coroa);B = FF, FC ≡ saıda de face na 1a moeda;C = FC, CF, CC ≡ saıda de pelo menos uma coroa

1.3.1 Principais Conceitos da Algebra de Acontecimentos

Como, por definicao, os acontecimentos sao conjuntos, podemos concluir que existe paralelismo entre a algebrados conjuntos e a algebra dos acontecimentos. Assim, podemos usar os sımbolos: ⊂, ⊃, ⊆, ⊇, =, ∪, ∩, \, etc.

Questoes de Linguagem

Quando se diz que um acontecimento ocorre (se realiza) e porque se observou a ocorrencia (realizacao)de um seu elemento no contexto de uma experiencia aleatoria. Por exemplo, no lancamento de um dado de seisfaces, se a face voltada para cima era o elemento 2, entao o acontecimento 1, 2, 3 ocorreu.

Sejam Ω um espaco de resultados e A e B acontecimentos de Ω.

2

1) A ocorrencia (realizacao) de A implica a ocorrencia de B se, e somente se, todo o elemento de A e elementode B. Escreve-se, entao, A ⊂ B.

2) A e B sao identicos se, e somente se, a ocorrencia de um implica a ocorrencia do outro, isto e, A ⊂ B eB ⊂ A. Escreve-se A = B.

3) Interseccao ou produto logico de A por B e o acontecimento que ocorre se, e somente se, A e B ocorremsimultaneamente. Representa-se este acontecimento por A ∩B (ou AB).

4) Reuniao entre os acontecimentos A e B e o acontecimento que ocorre se, e somente se, A ou B ocorre, istoe, pelo menos um deles. Representa-se este acontecimento por A ∪B.

5) A e B dizem-se incompatıveis se, e somente se, a ocorrencia de um deles implica a nao ocorrencia do outro,isto e, A ∩B = ∅.Os acontecimentos A1, A2, . . . , An dizem-se mutuamente exclusivos se, e somente se, Ai ∩Aj = ∅, para

i 6= j.

6) Diferenca entre B e A e o acontecimento que ocorre se, e somente se, B ocorre sem que ocorra A.Representa-se por B \A (ou B −A).

7) Quando A ⊂ B, B \A e o acontecimento complementar de A em relacao a B.

Em particular, Ω\A designa-se por acontecimento complementar (contrario) de A e ocorre se, e somentese, A nao ocorre. E usual representar-se por A.

Nota: A ∩A = ∅ e A ∪A = Ω.

8) Diferenca simetrica entre A e B e o acontecimento que ocorre se, e somente se, ou ocorre A ou ocorre B,isto e, ocorre um e um so dos acontecimentos, ou ainda, ocorre A ou B, mas nao simultaneamente os dois.Este acontecimento representa-se por A∆B e A∆B = (A \B) ∪ (B \A) = (A ∪B) \ (A ∩B).

3

Proposicoes 1.1 Sejam Ω um espaco de resultados associado a uma dada experiencia aleatoria eA,B, C ∈ Ω.

1. A operacao reuniao (resp. interseccao) e associativa:

A ∪ (B ∪ C) = (A ∪B) ∪ C (A ∩ (B ∩ C) = (A ∩B) ∩ C) .

2. A operacao reuniao (resp. interseccao) e comutativa:

A ∪B = B ∪A (A ∩B = B ∩A) .

3. A operacao reuniao (resp. interseccao) e distributiva relativamente a operacao interseccao (resp. reuniao):

A ∪ (B ∩ C) = (A ∪B) ∩ (A ∪ C) (A ∩ (B ∪ C) = (A ∩B) ∪ (A ∩ C)) .

4. A operacao reuniao (resp. interseccao) e idempotente:

A ∪A = A (A ∩A = A) .

5. i) A ⊂ B ⇒ A ∪B = B ii) A ⊂ B ⇒ A ∩B = A.

6. i) A ∪ Ω = Ω ii) A ∪ ∅ = A iii) A ∩ Ω = A iv) A ∩ ∅ = ∅.7. Leis de De Morgan:

i) A ∪B = A ∩B ii) A ∩B = A ∪B.

8. A \B = A ∩B.

9. A = A.

10. i) (A ∩B) ∪ (A ∩B) = A ii) (A ∩B) ∩ (A ∩B) = ∅.

1.4 Axiomas da Teoria das Probabilidades

Definicao 1.3 Seja Ω um espaco de resultados associado a uma dada experiencia aleatoria. Chama-se proba-bilidade a uma funcao P : P(Ω) −→ R que satisfaz os seguintes axiomas:

(A1) P (A) ≥ 0; para todo o acontecimento A.

(A2) P (Ω) = 1;

(A3) Se A1, A2, A3, . . . , sao acontecimentos mutuamente exclusivos, isto e, Ai ∩Aj = ∅, para i 6= j, entao

P

i≥1

Ai

=

i≥1

P (Ai) .

Proposicoes 1.2 Sejam Ω um espaco de resultados e A, B e C tres acontecimentos, quaisquer.

1. P(A

)= 1− P (A);

2. P (∅) = 0;

4

3. P (A \B) = P (A)− P (A ∩B);

4. P (A ∪B) = P (A) + P (B)− P (A ∩B);

5. P (A ∪B) ≤ P (A) + P (B);

6. A ⊆ B ⇒ P (A) ≤ P (B);

7. 0 ≤ P (A) ≤ 1;

8. P (A∆B) = P (A) + P (B)− 2P (A ∩B);

9. P (A ∪B ∪ C) = P (A) + P (B) + P (C)− P (A ∩B)− P (A ∩ C)− P (B ∩ C) + P (A ∩B ∩ C).

1.5 Espacos de Resultados Finitos. Definicao Classica de Probabi-lidade

Suponhamos que o espaco de resultados Ω e finito. Entao Ω = ω1, ω2, . . . , ωn. Vamos admitir a hipotese deequiprobabilidade, isto e, vamos admitir que

P (ω1) = P (ω2) = · · · = Pωn).Assim, podemos deduzir que o valor comum destas probabilidades e 1

n . De facto tem-se

P (Ω) = 1 ⇔⇔ P

(n⋃

i=1

ωi)

= 1

⇔n∑

i=1

P (ωi) = 1

⇔ nP (ωj) = 1, para j = 1, . . . , n

⇔ P (ωj) =1n

, para j = 1, . . . , n.

E para qualquer acontecimento A = ωi1 , ωi2 , . . . , ωim, obtemos, por processos analogos,

P (A) =m

n.

Isto e, a probabilidade de um acontecimento e o quociente entre o numero de resultados (casos) favoraveisa ocorrencia do acontecimento e o numero de resultados possıveis considerados como equiprovaveis (RegraClassica de Laplace):

P (A) =no de casos favoraveisno de casos possıveis

=#A

#Ω.

1.6 Probabilidades Condicionadas. Independencia

Definicao 1.4 Sejam Ω um espaco de resultados e A e B dois acontecimentos, em que P (B) > 0. A novafuncao

P (A|B) =P (A ∩B)

P (B)

denomina-se probabilidade condicional (ou condicionada) de A (por B).

Observacoes 1.4

1. Obviamente, com B fixo, P ( . |B) satisfaz os axiomas das probabilidades.

2. P (A|B) ≡ prob. de ocorrer A, dado que ocorreu B (ou prob. de A condicionada pela realizacao de B).

Teorema 1.3 Sejam A1, A2, . . . , An acontecimentos tais que P (A1 ∩A2 ∩ . . . ∩An−1) > 0. Entao

P (A1 ∩A2 ∩ . . . ∩An) = P (A1)P (A2|A1)P (A3|A1 ∩A2) · · ·P (An|A1 ∩A2 ∩ . . . ∩An−1).

5

Definicao 1.5 Dois acontecimentos A e B dizem-se independentes se, e somente se,

P (A ∩B) = P (A) · P (B).

Dois acontecimentos sao independentes se a probabilidade da ocorrencia de um nao afecta a probabilidadeda ocorrencia do outro. O teorema seguinte justifica esta afirmacao.

Teorema 1.4 Os acontecimentos A e B de probabilidade positiva sao independentes se, e somente se,P (A|B) = P (A) (ou P (B|A) = P (B)).

Definicao 1.6 Os acontecimentos A1, A2, . . . , An sao mutuamente independentes se, e somente se, para todosos inteiros i1, i2, . . . , ik, satisfazendo as condicoes

1 ≤ i1 < i2 < i3 < · · · < ik ≤ n,

se tem

P (Ai1 ∩Ai2 ∩ . . . ∩Aik) = P (Ai1)P (Ai2) · · ·P (Aik

).

Exemplo 1.4 Considerem-se 4 cartas numeradas de 1 a 4. Tira-se ao acaso uma carta e admita-se a hipotesede equiprobabilidade.

Sejam:E1 = “a carta retirada e 1 ou 4”;E2 = “a carta retirada e 1 ou 3”;E3 = “a carta retirada e 1 ou 2”.

Observe-se que P (E1) = P (E2) = P (E3) =12

e P (E1 ∩ E2) =14

=12× 1

2= P (E1) · P (E2). Logo, E1 e E2

sao independentes.Analogamente, pode mostrar-se que E1 e E3 sao independentes, assim como E2 e E3. No entanto, os tres

acontecimentos nao sao independentes, pois

P (E1 ∩ E2 ∩ E3) =14

eP (E1) · P (E2) · P (E3) =

12× 1

2× 1

2=

18.

Teorema 1.5 (Teorema da Probabilidade Total) Sejam A1, A2, . . . , An acontecimentos mutuamente ex-clusivos (Ai ∩ Aj = ∅, para i 6= j) e exaustivos (∪n

i=1Ai = Ω). Se P (Ai) > 0, para i = 1, . . . , n, entao, paraqualquer acontecimento B,

P (B) = P (B|A1) · P (A1) + P (B|A2) · P (A2) + · · ·+ P (B|An) · P (An)

=n∑

i=1

P (B|Ai) · P (Ai).

Observacao 1.5 Quando os acontecimentos sao mutuamente exclusivos e exaustivos e vulgar utilizar o termoparticao (de Ω) para os designar. Observe o diagrama seguinte:

Observe ainda que B = (B ∩A1) ∪ (B ∩A2) ∪ . . . ∪ (B ∩An).

6

Corolario 1.6 Seja A um acontecimento tal que 0 < P (A) < 1. Entao, para qualquer acontecimento B,

P (B) = P (B|A) · P (A) + P (B|A) · P (A).

Teorema 1.7 (Teorema de Bayes) Sejam A1, A2, . . . , An acontecimentos mutuamente exclusivos e exausti-vos. Se P (Ai) > 0, para i = 1, . . . , n, e B e um acontecimento tal que P (B) > 0, entao

P (Aj |B) =P (B|Aj) · P (Aj)

n∑

i=1

P (B|Ai) · P (Ai)

, i = 1, 2, . . . , n.

Esta formula e conhecida por formula de Bayes ou formula das probabilidades a posteriori.

7

8

Capıtulo 2

Variaveis Aleatorias Reais.Distribuicoes de Probabilidade

2.1 Definicao de Variavel Aleatoria

E sabido que numa experiencia aleatoria o espaco de resultados, Ω, pode ter ou nao caracter quantitativo. Porexemplo, no lancamento de uma moeda o espaco de resultados que lhe esta associado tem caracter qualitativo,mas se no lancamento de tres moedas estivermos interessados no numero de faces, o espaco de resultados quelhe esta associado ja tem caracter quantitativo.

A aplicacao de procedimentos estatısticos passa, correntemente, pela atribuicao de um numero real a cadaelemento ω ∈ Ω. Essa atribuicao pode ser ate puramente convencional. No entanto, esta atribuicao tera que serfeita com cuidado por forma a podermos calcular a probabilidade de ocorrencia de valores em intervalos reais.Daı a definicao seguinte.

Definicao 2.1 Seja Ω um espaco de resultados associado a uma dada experiencia aleatoria. Chama-se variavelaleatoria (abreviadamente, v.a.) a uma funcao X : Ω −→ R tal que Ar = ω ∈ Ω : X(ω) ≤ r, com r ∈ R,seja um acontecimento.

Notacao 2.1 E usual representarem-se as variaveis aleatorias pelas ultimas letras maiusculas: X, Y , Z, W ,X1, X2, . . . , Y1, . . . .

O restricao imposta a funcao X tem como objectivo que o seu contradomınio seja um novo espaco de resul-tados em que a cada um dos seus elementos associa-se uma probabilidade, calculavel a partir das probabilidadesde ocorrencia dos resultados iniciais.

As vantagens da utilizacao de variaveis aleatorias torna-se evidente em muitos casos que nos irao surgindo.Uma dessas vantagens surge em inumeros casos onde nao interessa apreciar os elementos de Ω com todos ospormenores de que se revestem, mas sim focarmos a nossa atencao na caracterıstica numerica em estudo. Osexemplos seguintes ilustram este ponto de vista.

Exemplos 2.1

1. O espaco de resultados associado ao lancamento de uma moeda tres vezes pode ser definido por

Ω = FFF, FFC, FCF, FCC, CCC, CCF, CFF, CFC.

Considere-se a seguinte variavel aleatoria:

X = numero de faces.

Esta variavel aleatoria tem como contradomınio Ω′ = 0, 1, 2, 3 e, admitindo-se a hipotese de equiprobabili-dade,

9

P (X = 0) = P (CCC) =18

P (X = 1) = P (FCC,CCF, CFC) =38

P (X = 2) = P (FFC, FCF, CFF) =38

P (X = 3) = P (FFF) =18

A partir dos calculos anteriores podemos calcular a probabilidade de outros acontecimentos. Por exemplo, aprobabilidade de ocorrer pelo menos duas faces:

P (X ≥ 2) = P (X = 2) + P (X = 3) =12.

Ou ainda, a probabilidade de ocorrer menos de 3 faces:

P (X < 3) = 1− P (X = 3) =78.

2. Considere-se uma populacao de empresas das quais se escolhe uma ao acaso. O espaco de resultados eΩ = ω1, ω2, . . . , ωn, onde n e o numero total de empresas na populacao. Consoante os objectivos doestudo, diversas variaveis aleatorias podem ser definidas. Eis alguns exemplos:

X1 = numero de empregados de uma empresa;X2 = capital social de uma empresa;X3 = volume anual de vendas de uma empresa.

Proposicao 2.1 Sejam Ω um espaco de resultados, X : Ω −→ R e Y : Ω −→ R duas variaveis aleatorias, ec ∈ R. Entao,

i) X + Y e uma variavel aleatoria;

ii) c ·X e uma variavel aleatoria;

iii) X · Y e uma variavel aleatoria.

Definicao 2.2 Seja X uma v.a.. Chama-se a funcao FX (ou F) funcao de distribuicao (cumulativa) (f.d.)de X, se FX : R −→ [0, 1] tal que

FX(x) = P (X ≤ x),

para todo x ∈ R.

A f.d., F (x), de uma v.a. X goza das seguintes propriedades:

Teorema 2.2

1. 0 ≤ F (x) ≤ 1;

2. F (x) e nao decrescente;

3. F (−∞) = limx→−∞

F (x) = 0; F (+∞) = limx→+∞

F (x) = 1;

4. Para valores x1 e x2 quaisquer, finitos, com x2 > x1, tem-se P (x1 < X ≤ x2) = F (x2)− F (x1);

5. F (x) e contınua a direita, isto e, limx→a+

F (x) = F (a);

6. P (X = a) = F (a)− F (a−) = F (a)− limx→a−

F (x).

Definicao 2.3 Sejam X uma v.a. e D = a : P (X = a) > 0 um conjunto, quando muito numeravel, dospontos de descontinuidade de uma f.d.. A v.a. X diz-se discreta quando P (X ∈ D) = 1; a v.a. diz-se naodiscreta quando P (X ∈ D) < 1.

10

Quando X e uma v.a. discreta existe um conjunto finito ou infinito numeravel, D = a1, a2, . . ., tal que,

P (X ∈ D) =∑

i

P (X = ai) = 1,

P (X = ai) > 0, i = 1, 2, . . . .

Estas duas propriedades permitem especificar a probabilidade de qualquer acontecimento de R em termosde uma soma ou serie de parcelas do tipo P (X = ai), com ai ∈ D. De facto, com E ⊂ R,

P (X ∈ E) = P (X ∈ E ∩D) + P (X ∈ E ∩D);

como E ∩D ⊂ D e P (X ∈ D) = 0, vem,

P (X ∈ E) =∑

ai∈E∩D

P (X = ai).

Esta propriedade torna util a seguinte definicao:

Definicao 2.4 Seja X uma v.a. discreta. Chama-se funcao de probabilidade (f.p.) de X a funcao fX (ouf) definida por:

fX(x) =

P (X = x) se x ∈ D0 se x ∈ D

Definicao 2.5 Seja X uma v.a. e F (x) a respectiva f.d.. A v.a. X diz-se contınua se

D = a : P (X = a) > 0 = ∅

e existe uma funcao nao negativa, fX(x) ≥ 0 (ou f), tal que

FX(x) =∫ x

−∞fX(u) du.

A esta funcao fX(x) chama-se funcao de densidade de probabilidade, (f.d.p.), ou simplesmente funcaode densidade.

Observacoes 2.1

1. Mostra-se que, se D = a : P (X = a) > 0 = ∅, entao F (x) nao apresenta descontinuidades.

2. Atendendo as definicoes anteriores e aos axiomas das probabilidades mostra-se que toda a funcao deprobabilidade (resp. densidade) satisfaz as condicoes:

i) f(x) ≥ 0, ∀x ∈ R.

ii)∑

i f(xi) = 1 (resp.∫ +∞−∞ f(u) du = 1).

3. Se X e uma v.a. discreta, entao FX(x) =∑i: xi≤x fX(xi).

4. Se X e uma v.a. contınua, entao F ′X(x) = fX(x), excepto num conjunto finito ou infinito numeravel depontos x de probabilidade nula.

Exemplos 2.2

1. Consideremos novamente o exemplo 1. dos Exemplos 2.1. A funcao de probabilidade desta v.a. e definidapor:

x 0 1 2 3

f(x)18

38

38

18

11

E graficamente,

A sua funcao de distribuicao e definida por:

F (x) =

0 se x < 018 se 0 ≤ x < 112 se 1 ≤ x < 278 se 2 ≤ x < 3

1 se x ≥ 3

,

ou, em forma de tabela,

x x < 0 0 ≤ x < 1 1 ≤ x < 2 2 ≤ x < 3 x ≥ 3

F (x) 018

12

78

1

E, graficamente,

Nota: O grafico da funcao de distribuicao de uma variavel discreta e sempre em escada.

2. Seja Y uma v.a. cuja funcao de distribuicao e definida por

F (y) =

0 se y < 0

y

3se 0 ≤ y < 3

1 se y ≥ 3

.

Entao, a sua funcao de densidade pode ser definida por

f(y) =

13

se 0 ≤ y ≤ 3

0 se y < 0 ∨ y > 3

.

E os seus graficos:

Nota: O valor da probabilidade num intervalo corresponde a uma area entre o eixo das abcissas e o graficode f , no intervalo considerado.

Definicao 2.6 Uma v.a. discreta X diz-se constante se existe a ∈ R tal que P (X = a) = 1.

12

2.2 Medidas de Localizacao e Dispersao. Momentos

2.2.1 Medidas de Localizacao

Definicao 2.7 Denomina-se media, esperanca matematica ou valor esperado de uma v.a. X ao numero,caso exista, µX ou E(X) definido por:

i) E(X) =∑

i xif(xi), se X e uma v.a. discreta tomando valores em x1, x2, . . ..

ii) E(X) =∫ +∞−∞ xf(x) dx, se X e contınua.

Exemplos 2.3

1. Considerando novamente o exemplo 1 dos Exemplos 2.1,

E(X) = 0× 18

+ 1× 38

+ 2× 38

+ 3× 18

=32.

2. Se

f(y) =

13

se 0 ≤ y ≤ 3

0 se y < 0 ∨ y > 3

e a funcao de densidade de probabilidade de uma v.a. Y , entao

E(Y ) =∫ +∞

−∞yf(y) dy =

∫ 0

−∞y × 0 dy +

∫ 3

0

y

3dy +

∫ +∞

3

y × 0 dy =32.

Definicao 2.8 Seja X uma v.a. e φ(X) uma funcao de X.

1. E(φ(X)) =∑

i φ(xi)fX(xi), se X e discreta;

2. E(φ(X)) =∫ +∞−∞ φ(x)fX(x) dx, se X e contınua.

Proposicoes 2.3 Sejam X e Y duas variaveis aleatorias, φ(X) uma funcao de X, e a e b constantes reais.

1. E(a) = a;

2. E(aφ(X)) = aE(φ(X));

3. E(aX + b Y ) = aE(X) + bE(Y ).

Outras medidas de localizacao de uma v.a., alternativas a media, sao a mediana (ηX) e a moda (mX).

Definicao 2.9 Seja X uma variavel aleatoria. A mediana de X e o valor de x que satisfaz as desigualdades,

P (X ≤ x) ≥ 12

e P (X ≥ x) ≥ 12,

e representa-se por ηX ou, simplesmente, η. Em termos da funcao de distribuicao, a dupla desigualdade eequivalente a

12≤ F (x) ≤ 1

2+ P (X = x).

13

Se X e contınua, a mediana e o valor x que satisfaz,

F (x) =∫ x

−∞f(u) du =

12.

Se existir mais do que um valor que sirva para mediana, entao toma-se para mediana

η =xmin + xmax

2,

onde xmin e xmax representam, respectivamente, o mınimo e o maximo do conjunto de solucoes.

Podemos, a partir da ideia de mediana, definir parametros usando outros valores de probabilidade.

Definicao 2.10 Dado qualquer numero p, 0 < p < 1, define-se p-esimo quantil de uma v.a. ou de umadistribuicao como o valor x que satisfaz as desigualdades,

P (X ≤ x) ≥ p, P (X ≥ x) ≥ 1− p,

isto e,p ≤ F (x) ≤ p + P (X = x).

Se a v.a. e do tipo contınua, o quantil de ordem p e o numero x que satisfaz a equacao,

F (x) = p ou∫ x

−∞f(u) du = p.

O quantil de ordem p sera representado por ζp.

Em particular, com p = s/4, s = 1, 2, 3, obtem-se os quartis, sendo o quartil de ordem 2 a mediana; comp = s/10, s = 1, 2, . . . , 9, os decis, com p = s/100, s = 1, 2, . . . , 99, obtem-se os percentis.

Definicao 2.11 Chama-se moda de uma v.a. X, mX , a um valor da variavel (caso exista) do seu contra-domınio para o qual fX (funcao de probabilidade ou funcao de densidade de probabilidade de X) toma um valormaximo.

Exemplos 2.4

1. No contexto do exemplo 1. dos Exemplos 2.1,

ηX =1 + 2

2=

32

e tem duas modas (bimodal), m1 = 1 e m2 = 2.

Nota: No caso de variaveis aleatorias discretas, existe alguma bibliografia que considera para moda o pontomedio dos valores adjacentes da variavel que maximizam a funcao de probabilidade.

2. No contexto do exemplo 2. dos Exemplos 2.2, existem uma infinidade de modas. Qualquer valor dointervalo [0, 3] e uma moda.

2.2.2 Medidas de Dispersao

Definicao 2.12

1. Se X e uma v.a. discreta tomando valores em x1, x2, . . ., chama-se desvio absoluto medio a medida dedispersao definida por

δX =∑

i

|xi − µX | · fX(xi).

2. Se X e uma v.a. contınua, o desvio absoluto medio define-se por

δX =∫ +∞

−∞|x− µX | · fX(x) dx.

14

Outra quantidade de grande importancia, que permite definir outra medida de dispersao, e a variancia deuma variavel aleatoria.

Definicao 2.13

1. Se X e uma v.a. discreta tomando valores em x1, x2, . . ., a variancia de X, σ2X ou Var(X), define-se por

Var(X) =∑

i

(xi − µX)2 · fX(xi).

2. Se X e uma v.a. contınua, a variancia define-se por

Var(X) =∫ +∞

−∞(x− µX)2 · fX(x) dx.

Observacao 2.2 E evidente que Var(X) = E[(X − µX)2

].

Proposicoes 2.4 Se X e uma v.a., entao

1. Var(X) = E(X2)− [E(X)]2 (formula de Koenigs).

2. Var(aX) = a2Var(X), com a uma constante real.

Observacao 2.3 E(X2) =∑

i x2i fX(xi), se X e uma v.a. discreta, ou E(X2) =

∫ +∞−∞ x2fX(x) dx, se X e uma

v.a. contınua.

A custa da variancia define-se outra medida de dispersao.

Definicao 2.14 Chama-se desvio padrao de uma v.a. X a medida de dispersao definida por

σ =√

Var(X).

2.2.3 Variaveis Estandardizadas

Definicao 2.15 Seja X uma v.a. com media µ e desvio padrao σ. A v.a.

Z =X − µ

σ

diz-se normalizada ou estandardizada.

Proposicao 2.5 A v.a. Z =X − µ

σtem media 0 e desvio padrao 1.

A estandardizacao de uma v.a. permite uma mudanca de escala e observe-se que uma v.a. estandardizadanao tem unidades. Desta forma, e possıvel comparar as distribuicoes de variaveis aleatorias distintas.

2.2.4 Momentos

O valor esperado e a variancia pertencem a uma famılia de parametros que se designam por momentos. Enquantoo valor esperado pertence a subfamılia dos momentos ordinarios (ou momentos na origem), a varianciapertence a subfamılia dos momentos centrados. Vejamos como se definem.

Definicao 2.16 Chama-se momento ordinario de ordem k ao parametro

µ′k =∑

i

xki · fX(xi),

se X e uma v.a. discreta, ou

µ′k =∫ +∞

−∞xk · fX(x) dx,

se X e uma v.a. contınua.

Observacao 2.4 E evidente que o valor esperado e o momento ordinario de primeira ordem (µ′1 = µ).

15

Definicao 2.17 Chama-se momento centrado (na media) de ordem k ao parametro

µk =∑

i

(xi − µX)k · fX(xi),

se X e uma v.a. discreta, ou

µk =∫ +∞

−∞(x− µX)k · fX(x) dx,

se X e uma v.a. contınua.

Observacao 2.5 Repare-se que a variancia e o momento centrado de segunda ordem (µ2 = σ2).

Existem expressoes que relacionam os momentos ordinarios com os momentos centrados. De facto, qualquermomento centrado de ordem k pode exprimir-se em funcao dos momentos ordinarios de ordem nao superior ak e vice-versa:

µk =k∑

i=0

(−1)ikCi(µ′1)iµ′k−1 e µ′k =

k∑

i=0

kCi(µ′1)iµk−i.

Observe-se que, na primeira expressao fazendo-se k = 2, obtem-se a formula de Koenigs.Alem dos momentos ja definidos, existem outros momentos centrados (centrados em outro parametros) e

ainda os momentos absolutos ordinarios ou centrados. O desvio absoluto medio e o momento absoluto centrado(na media) de primeira ordem.

Todos os parametros definidos (caso existam) caracterizam uma distribuicao. Para que duas distribuicoessejam iguais e necessario que tenham a mesma sequencia de momentos. No entanto, esta condicao nao esuficiente, pois uma sequencia de momentos nao determina univocamente uma distribuicao. Para que tal suceda,e necessario garantir a existencia de uma funcao que e designada por funcao geradora de momentos. Esteassunto sera abordado na subseccao seguinte.

Na pratica, raramente sao calculados momentos de ordem superior a 4, pois tais momentos sao de difıcilcaracterizacao. No entanto, a igualdade de momentos nao superiores a 4 e suficiente para que duas distribuicoessejam aproximadamente iguais. Vejamos algumas utilizacoes destes momentos.

Uma v.a. X e simetrica ou possui uma distribuicao simetrica, se existe um numero a tal que, para todo ox, P (X < a− x) = P (X > a + x), isto e,

F (a− x)− P (X = a− x) = 1− F (a + x).

O ponto a e chamado centro de simetria. Se a v.a. e do tipo contınuo, deduz-se da igualdade anterior que a suaf.d.p., nos pontos onde e contınua, satisfaz a equacao,

f(a− x) = f(a + x).

Se a v.a. e do tipo discreto, os pontos de salto e as correspondentes probabilidades dispoem-se simetricamenteem relacao a a.

Quando uma distribuicao e simetrica e facil concluir que os momentos centrados na media de ordem ımparsao nulos. Assim, desejando-se caracterizar a assimetria por meio de um parametro, parece natural a utilizacaode um desses momentos, preferivelmente o de ordem 3, µ3. Como este momento e de terceira ordem em termosda unidade original, leva a que se utilize para medida de assimetria o parametro

γ1 =µ3

σ3

ou

β1 =µ2

3

µ32

= γ21 .

Quando a assimetria e positiva (ramo esquerdo mais abrupto) sao os desvios positivos que predominam nocalculo de µ3, que, por esse facto, leva a que γ1 > 0. A assimetria negativa caracteriza-se por γ1 < 0.

Outra funcao de momentos com algum interesse e,

β2 =µ4

µ22

,

que e usado para medir o excesso de Kurtosis da distribuicao, conceito associado com o achatamento da f.d.p.ou f.p. na zona central da distribuicao. Costuma usar-se como meio de comparacao a distribuicao Normalestandardizada (que estudaremos no capıtulo seguinte). Nesta distribuicao µ4 = 3 e µ2 = 1. Assim, em vez deβ2, usa-se por vezes,

γ2 = β2 − 3.

16

2.2.5 Desigualdades Importantes para Momentos

Teorema 2.6 (Desigualdade de Markov) Seja ϕ(X) uma funcao de uma v.a. X. Se existir E[ϕ(X)], entao,para qualquer numero real c > 0,

P (ϕ(X) ≥ c) ≤ 1cE[ϕ(X)].

Corolario 2.7 Se X e uma v.a. nao negativa e se existir E(X), entao, para qualquer numero real c > 0,

P (X ≥ c) ≤ E(X)c

.

Corolario 2.8 Se X e uma v.a. e se existir E(X), entao, para qualquer numero real c > 0,

P (|X| ≥ c) ≤ E(|X|)c

.

Corolario 2.9 Se X e uma v.a. e se existir E(|X|r), para qualquer numero real r > 0, entao, para qualquernumero real c > 0,

P (|X| ≥ c) ≤ E(|X|r)cr

.

Corolario 2.10 Se X e uma v.a. com media µ e variancia σ2, finita, entao, para qualquer numero real t > 0,

P (|X − µ| ≥ tσ) ≤ 1t2

.

A desigualdade do corolario anterior, que, alias como todas as outras, tambem se pode apresentar na forma

P (|X − µ| < tσ) ≥ 1− 1t2

e a bem conhecida desigualdade de Chebychev. Trata-se de um instrumento muito importante em aplicacoes.Pois, observe-se que, para qualquer v.a. X, conhecidas a media e variancia, a quantidade de probabilidade nointervalo ]µ − tσ, µ + tσ[ nunca e inferior a 1 − 1/t2, ou, o que e o mesmo, a quantidade de probabilidade foradesse intervalo nunca e superior a 1/t2. Esta desigualdade reforca a ideia da utilizacao de µ como medida delocalizacao e σ como medida de dispersao, permitindo empregar-se quando nao se conhece a distribuicao davariavel aleatoria. Evidentemente, se a distribuicao da variavel for conhecida, a desigualdade passa a ter menosinteresse uma vez que pode calcular-se o valor exacto (ou pelo menos tao aproximado quanto se queira) deP (|X − µ| < tσ). No entanto, neste caso a sua utilizacao pode permitir fazer um calculo mais rapido.

2.2.6 Funcao Geradora de Momentos

No intuito de caracterizar uma distribuicao e possıvel, em muitos casos, obter uma funcao que permite gerartodos os momentos em relacao a origem.

Definicao 2.18 Define-se funcao geradora de momentos, abreviadamente f.g.m., da v.a. X como sendo ovalor esperado de eXt, caso exista, e representa-se por

GX(t) = E(eXt

).

Diz-se que a funcao geradora de momentos existe se existir uma constante positiva, a, para a qual GX(t)seja finita para |t| < a. Observe-se, a partir da definicao, que GX(0) = 1; a existencia numa vizinhanca de t = 0depende da distribuicao de X.

Teorema 2.11 Se a f.g.m. e definida para |t| < a, com a > 0, entao

G(k)(0) = µ′k, k = 1, 2, 3, . . . .

Consequentemente, se G(t) existe numa vizinhanca de 0, G(t) pode desenvolver-se, de uma unica forma, emserie de MacLaurin,

G(t) = 1 + G′(0) +G′′(0)t2

2!+ · · ·

=+∞∑

k=0

E(Xk

) tk

k!

=+∞∑

k=0

µ′ktk

k!

17

Como e evidente, os momentos centrados de X sao gerados pela f.g.m. da distribuicao da v.a. X − µ:

GX−µ(t) = E(et(X−µ)

)= e−µtGX(t),

ou, equivalentemente,GX(t) = eµtGX−µ(t).

Para a v.a. estandardizada U = (X − µ)/σ, tem-se

GU (t) = E(etU

)= E

(et(X−µ)/σ

)= e−µt/σGX(t/σ),

ouGX(t) = eµtGU (σt).

O teorema 2.11 nao e a principal propriedade das f.g.m.. A principal reside no facto de permitirem identificaras distribuicoes para as quais existem:

Teorema 2.12 A f.g.m. determina univocamente a f.d.; reciprocamente, se a f.g.m. existe, e unica.

Exemplos 2.5

1. Considere-se a v.a. X cuja f.p. e definida por

f(x) =

p(1− p)x−1 se x = 1, 2, . . .0 o.v. de x

onde 0 < p < 1, fixo. Pretende-se determinar E(X) e V ar(X) a partir da f.g.m..

Resolucao:

GX(t) = E(eXt

)=

+∞∑x=1

p(1− p)x−1ext

= p et+∞∑x=1

(1− p)x−1e(x−1)t

= p et+∞∑x=1

[(1− p)et

]x−1

= p et 11− (1− p)et

desde que (1− p)et < 1, isto e, quando t < − ln(1− p).

Assim, resulta que

G′X(t) =pet

(1− (1− p)et)2

eE(X) = G′X(0) =

1p.

Para o calculo da derivada de segunda ordem, observe-se primeiro que

G′X(t) =GX(t)

1− (1− p)et.

Logo,

G′′X(t) =G′X(t) [1− (1− p)et] + (1− p)etGX(t)

[1− (1− p)et]2

eE

(X2

)= G′′X(0) =

2− p

p2.

Consequentemente,

V ar(X) =2− p

p2− 1

p2=

1− p

p2.

18

2. Considere-se agora a v.a. Y com f.d.p. dada por:

g(y) =

2e−2y se y ≥ 00 se y < 0

Pretende-se determinar E(Y ) a partir da f.g.m. de Y .

Resolucao:

GY (t) = E(eY t

)=

∫ +∞

0

ety · 2e−2y dy

= limz→+∞

[2 · 1

t− 2e(t−2)y

]z

y=0

=2

t− 2

[lim

z→+∞e(t−2)z − 1

]

=2

t− 2(0− 1)

=2

2− t

sempre que t < 2. Logo,

E(X) = G′Y (t)|t=0 =2

(2− t)2

∣∣∣∣t=0

=12.

2.3 Vectores Aleatorios

Quando se pretende estudar inumeras situacoes, no estudo probabilıstico ou estatıstico, envolvendo n propri-edades ou caracterısticas quantitativas dos elementos ω do espaco de resultados Ω, faz-se corresponder a cadaum desses elementos um ponto (x1, x2, . . . , xk) ∈ Rn. Isto e,

ω −→ (X1(ω), X2(ω), . . . , Xn(ω)) .

Assim, por meio de uma aplicacao Ω → Rn substitui-se o espaco de resultados pelo conjunto Rn.

Definicao 2.19 Se para cada ponto (x1, x2, . . . , xn) ∈ Rn, o conjunto de Ω,

ω : X1(ω) ≤ x1, X2(ω) ≤ x2, . . . , Xn(ω) ≤ xne um acontecimento, diz-se que

X(ω) = (X1(ω), X2(ω), . . . , Xn(ω)) ,

ou, simplesmente,X = (X1, X2, . . . , Xn) ,

e um vector aleatorio ou uma variavel aleatoria n-dimensional.

Os conceitos abordados para uma variavel aleatoria (f.d., v.a. discretas, v.a. contınuas, f.p., f.d.p, etc...)podem generalizar-se para uma variavel aleatoria n-dimensional. No entanto, grande parte de tal generalizacaosera feita somente para v.a. bidimensionais. Assim, dada uma v.a. bidimensional ou vector aleatorio (X, Y ), aprobabilidade de obter um ponto na regiao do plano R2 pelas desigualdades, X ≤ x, Y ≤ y,

P (X ≤ x, Y ≤ y) = Pω : X(ω) ≤ x, Y (ω) ≤ yexiste sempre, por definicao e podemos introduzir a seguinte

Definicao 2.20 Chama-se funcao de distribuicao da v.a. bidimensional (X, Y ) ou funcao de distri-buicao conjunta das v.a. X e Y a

F (x, y) = P (X ≤ x, Y ≤ y).

Teorema 2.13 Se F (x, y) e f.d. das v.a. X e Y e [x1, x2]× [y1, y2] e um intervalo de R2, entao

P (x1 ≤ X ≤ x2, y1 ≤ Y ≤ y2) = F (x2, y2) + F (x1, y1)− F (x1, y2)− F (x2, y1)

19

Teorema 2.14 Para qualquer f.d. F (x, y),

F (−∞, y) = F (x,−∞) = 0 e F (+∞, +∞) = 1.

Teorema 2.15 Toda a f.d. F (x, y) e nao decrescente em relacao a cada variavel.

Teorema 2.16 Toda a f.d. F (X, Y ) e contınua a direita em relacao a cada variavel,

F (x+, y) = F (x, y) = F (x, y+).

Quando se trabalha com a distribuicao conjunta das v.a. X e Y , pode interessar o calculo da probabilidadede se ter X ≤ x qualquer que seja o valor assumido pela v.a. Y . Esse calculo,

P (X ≤ x) = P (X ≤ x, Y ≤ +∞) = limy→+∞

F (x, y) = F (x, +∞),

conduz a definicao de F1(x) = F (x, +∞), distribuicao marginal da v.a. X.Analogamente,

P (Y ≤ y) = P (X ≤ +∞, Y ≤ y) = limx→+∞

F (x, y) = F (+∞, y),

define a distribuicao marginal da v.a. Y , F2(y)Se os acontecimentos, X ≤ x e Y ≤ y, sao independentes, entao resulta

P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y),

as v.a. X e Y dizem-se independentes e a respectiva f.d. conjunta e o produto das distribuicoes marginais,

F (x, y) = F1(x)F2(y),

para todo o ponto (x, y) ∈ R2. Pode mostrar-se que esta condicao e necessaria e suficiente para que se tenha

P (X ∈ E1, Y ∈ E2) = P (X ∈ E1)P (Y ∈ E2),

para quaisquer acontecimentos E1 e E2 definidos, respectivamente, no eixo dos xx e no eixo dos yy.

Teorema 2.17 Dadas duas v.a. independentes, X e Y , considerem-se duas funcoes U = φ(X) e V = ψ(Y ).Entao, as v.a. U e V sao independentes.

Teorema 2.18 Se X e Y sao variaveis aleatorias independentes e possuem valor esperado, entao

E(X · Y ) = E(X) · E(Y ).

O conceito de independencia generaliza-se facilmente a um numero finito (ou numeravel) de v.a. X1, X2, . . . , Xn.

Definicao 2.21 As variaveis aleatorias X1, X2, . . . , Xn dizem-se independentes se para n numeros reais ar-bitrarios, x1, x2, . . . , xn,

F (x1, x2 . . . , xn) = P (X1 ≤ x1, X2 ≤ x2, . . . , Xn ≤ xn)= P (X1 ≤ x1) · P (X2 ≤ x2) · · ·P (Xn ≤ xn)= F1(x1)F2(x2) · · ·Fn(xn),

onde F e a funcao de distribuicao conjunta das v.a. X1, X2, . . . , Xn e F1, F2, . . . , Fn as respectivas funcoes dedistribuicao marginais.

Vectores Aleatorios Discretos

Definicao 2.22 Uma v.a. bidimensional, (X, Y ), diz-se discreta, se dado o conjunto finito ou numeravel

D = (xi, yj) : P (X = xi, Y = yj) > 0 ,

se tem,P [(X,Y ) ∈ D] = 1.

20

Agora, tambem podemos definir a funcao de probabilidade de (X,Y ),

f(x, y) = P (X = x, Y = y)

> 0 se (x, y) ∈ D= 0 se (x, y) ∈ D

,

e tem as seguintes propriedades:

1. f(x, y) ≥ 0, ∀(x, y) ∈ R2;

2.∑

(xi,yj)∈D

f(xi, yj) = 1;

3. P [(X,Y ) ∈ E] =∑

(xi,yj)∈E∩D

f(xi, yj);

4. F (x, y) = P (X ≤ x, Y ≤ y) =∑

xi≤xyj≤y

f(xi, yj).

As f.p. marginais sao definidas, com

D = (xi, yj) : i, j = 1, 2, . . . ,

por,f1(xi) = P (X = xi) =

j

f(xi, yj), i = 1, 2, . . .

f2(yj) = P (Y = yj) =∑

i

f(xi, yj), j = 1, 2, . . .

sendo, evidentemente, f1(x) = 0, se (x, yj) 6∈ D, e f2(y) = 0, se (xi, y) 6∈ D.As v.a. X e Y sao independentes quando discretas se, e somente se,

f(xi, yj) = f1(xi)f2(yj),

para todo o ponto (xi, yj) ∈ D.

Vectores Aleatorios Contınuos

Definicao 2.23 Uma v.a. bidimensional, (X, Y ), e do tipo contınuo se existir uma funcao nao negativa, f(x, y),tal que

F (x, y) =∫ x

−∞

∫ y

−∞f(u, v) dudv,

para todo (x, y) ∈ R2, onde F (x, y) e a funcao de distribuicao de (X, Y ). A funcao f(x, y) diz-se funcao dedensidade de probabilidade de (X, Y ) ou funcao de densidade de probabilidade conjunta das v.a. Xe Y e satisfaz a igualdade, ∫ +∞

−∞

∫ +∞

−∞f(x, y) dxdy = 1.

Se a f.d.p. f(x, y) for contınua no ponto (x, y) tem-se

f(x, y) =∂2F (x, y)

∂x∂y.

Por definicao de f.d. marginal da v.a. X tem-se,

F1(x) = F (x, +∞) =∫ x

−∞

∫ +∞

−∞f(u, v) dudv;

assim,

f1(x) = F ′1(x) =∫ +∞

−∞f(x, y) dy

21

e a funcao de densidade marginal de X. Analogamente,

f2(y) = F ′2(y) =∫ +∞

−∞f(x, y) dx,

e a funcao de densidade marginal de Y .A generalizacao destes conceitos para uma v.a. n-dimensional e imediata.

Seja (X,Y ) uma v.a. bidimensional. O valor esperado

µ′rs = E(XrY s),

se existir, define um momento de ordem r + s em relacao a origem.Assim, existindo os momentos de ordem 1, tem-se

µ′10 = E(X) e µ′01 = E(Y ),

sendo os centros de gravidade das distribuicoes marginais de X e Y , respectivamente.Existindo os momento de ordem 2, temos

µ′20 = E(X2), µ′11 = E(XY ), µ′02 = E(Y 2).

Para os momentos centrados, o valor esperado

µrs = E [(X − µX)r(Y − µY )s] ,

se existir, define um momento de ordem r + s em relacao a media.Para os momentos de ordem 1, tem-se µ10 = 0 = µ01, e para os de ordem 2,

µ20 = V ar(X), µ02 = V ar(Y ), µ11 = E [(X − µX)(Y − µY )] ;

µ11, que se representa tambem por Cov(X,Y ), designa-se por covariancia entre X e Y . Observe-se que

Cov(X, Y ) = E(XY )− E(X)E(Y ).

Como consequencia desta expressao e do teorema 2.18 temos o seguinte

Teorema 2.19 Se as v.a. X e Y sao independentes, entao Cov(X, Y ) = 0.

O interesse da covariancia advem da seguinte interpretacao: considere-se o centro de gravidade da distribuicaoconjunta de X e Y , (µX , µY ), como origem de novos eixos coordenados. Observe a figura

Tem-se, em relacao ao novo sistema de eixos, que (x − µX)(y − µY ) > 0, no 1o e 3o quadrantes,(x − µX)(y − µY ) < 0, no 2o e 4o quadrantes. Assim, se X e Y variam no mesmo sentido, existe probabi-lidade elevada para que os valores de X acima da media estejam associados com valores de Y acima da media epara os valores de X abaixo da media estejam associados com valores de Y abaixo da media, isto e, predominamos pontos no 1o e 3o quadrantes e a covariancia sai positiva e relativamente grande. Por outro lado, X e Yvariam em sentido contrario se existe probabilidade elevada para que os valores de X acima da media estejamassociados com valores de Y abaixo da media e para valores de X abaixo da media estejam associados comvalores de Y acima da media. Neste caso, predominam os pontos no 2o e 4o quadrantes e a covariancia sainegativa e relativamente grande em valor absoluto.

A covariancia depende das unidades em que se exprimem as v.a. X e Y . Ora, e desejavel introduzir umparametro que caracterize a associacao entre as variaveis X e Y sem depender dessas unidades.

22

Definicao 2.24 Chama-se coeficiente de correlacao entre X e Y ao parametro

ρ =Cov(X, Y )√V ar(X)V arY

=Cov(X, Y )

σXσY,

ouρ =

µ11√µ20µ02

.

Teorema 2.20 (Desigualdade de Cauchy-Schwartz) Se X e Y sao v.a. conjuntamente distribuıdas com mo-mentos de ordem 2 finitos, entao [

E(XY )]2

≤ E(X2

)E

(Y 2

),

verificando-se a igualdade se, e somente se, para alguma constante t0,

P (t0X = Y ) = 1.

Teorema 2.21 O valor absoluto do coeficiente de correlacao nunca exceda a unidade,

|ρ| ≤ 1;

alem disso, ρ = ±1 quando e so quando, com probabilidade um,

(Y − µY )σY

= ± (X − µX)σX

.

Resumindo, se as v.a. X e Y sao independentes, ρ = 0; se X e Y sao linearmente independentes (comprobabilidade um), ρ = ±1; nos outros casos, os valores mais ou menos elevados de |ρ| traduzem o menorou maior afastamento entre duas rectas que delimitam a regiao do plano onde se concentram com elevadaprobabilidade os valores de (X, Y ). Voltaremos a este assunto no ultimo capıtulo destes apontamentos.

Teorema 2.22 Se as v.a. X e Y possuem segundos momentos finitos, entao

V ar(X ± Y ) = V ar(X)± 2Cov(X,Y ) + V ar(Y ).

Corolario 2.23 Se as v.a. X e Y possuem segundos momentos finitos e covariancia nula, entao

V ar(X ± Y ) = V ar(X) + V ar(Y ).

Distribuicoes Condicionados

O conceito de distribuicao condicionada e baseado no de probabilidade condicionada. Vamos somente estudaro caso bidimensional e de uma forma abreviada.

No caso discreto, a probabilidade do acontecimento X = xi, condicionada pela realizacao do acontecimentoY = yj , com P (Y = yj) > 0, define-se por

P (X = xi|Y = yj) =P (X = xi, Y = yj)

P (Y = yj),

onde yj e um valor fixo e para i = 1, 2 . . .. De modo semelhante, define-se a probabilidade de Y = yj condicionadapor X = xi. As notacoes utilizadas para estas funcoes de probabilidade sao, no primeiro caso,

f(xi|yj) =f(xi, yj)f2(yj)

,

com yj fixo e i = 1, 2, . . .; no segundo caso

f(yj |xi) =f(xi, yj)f1(xi)

,

com xi fixo e j = 1, 2 . . ..No caso contınuo, a funcao de distribuicao de Y condicionada por X = x, simbolicamente, F (y|x) ou

Fy|x(y|x) e dada por

F (y|x) =

∫ y

−∞ f(x, v) dv∫ +∞−∞ f(x, v) dv

=

∫ y

−∞ f(x, v) dv

f1(x).

23

Derivando em ordem a y obtem-se a correspondente funcao de densidade de Y condicionada por X = x,

f(y|x) =f(x, y)f1(x)

.

Analogamente, define-se funcao de densidade de X condicionada por Y = y,

f(x|y) =f(x, y)f2(y)

.

Vejamos agora o que se passa com os valores esperados destas distribuicoes condicionadas.

Definicao 2.25 Considere-se a v.a. φ(X, Y ) funcao das v.a. X e Y . O valor esperado de φ(X, Y ) condicionadopor X = x, em sımbolos E[φ(X, Y )|X = x] ou, simplesmente, E[φ(X, Y )|x] e definido, consoante se trate docaso discreto ou contınuo, por

E[φ(X, Y )|xi] =∑

j

φ(xi, yj)f(yj |xi),

ou, por,

E[φ(X, Y )|x] =∫ +∞

−∞φ(x, y)f(y|x).

Define-se E[φ(X, Y )|y] de modo analogo.

Em particular, consoante se trate do caso discreto ou contınuo,

E(Y |xi) =∑

j

yjf(yj |xi)

ou

E(Y |x) =∫ +∞

−∞yf(y|x) dy,

representa a media de Y condicionada por X = x, isto e, a media da distribuicao condicionada com f.p ou f.d.p.f(y|x). Fisicamente, E(Y |x) e o centro de gravidade da distribuicao de probabilidade sobre a recta X = x.Observe-se que E(Y |X) e uma v.a. funcao da v.a. X, que assume o valor E(Y |x) quando X assume o valor x.Do mesmo modo, consoante se trate do caso discreto ou contınuo,

E(X|yj) =∑

i

xif(xi|yj)

ou

E(X|y) =∫ +∞

−∞xf(x|y) dx,

representa a media de X condicionada por Y = y, isto e, a media da distribuicao condicionada com f.p ou f.d.p.f(x|y) e E(X|Y ) e uma v.a. funcao da v.a. Y , que assume o valor E(X|y) quando Y assume o valor y.

Proposicoes 2.24 Existindo os valores esperados respectivos,

1. E(c|X) = c, onde c e uma constante;

2. E[mφ(Y ) + c|X] = mE[φ(Y )|X] + c;

3. E[φ1(Y ) + φ2(Y )|X] = E[φ1(Y )|X] + E[φ2(Y )|X];

4. E[φ1(X)φ2(Y )|X] = φ1(X)E[φ2(Y )|X];

5. E[φ(Y )] = E [E (φ(Y )|X)];

6. E(Y ) = E[E(Y |X)];

7. Se Y ≥ 0, E(Y |X) ≥ 0;

8. Se Y1 ≥ Y2, E(Y1|X) ≥ E(Y2|X).

24

Capıtulo 3

Distribuicoes Teoricas

3.1 Distribuicao Uniforme Discreta em N Pontos

Definicao 3.1 A v.a. X diz-se que tem uma distribuicao uniforme discreta em N pontos quando arespectiva f.p. e da forma

f(xi) = P (X = xi) =1N

, i = 1, 2, . . . , N.

Proposicao 3.1 Se X e uma v.a. com distribuicao uniforme em N pontos, entao

1. GX(t) =1N

N∑

i=1

etxi ;

2. E(X) =1N

N∑

i=1

xi;

3. V ar(X) =1N

N∑

i=1

x2i −

(1N

N∑

i=1

xi

)2

Observacao 3.1 Em particular, se xi = i, i = 1, 2, . . . N , E(X) =N + 1

2e V ar(X) =

N2 − 112

.

3.2 Distribuicao Binomial

A distribuicao Binomial e um modelo probabilıstico que permite o estudo de experiencias aleatorias onde importaa contagem do numero de vezes que ocorre um determinado acontecimento. A utilizacao deste modelo requerque as provas (experiencias) sejam de Bernoulli, isto e, uma sequencia de experiencias aleatorias independentesem cada umas das quais se observa a realizacao ou nao realizacao de um acontecimento A com probabilidade p,constante. A ocorrencia de A constitui um sucesso e a ocorrencia de A um insucesso.

No caso em que se considera uma unica prova de Bernoulli, a respectiva distribuicao de probabilidade edefinida da seguinte forma:

Definicao 3.2 Uma v.a. X tem (segue) distribuicao de Bernoulli de parametro p (0 ≤ p ≤ 1, fixo) se asua funcao de probabilidade e definida por

fX(x) =

px(1− p)1−x se x = 0 ∨ x = 1

0 se x ∈ R \ 0, 1 .

Proposicao 3.2 Se X e uma v.a. que tem distribuicao de Bernoulli de parametro p, entao

1. GX(t) = (1− p) + p et;

2. E(X) = p;

3. Var(X) = p(1− p).

25

Se considerarmos N provas de Bernoulli, o modelo define-se da seguinte forma:

Definicao 3.3 Uma v.a. X tem distribuicao binomial de parametros N e p (com N ∈ N e 0 ≤ p ≤ 1),abreviadamente escreve-se X ∼ B(x,N, p) ou, simplesmente, X ∼ B(N, p), se a sua f.p. e tal que

fX(x) =

NCxpx(1− p)N−x se x = 0, 1, 2, . . . , N

0 o.v..

Observacoes 3.2

1. E evidente que uma v.a. com distribuicao binomial e uma v.a. discreta. Diz-se entao que a distribuicaobinomial e uma distribuicao discreta.

2. Se X ∼ B(N, p), entao FX(x) = P (X ≤ x) =∑x

i=0NCip

i(1− p)N−i.

3. Obviamente,N∑

i=0

NCipi(1− p)N−i = (p + (1− p))N = 1.

Proposicao 3.3 Se X e uma v.a. tal que X ∼ B(N, p), entao

1. GX(t) = [(1− p) + p et]N ;

2. E(X) = Np;

3. Var(X) = Np(1− p).

Exemplo 3.1 Considere-se a e.a.: Lancamento de um dado e registo do numero de pontos obtidos.Qual e a probabilidade de se obter duas vezes a face 3 em 6 lancamentos do dado?

Resolucao: Defina-seX = numero de vezes que ocorre a face 3, em 6 lancamentos.

Entao, X ∼ B(6, p), em que p = P (A) = 16 , com A = “saıda da face 3”. Pretende-se calcular P (X = 2):

P (X = 2) = 6C2

(16

)2 (56

)4

≈ 0.2009.

Observe-se ainda que E(X) = 6× 16

= 1, Var(X) = 6× 16× 5

6=

56

e σX =

√56.

3.3 Distribuicao Geometrica

Para a distribuicao binomial, o numero de provas de Bernoulli era fixo. Agora, tomaremos uma sucessao infinitade provas de Bernoulli. A probabilidade de sucesso e p, constante de prova para prova, e uma variavel aleatoriacom distribuicao geometrica representara o numero de provas de Bernoulli, independentes, de parametro p, atea ocorrencia do primeiro sucesso. Assim,

Definicao 3.4 Uma v.a. X tem distribuicao geometrica de parametro p, abreviadamente X ∼ Geo(p),quando a sua f.p. for da forma

f(x) =

(1− p)x−1p se x = 1, 2 . . . ,0 o.v. de x.

Proposicao 3.4 Se X e uma v.a. tal que X ∼ Geo(p), entao

1. GX(t) = p et 11− (1− p)et

;

2. E(X) =1p;

3. V ar(X) =1− p

p2.

26

Teorema 3.5 Se X e uma v.a. tal que X ∼ Geo(p), entao, para quaisquer inteiros positivos s e t,

P (X > s + t|X > s) = P (X > t).

Observacao 3.3 Devido ao teorema anterior, e usual dizer-se que a distribuicao geometrica nao tem memoria,ja que, decorridas mais de s provas sem que tenha ocorrido um sucesso, a probabilidade de ainda ter de esperarmais t provas e exactamente igual a probabilidade de ter de esperar mais de t provas por um sucesso a partirno momento inicial.

3.4 Distribuicao Hipergeometrica

Vimos que a distribuicao binomial e o modelo teorico adequado para estudar as propriedades dos esquemasprobabilısticos do seguinte tipo: Considere-se um conjunto (populacao) finito constituıdo por M elementos dedois tipos (digamos, A e B) nas proporcoes p e q = 1−p, do qual se retira ao acaso e com reposicao N elementos;qual a probabilidade de obter x elementos de um determinado tipo (por exemplo, do tipo A), com 0 ≤ x ≤ N?

Observe-se que, no esquema anterior, a extraccao de um determinado elemento nao depende de umaextraccao anterior, ja que existe reposicao desse elemento. Assim, as sucessivas provas (extraccoes) sao inde-pendentes (provas de Bernoulli). Se os elementos forem retirados sucessivamente sem reposicao (ou em bloco)a independencia deixa de existir, pois a probabilidade de ocorrencia de cada um dos resultados possıveis nao semantem constante de prova para prova. Entao, passaremos a ter um modelo probabilıstico diferente do binomialque se define da seguinte forma:

Definicao 3.5 Uma v.a. X segue uma distribuicao hipergeometrica de parametros M , N e p (simbolica-mente X ∼ H(M, N, p), se a sua f.p. e definida por

fX(x) =

MpCx ·MqCN−x

MCNse x ∈ N0 ∧max(0, N −Mq) ≤ x ≤ min(N, Mp)

0 o.v. de x,

com q = 1− p.

Proposicao 3.6 Se X e uma v.a. tal que X ∼ H(M, N, p), entao

1. E(X) = Np;

2. Var(X) = Np(1− p)M −N

M − 1.

Observe-se que os valores esperados das distribuicoes B(N, p) e H(M,N, p) e o mesmo e as varianciasapenas se distinguem pelo factor (M −N)/(M − 1). Quando M e grande comparado com N , naturalmente quese esbate a diferenca entre extraccoes com e sem reposicao. Nesta situacao, (M −N)/(M − 1) e proximo daunidade e nao surpreende o seguinte resultado:

Teorema 3.7 Com N e p fixos,

limM→+∞

MpCx ·MqCN−x

MCN= NCxpxqN−x,

isto e, a distribuicao hipergeometrica H(M, N, p) aproxima-se da distribuicao binomial B(N, p), para M grande.

Exemplo 3.2 De um grupo de 1000 habitantes de uma certa regiao ha 2% que sao proprietarios das casasque habitam. Se se colhe ao acaso uma amostra de 100 indivıduos, com e sem reposicao, sao as seguintes asprobabilidades de obter x indivıduos com casa propria:

a) com reposicao: 100Cx(0.02)x(0.98)100−x;

b) sem reposicao:20Cx · 980C100−x

1000C100.

No quadro seguinte faz-se a comparacao dos respectivos valores nao se tendo ido alem de x = 9, por motivosobvios.

27

x B(N = 100, p = 0.02) H(M = 1000, N = 100, p = 0.02)0 0.1326 0.11901 0.2707 0.27012 0.2734 0.28813 0.1823 0.19184 0.0902 0.08955 0.0353 0.03116 0.0114 0.00837 0.0031 0.00188 0.0007 0.00039 0.0002 0.0000

Quando N < M/10, a distribuicao Binomial fornece ja uma aproximacao satisfatoria da distribuicao Hiper-geometrica, podendo nesse caso beneficiar-se da sua maior acessibilidade.

3.5 Distribuicao de Poisson

A distribuicao de Poisson, desenvolvida por S.D. Poisson, permite descrever um vasto conjunto de fenomenosaleatorios em que os acontecimentos se repetem no tempo (por exemplo, as entradas de clientes num super-mercado) ou no espaco (por exemplo, os defeitos de isolamento registado ao longo de um cabo electrico ou osdefeitos de acabamento numa placa de vidro).

Uma v.a. discreta que represente o numero de ocorrencias de uma dado acontecimento por unidade de tempo(ou espaco) seguira uma distribuicao de Poisson se verificar as seguintes condicoes:

C1. O numeros de ocorrencia registadas em diferentes intervalos de tempo (espaco) sao independentes entre si.

C2. A distribuicao do numero de ocorrencias em cada intervalo de tempo (espaco) e a mesma para todos osintervalos.

C3. A probabilidade de se registar uma ocorrencia num intervalo qualquer de dimensao (comprimento) ∆t,∆P1, e praticamente proporcional a dimensao do intervalo, isto e, ∆P1 ≈ λ ·∆t.

Nestas condicoes, temos a definicao seguinte:

Definicao 3.6 Uma v.a. X tem distribuicao de Poisson de parametro λ > 0, simbolicamente X ∼ Poisson(λ),se a sua f.p. e definida por

fX(x) =

e−λλx

x!se x ∈ N0

0 o.v. de x.

Observacao 3.4 Sendo eλ =+∞∑x=0

λx

x!, entao resulta de imediato que, se X ∼ Poisson(λ),

+∞∑x=0

P (X = x) =+∞∑x=0

e−λλx

x!= e−λ

+∞∑x=0

λx

x!= e−λeλ = 1.

Proposicao 3.8 Se X e uma v.a. tal que X ∼ Poisson(λ), entao

1. GX(t) = eλ(et−1);

2. E(X) = λ;

3. Var(X) = λ;

Teorema 3.9 Se as v.a. Xi, para i = 1, 2, . . . , n, sao independentes e Xi ∼ Poisson(λi), i = 1, 2, . . . , n, entao

X =n∑

i=1

Xi ∼ Poisson

(n∑

i=1

λi

).

28

A distribuicao de Poisson foi descoberta quando este matematico estudava formas limite da distribuicaobinomial. A forma como uma distribuicao binomial pode ser aproximada por uma distribuicao de Poisson edada por:

Teorema 3.10 Seja X uma v.a. tal que X ∼ B(N, p). Entao, quando N → +∞ e p e proximo de zero,X

o∼ Poisson(Np)

Observacao 3.5 A qualidade da aproximacao depende de N , λ e x. Em geral:

1. Fixados λ e x, melhora quando N aumenta;

2. Fixados N e x, melhora quando λ se aproxima de zero;

3. Fixados N e λ, piora quando x se afasta de λ.

Convem ainda referir que, quando N → +∞ e, simultaneamente, p → 0 de forma que Np → λ, a qualidade deaproximacao piora.

Exemplo 3.3 Seja X ∼ B(1000, 0.001). Sabemos, por exemplo, que

P (X > 1) = 1− P (X = 0)− P (X = 1)= 1− 1000C0(0.001)0 × (0.999)1000 − 1000C1(0.001)1 × (0.999)999

= 0.264241087

e aproximando pela distribuicao de Poisson:

Xo∼ Poisson(1)

P (X > 1) ≈ 1− e−110

0!− e−111

1!= 0.2642411177

O erro e inferior a 3.1× 10−8.

Seja Y ∼ B(2000, 0.001).

P (Y > 1) = 1− P (Y = 0)− P (Y = 1)= 1− 2000C0(0.001)0 × (0.999)2000 − 2000C1(0.001)1 × (0.999)1999

= 0.5941295533

e aproximando pela distribuicao de Poisson:

Yo∼ Poisson(2)

P (Y > 1) ≈ 1− e−220

0!− e−221

1!= 0.5939941503

O erro e inferior a 1.4× 10−4 mas superior a 3.1× 10−8.

O interesse pratico de aproximar uma distribuicao binomial por uma de Poisson resulta de o calculo da funcaode probabilidade ser mais simples no segundo caso. Tendo em conta o que foi referido na ultima observacaoe usando simulacoes, tal aproximacao so e razoavel quando N ≥ 30 e so tem interesse quando a distribuicaoBinomial for assimetrica com Np < 5. De facto, veremos mais a frente que se a distribuicao Binomial forsimetrica (ou quase simetrica), e mais pratico aproxima-la por uma outra distribuicao (a distribuicao Normal).

A distribuicao de Poisson na forma como foi definida serve essencialmente para interpretar fenomenos (comoos descritos anteriormente) num intervalo de tempo ou espaco de comprimento 1. Em geral, para um intervalo[0, t], a funcao de probabilidade e dada por

P (X = x) =e−λt(λt)x

x!, x = 0, 1, 2, . . . ,

isto e, X ∼ Poisson(λt).

29

Exemplo 3.4 Durante o horario de almoco (das 12h as 14h), o numero medio de automoveis que chegam aum parque de estacionamento e de 360. Qual a probabilidade de, durante um minuto, chegarem 2 automoveis?

Resolucao: A taxa media de chegadas por minuto e

λ = 360/120min. = 3/min..

Admitindo-se que a v.a. X = numero de automoveis que chegam ao estacionamento por minuto, e tal queX ∼ Poisson(3), entao

P (X = 2) =e−332

2!≈ 0.2240.

Se fosse em 2 minutos, tinha-se Y ∼ Poisson(6) e

P (Y = 2) =e−662

2!≈ 0.0446.

3.6 Distribuicao Uniforme

Com o estudo da Distribuicao Uniforme inicia-se o estudo das distribuicoes contınuas.

Definicao 3.7 Uma v.a. X, do tipo contınuo, tem distribuicao Uniforme ou Rectangular no intervalolimitado [a, b], simbolicamente X ∼ U(a, b), quando a sua f.d.p. e da forma,

f(x) =

1b− a

se a ≤ x ≤ b

0 se x < a ∨ x > b.

E facil encontrar a respectiva funcao de distribuicao. Esta e dada por

F (x) =

0 se x < ax− a

b− ase a ≤ x ≤ b

1 se x > b

.

Observe os graficos seguintes:

Proposicao 3.11 Se X e uma v.a. tal que X ∼ U(a, b), entao

1. GX(t) =ebt − eat

t(b− a)

2. E(X) =a + b

2

3. Var(X) =(b− a)2

12

30

3.7 Distribuicao Exponencial

Definicao 3.8 Uma v.a. X tem distribuicao Exponencial (ou Exponencial Negativa) de parametroλ > 0, abreviadamente X ∼ Exp(λ), se a sua f.d.p. e tal que

f(x) =

λ e−λx se x > 00 se x ≤ 0 .

Teorema 3.12 Se X e uma v.a. tal que X ∼ Exp(λ), entao

1. GX(t) =λ

λ− t;

2. E(X) =1λ;

3. V ar(X) =1λ2

.

Teorema 3.13 Seja X uma v.a. tal que X ∼ Exp(λ). Entao a v.a. X ”nao tem memoria”, isto e,

P (X > s + t|X > s) = P (X > t).

3.8 Distribuicao Normal

A distribuicao Normal (ou de Gauss) e a distribuicao mais importante, nao so do ponto de vista teorico,mas tambem do ponto de vista pratico. Esta importancia ira sendo evidenciada ao longo do curso a medidaque forem introduzidas no nosso estudo as suas propriedades. Pode, desde ja, avancar-se que existem muitasvariaveis aleatorias obedecendo exactamente a esta lei de probabilidade ou entao variaveis aleatorias que naotendo distribuicao Normal, aproximam-se muito de uma distribuicao Normal.

Historicamente, esta lei de probabilidade foi descoberta por De Moivre, em 1733, no decurso de investigacoessobre o limite da distribuicao Binomial.

Definicao 3.9 Uma v.a. X tem distribuicao Normal com media µ e desvio padrao σ (ou de parametros µe σ), simbolicamente X ∼ N(µ, σ), se a sua f.d.p. e definida por

f(x) =1√2πσ

e−(x−µ)2

2σ2 , x ∈ R.

Observacao 3.6 O que distingue uma distribuicao Normal de outra distribuicao Normal e a sua media e o seudesvio padrao.

Teorema 3.14 Se X e uma v.a, tal que, X ∼ N(µ, σ), entao

GX(t) = eµt+ σ2t22 .

Graficamente, a f.d.p. de uma v.a. com distribuicao Normal e representada por uma curva em forma desino, ou curva normal:

Propriedades da Curva Normal:

• E simetrica relativamente a recta de equacao x = µ. Assim, a media, moda e mediana sao iguais;

• Tem dois pontos de inflexao: pontos de abcissas µ− σ e µ + σ;

• A recta de equacao y = 0 e uma assımptota horizontal, quando x → ±∞;

Ja sabemos que, nas distribuicoes contınuas, areas limitadas entre a curva da f.d.p e o eixo dos xx, para umdado intervalo de numeros reais, representa probabilidades. Assim, suponhamos que pretendemos calcular aarea limitada entre a curva normal e o eixo dos xx relativamente ao intervalo [a, b], isto e, pretendemos calcular

P (a ≤ X ≤ b) =∫ b

a

f(x) dx =1

σ√

∫ b

a

e−(x−µ)2

2σ2 dx.

31

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

-1 0 1 2 3 4 5

f.d.p. da Dist. N(2,0.5)

Conhecidos µ e σ, o integral anterior envolve algumas dificuldades. E como futuramente teremos que calcularcom muita frequencia probabilidades envolvendo a distribuicao Normal, nao e pratico este sistema directo decalculo. Existem tabelas que nos permitem calcular, aproximadamente, probabilidades com a distribuicaoNormal. No entanto, as tabelas existentes sao para a distribuicao Normal Estandardizada, isto e, a distribuicaonormal com media 0 e desvio padrao 1. Entao, e necessario seguir o seguinte procedimento para utilizar umatabela: suponhamos que pretendemos calcular P (a ≤ X ≤ b), com X ∼ N(µ, σ). Sabemos que

Z =X − µ

σ∼ N(0, 1).

Logo,

P (a ≤ X ≤ b) = P

(a− µ

σ≤ Z ≤ b− µ

σ

)

= P

(Z ≤ b− µ

σ

)− P

(Z <

a− µ

σ

)

Se os valores estandardizados de a e b sao positivos, entao basta usar a tabela da funcao de distribuicaoNormal estandardizada para encontrar o valor pretendido. Se algum deles e negativo, e necessario previamenteusar a simetria da distribuicao:

P (Z ≤ z) = P (Z ≥ −z).

Caso se queira utilizar a tabela que da os valores de P (0 ≤ Z ≤ z), com z > 0, o procedimento podera ser oseguinte:

• Se os valores estandardizados de a e b sao positivos,

P (a ≤ X ≤ b) = P

(a− µ

σ≤ Z ≤ b− µ

σ

)

= P

(0 ≤ Z ≤ b− µ

σ

)− P

(0 ≤ Z <

a− µ

σ

).

• Se o valor estandardizado de a e negativo e o valor estandardizado de b e positivo,

P (a ≤ X ≤ b) = P

(a− µ

σ≤ Z ≤ b− µ

σ

)

= P

(0 ≤ Z ≤ b− µ

σ

)+ P

(0 ≤ Z ≤ −a− µ

σ

).

• Se os valores estandardizados de a e b sao negativos,

P (a ≤ X ≤ b) = P

(a− µ

σ≤ Z ≤ b− µ

σ

)

= P

(−b− µ

σ≤ Z ≤ −a− µ

σ

)

= P

(0 ≤ Z ≤ −a− µ

σ

)− P

(0 ≤ Z < −b− µ

σ

).

32

Exemplos 3.5

1. Suponhamos que Z ∼ N(0, 1). Entao

i) P (Z ≤ 0) = P (Z ≥ 0) = 0.5;

ii) P (z ≤ 2) = P (Z ≤ 0) + P (0 ≤ Z ≤ 2) = 0.5 + 0.4772 = 0.9772;

iii) P (Z ≤ −1) = P (Z ≥ 1) = 0.5− P (0 ≤ Z < 1) = 0.5− 0.3413 = 0.1587;

2. Suponhamos que X ∼ N(3.4, 0.23). Entao Z =X − 3.4

0.23∼ N(0, 1) e

i) P (X > 4) = P

(Z >

4− 3.40.23

)≈ 0.5− P (0 ≤ Z ≤ 2.61) = 0.0045;

ii) P (3.2 ≤ X ≤ 3.8) ≈ P (−0.87 ≤ Z ≤ 1.74) = P (0 ≤ Z ≤ 1.74) + P (0 ≤ Z ≤ 0.87) = 0.7669.

Vejamos agora alguma propriedades importantes da distribuicao Normal que tem inumeras aplicacoes.

Teorema 3.15 Se X1, X2, . . . , Xn sao variaveis aleatorias independentes tais que Xi ∼ N(µi, σi) e ai constan-tes reais, com i = 1, 2, . . . , n, entao a combinacao linear

X =n∑

i=1

aiXi ∼ N

µ =

n∑

i=1

aiµi, σ =

√√√√n∑

i=1

a2i σ

2i

.

Teorema 3.16 (Teorema do Limite Central) Sejam X1, X2, . . . , Xn variaveis aleatorias independentes eidenticamente distribuıdas com media µ e variancia σ2 (finitos). SeYn =

∑ni=1 Xi, entao

Yn − nµ

σ√

n

o∼ N(0, 1),

isto e, Yno∼ N(nµ, σ

√n), quando n → +∞.

Corolario 3.17 (Teorema de De Moivre-Laplace) Se X e uma v.a. tal que X ∼ B(N, p), entao Xo∼

N(Np,

√Np(1− p)

), quando N → +∞.

Em termos praticos, o Teorema de De Moivre-Laplace significa que podemos aproximar uma distribuicaoBinomial de parametros N e p pela distribuicao Normal de media Np e desvio padrao Np(1− p), quando N esuficientemente grande.

Sendo a distribuicao Binomial discreta e a distribuicao Normal contınua, requer no calculo de probabilidadesa necessidade de se proceder a uma correccao adequada, dita correccao de continuidade. A ideia consiste emaproximar a area de rectangulos do histograma da distribuicao Binomial por areas debaixo da curva Normal.Observe-se o seguinte grafico.

33

Por exemplo, se X ∼ B(32, 0.5), pelo Teorema de De Moivre-Laplace, Xo∼ W ∼ N(16,

√8), isto e,

X − 16√8

o∼ Z =W − 16√

8∼ N(0, 1).

Se pretendermos calcular, aproximadamente, P (X = 18), basta procedermos da seguinte forma:

P (X = 18) ≈ P (17.5 ≤ W ≤ 18.5) ≈ P (0.53 ≤ Z ≤ 0.88) ≈ 0.3106− 0.2019 = 0.1087,

que nao se afasta muito do valor dado pela distribuicao B(32, 0.5) que e, com dez casas decimais,

P (X = 18) = 32C18(0.5)32 ≈ 0, 1097646542.

Em geral, se X ∼ B(N, p), pelo Teorema de De Moivre-Laplace

Xo∼ W ∼ N

(µ = Np, σ =

√Np(1− p)

),

isto e,

X −Np√Np(1− p)

o∼ Z =W −Np√Np(1− p)

∼ N(0, 1),

e fazendo-se a correccao de continuidade temos, por exemplo, que

P (X = a) ≈ P (a− 0.5 ≤ W ≤ a + 0.5) = P

(a− 0.5−Np√

Np(1− p)≤ Z ≤ a + 0.5−Np√

Np(1− p)

).

Quanto a qualidade da aproximacao tem-se o seguinte:

1. fixados p, a e b, melhora quando N aumenta;

2. fixados N , a e b, melhora quando p esta proximo de 12 e piora quando p se aproxima de 0 ou de 1;

3. para um dado N e fixado p, melhora quando a e b estao proximos de zero, o que significa que x esta proximode Np.

Daqui resulta uma regra, muitas vezes adoptada, que permite bons resultados. Diz o seguinte: a aproximacaoda distribuicao Binomial pela distribuicao Normal e suficientemente boa desde que N ≥ 30 e Np ≥ 5.

Tambem e possıvel aproximar uma distribuicao de Poisson por uma distribuicao Normal. Basta atender aoseguinte teorema e proceder a correccao de continuidade, ja que a distribuicao de Poisson tambem e discreta.

Teorema 3.18 Seja X uma v.a. tal que X ∼ Poisson(λ). Entao

Xo∼ N

(λ,√

λ)

,

quando λ → +∞.

Observacao 3.7 Para λ ≥ 30 as aproximacoes sao boas para a maioria das aplicacoes, sobretudo quando seemprega a correccao de continuidade.

34

Capıtulo 4

Amostragem

4.1 Metodos de Amostragem

A estatıstica pode ser definida como uma disciplina que tem por objecto fundamental a recolha, a compilacao,a analise e a interpretacao de dados. Para a clarificacao do significado de analise e interpretacao de dados,convem distinguir estatıstica descritiva e inferencia estatıstica. A primeira tem como objectivo sintetizare representar de um a forma compreensıvel a informacao contida num conjunto de dados (construcao de tabe-las, de graficos e calculo de medidas que representem convenientemente a informacao contida nos dados). Ainferencia estatıstica tem objectivos mais ambiciosos que a estatıstica descritiva e, naturalmente, os metodose tecnicas requeridos sao mais sofisticados. Com base na analise de um conjunto limitado de dados (umaamostra), pretende-se caracterizar o todo a partir do qual tais dados foram obtidos (a populacao). Neste enos proximos capıtulos pretende-se estudar a inferencia estatıstica. No entanto, tambem abordaremos algunsconceitos elementares de estatıstica descritiva, que poderao ser uteis.

Definicao 4.1 Chama-se populacao ao conjunto de todos os elementos sobre o qual ira incidir as observacoescom o objectivo de o estudar estatisticamente. Cada elemento da populacao chama-se unidade estatıstica.

Observacoes 4.1

1. Num estudo estatıstico cada unidade estatıstica perde toda a individualidade para so ser encarada na medidaem que contribui para a estrutura do conjunto (populacao).

2. Uma populacao pode ser finita ou infinita, conforme o numero de elementos que a compoe seja finito ouinfinito.

Definicao 4.2 Chama-se amostra de uma populacao a qualquer seu subconjunto.

Uma unidade estatıstica de uma populacao ou amostra pode ser observada segundo uma dada caracterıstica.Em estatıstica, e usual denominar-se essa caracterıstica por atributo. Exemplos de atributos: idade, peso,estado civil, altura, filiacao partidaria, nıvel socio-economico, etc.

Chamam-se modalidades as situacoes possıveis em que se pode encontrar uma unidade estatıstica, emrelacao a um dado atributo.

Exemplos 4.1

Atributo ModalidadesSexo masculino, femininoEstado civil solteiro, casado, divorciado, viuvo

Observacao 4.2 As modalidades de determinado atributo devem ser incompatıveis e exaustivas, isto e, cadaunidade estatıstica deve pertencer a uma e uma so das modalidades do atributo considerado.

Definicao 4.3 Um atributo diz-se qualitativo se as suas modalidades nao sao mensuraveis. Caso contrario,diz-se quantitativo. Aos atributos quantitativos da-se tambem o nome de variaveis estatısticas.

Exemplos 4.2

35

Atributos qualitativos estado civil, cor, filiacao partidariaAtributos quantitativos altura, peso, idade, durabilidade

Observacao 4.3 Os atributos quantitativos podem ser contınuos ou discretos.

Definicao 4.4 O numero de vezes que se repete uma modalidade de um dado atributo denomina-se de frequenciaabsoluta e representa-se por ni. No caso bidimensional, isto e, quando se considera, em conjunta, dois atri-butos A e B, a frequencia absoluta das modalidades i, do atributo A, e j, do atributo B representa-se por nij.E as frequencias absolutas marginais por ni· e n·j, respectivamente para a modalidade i, do atributo A, e j, doatributo B.

O quociente entre uma frequencia absoluta e o numero total de observacoes (n), denomina-se frequenciarelativa. No caso unidimensional, a frequencia relativa da modalidade i representa-se por fi. No caso bidi-mensional, a frequencia relativa das modalidades i, do atributo A, e j, do atributo B, representa-se por fij. Asfrequencias relativas marginais representam-se por fi· e f·j.

Em geral, a estudo estatıstico de uma populacao, relativamente a um dado atributo (caracterıstica emestudo), nao se realiza sobre todas as unidades estatısticas dessa populacao, devido a diversas razoes. Razoestais como

• comodidade;

• tempo;

• economicas;

• impossibilidade de observar todas as unidades estatısticas.

Assim, o estudo far-se-a incidir somente sobre uma amostra extraıda da populacao. Consequentemente, apartir dessa amostra espera-se poder inferir sobre a populacao, relativamente ao atributo em estudo. Para sefazerem tais inferencias e necessario escolher um metodo de amostragem apropriado. A amostragem podeser de dois tipos: aleatoria e nao aleatoria; existindo varios metodos de se obter uma amostra para cadaum dos tipos de amostragem.

4.1.1 Metodos de Amostragem Aleatoria (Casual)

Nesta amostragem, ao contrario da nao aleatoria, toda a unidade estatıstica tem igual probabilidade de fazerparte da amostra. Assim, consegue evitar-se qualquer enviesamento de seleccao, isto e, afasta-se qualquertendencia sistematica para sub-representar ou sobrerrepresentar na amostra alguns elementos da populacao.Nestas circunstancias, todas as unidades estatısticas tem previamente que ser identificadas, exigindo, em geral,a elaboracao de uma lista com todas as unidades estatısticas da populacao, o que nem sempre e facil.

1. Metodo de Amostragem Aleatoria Simples - Este metodo consiste em utilizar um processo que possi-bilite a que toda a unidade estatıstica tenha igual probabilidade de fazer parte da amostra. Por exemplo,podia-se escrever o nome de cada indivıduo em um, e um so papel, introduziam-se todos num saco e ex-traıamos, com reposicao, apenas alguns nomes. O processo que se utiliza na extraccao das bolas do totolotoe tambem aleatorio, mas nao simples. Um pesquisador quando pretende obter uma amostra aleatoria sim-ples, nao utiliza um saco, mas sim uma tabela de numeros aleatorios ou numeros aleatorios gerados porcomputador.

2. Metodo de Amostragem Sistematica - Este metodo consiste em incluir na amostra as n-esimas unidadesestatısticas de uma populacao.

3. Metodo de Amostragem Estratificada - Este metodo consiste em dividir a populacao em subgrupos(subpopulacoes) mais homogeneos (estratos) dos quais sao extraıdas amostras aleatorias simples, que depoisse juntam para se obter uma amostra da populacao.

Exemplo: Suponhamos que se pretende estudar o salario mensal dos indivıduos de certa populacao. Comoesta caracterıstica varia com o sexo do indivıduo e a sua classe social, podıamos estratificar a populacao combase nestes atributos, obtendo-se assim subpopulacoes homogeneas. Dado que as modalidades (situacoespossıveis em que se pode encontrar uma unidade estatıstica, em relacao a um dado atributo) do atributosexo sao masculino e feminino e das classes sociais podiam ser alta, media e baixa, entao pode-se obter asseguintes subpopulacoes:

36

- Homens de classe alta;

- Homens de classe media;

- Homens de classe baixa;

- Mulheres de classe alta;

- Mulheres de classe media;

- Mulheres de classe baixa.

Agora bastara obter amostras aleatorias simples em cada uma das subpopulacoes de acordo com a percen-tagem que tem na populacao.

4. Metodo de Amostragem por Conglomerados (¿clustersÀ) - Este metodo consiste em escolher alea-toriamente algumas areas bem delineadas (conglomerados) onde se concentram caracterısticas encontradasna populacao total e seguidamente obter amostras aleatorias dentro de cada um dos conglomerados. Estemetodo e essencialmente utilizado para reduzir os custos de grandes pesquisas.

4.1.2 Metodos de Amostragem Nao Aleatoria (Nao Casual)

Quando nao haja preocupacao de rigor na representatividade da amostra (por exemplo, na realizacao de es-tudos pilotos ou de analises preliminares), podem utilizar-se metodos de amostragem nao aleatorios (ou naoprobabilısticos), que nao permitem definir com rigor as probabilidades de inclusao dos diferentes elementos dapopulacao na amostra. Estes metodos sao mais expeditos e mais economicos do que os aleatorios.

1. Amostragem Acidental - Este metodo consiste em incluir na amostra somente as unidades estatısticasconvenientes, excluindo-se, entao, as incovenientes.

2. Amostragem por Quotas - Este metodo consiste em incluir unidades estatısticas na amostra segundodiversas caracterısticas da populacao (tais como: idade, sexo, nıvel socio-economico, etnia, etc...) e nasmesmas proporcoes que figuram na populacao.

3. Amostragem por Julgamento ou Conveniencia - Este metodo consiste em incluir na amostra as uni-dades estatısticas que poderao proporcionar uma representatividade da populacao, de acordo com a logica,senso comum ou um julgamento equilibrado.

4.2 Amostragem Aleatoria. Distribuicoes Amostrais

Em todo o estudo que fizermos ate ao fim deste capıtulo e capıtulos seguintes somente consideraremos amostra-gem aleatoria simples. De acordo com o metodo de Amostragem simples, formaliza-se uma amostra aleatoriada seguinte forma:

Definicao 4.5 Seja X uma variavel aleatoria que representa uma caracterıstica numerica de uma populacaoem estudo (abusivamente diremos, simplesmente, populacao X). Chama-se amostra aleatoria (a.a.) a umconjunto de n variaveis aleatorias, X1, X2, . . . , Xn, independentes e identicamente distribuıdas a X.

Observacoes 4.4

1. E usual representar-se uma amostra aleatoria em forma de sequencia ordenada (vector): (X1, X2, . . . , Xn).

2. n e o numero total (dimensao, tamanho) de observacoes realizadas na populacao.

3. Na amostragem aleatoria simples admite-se que a amostragem e efectuada com reposicao. Se a amostragemnao for feita com reposicao, as variaveis X2, X2, . . . , Xn deixam de ser independentes. No entanto, quandoa dimensao da populacao tende para infinito e a dimensao da amostra se mantem finita, a dependencia entreas variaveis X1, X2, . . . , Xn tende a desaparecer. Quando a populacao for infinita, e indiferente realizar umaamostragem aleatoria com ou sem reposicao. A amostragem aleatoria e simples em qualquer dos casos.

4. A v.a. Xk (k = 1, 2, . . . , n), indica o valor numerico da caracterıstica em estudo na populacao sobre o k-esimo elemento da amostra. Retirada a amostra, observam-se os valores de X1, X2, . . . , Xn; de acordo coma notacao que tem vindo a adoptar-se, esses valores observados representam-se por x1, x2, . . . , xn. Embora otermo amostra aleatoria seja reservado para designar a amostra generica, (X1, X2, . . . , Xn), o mesmo aplica-se, por vezes, para designar tambem a amostra particular, (x1, x2, . . . , xn). Deve, porem, distinguir-se entreas duas acepcoes em que o termo e utilizado.

37

Definicao 4.6 Chama-se estatıstica a uma funcao dos valores observados, isto e, uma funcao de uma a.a.(X1, X2, . . . , Xn), sem parametros desconhecidos.

Exemplos 4.3

1. X =∑n

i=1 Xi

n(Media Amostral)

2. T1 = X1 + X2 + · · ·+ Xn =∑n

i=1 Xi

3. T2 =∑n

i=1 X2i

4. T3 =∑n

i=1 X2i

n

5. T4 = X1 ·X2 · · ·Xn

6. T5 = max(X1, X2, . . . , Xn)

7. S2 =1n

n∑

i=1

(Xi −X

)2(variancia amostral)

8. s2 =1

n− 1

n∑

i=1

(Xi −X

)2(variancia amostral corrigida)

9. Suponha-se que na populacao X ∼ N(µ, σ), os parametros µ e σ sao desconhecidos. Entao nao sao es-tatısticas as funcoes, ∑n

i=1 (Xi − µ)σ

,

∑ni=1 Xi

σ,

∑ni=1 X2

i

σ2,

pois dependem de µ e σ.

Observacao 4.5 Pode mostrar-se que

n∑

i=1

(Xi −X

)2=

n∑

i=1

X2i − nX

2.

Cada estatıstica e uma nova variavel aleatoria e tera uma distribuicao de probabilidade que e designada pordistribuicao amostral. A procura dessa distribuicao amostral pode ser muito complicada. De qualquer modo,no estudo que faremos, as diferentes propriedades serao dadas sem demonstracao e com um unico objectivo: aaplicacao.

4.3 Estimacao Pontual

Quando se inicia o estudo da Inferencia Estatıstica e-se levado com demasiada frequencia a pensar em termosanalogicos. Assim, se por exemplo, para a populacao X se tem µ = E(X), isto e, se µ e a media da populacao,julga-se que a media da amostra, X =

∑Xi/n, e a variancia da amostra, s2 =

∑(Xi−X)2/n, sao as melhores

estatısticas para estabelecer inferencias sobre µ e σ2. Essa atitude, de certo modo intuitiva, e valida em muitoscasos, mas nao pode generalizar-se. Muitas vezes conduzem a maus resultados.

Definicao 4.7 Chama-se estimador a qualquer estatıstica, Θ, usada para estimar um parametro, θ, (desco-nhecido) da populacao ou uma funcao desse parametro. A um valor desse estimador, θ, chama-se estimativa.

A qualidade de um estimador de um parametro sera melhor ou pior conforme certas propriedades que possua.Nao iremos fazer um estudo exaustivo dessas propriedades e utilizaremos somente o seguinte tipo de estimadores:

Definicao 4.8 Diz-se que Θ e estimador nao-enviesado (ou centrico) do parametro θ se, e somente se,E(Θ) = θ.

Observacao 4.6 O enviesamento de um estimador Θ define-se como a diferenca entre o valor esperado doestimador e o valor do parametro θ, isto e,

Enviesamento Θ = E(Θ)− θ.

38

Como o nao-enviesamento e uma propriedade importante, a utilizacao de um ou de outro estimador de umparametro desconhecido pode depender desta propriedade. Observe-se o seguinte:

Teorema 4.1 Considere-se uma populacao X, com media µ e desvio padrao σ, e (X1, . . . , Xn) uma sua amostraaleatoria. Entao

1. E(X) = µ;

2. V ar(X) =σ2

n;

3. E(S2) =n− 1

nσ2

4. E(s2) = σ2.

Observacao 4.7 Na demonstracao de 3. pode utilizar-se 2. e na demonstracao de 4. pode utilizar-se 3., jaque s2 = n

n−1S2.

O teorema anterior diz que a media amostral, X, e um estimador nao-enviesado da media da populacao,µ, e que a variancia amostral corrigida, s2 e um estimador nao-enviesado da variancia da populacao, σ2. Noentanto, a variancia amostral, S2, e um estimador enviesado da variancia da populacao e, consequentemente,utilizaremos sempre a variancia amostral corrigida para estimar a variancia da populacao.

4.4 Metodos de Estimacao

Existem varios metodos que permitem estimar um parametro desconhecido de uma populacao, entre os quais:Metodo dos Momentos, Metodo da Maxima Verosimilhanca e Metodo dos Mınimos Quadrados. Nesta disciplinairemos somente estudar o Metodo dos Momentos.

4.4.1 Metodo dos Momentos

Este metodo, de facil implementacao, consiste em igualar os momentos populacionais aos momentos amostrais.Assim, considere-se uma populacao representada pela variavel aleatoria X com distribuicao de probabilidadeconhecida a menos de r parametros, θ1, θ2, . . . , θr (por exemplo, se X ∼ N(µ, σ), os parametros µ e σ podemser desconhecidos). Em geral, os momentos populacionais ordinarios sao funcoes conhecidas dos parametros aestimar, que expressaremos da seguinte forma:

µ′i = µ′i(θ1, θ2, . . . , θr).

Seja X1, X2, . . . , Xn uma amostra aleatoria extraıda na populacao X e representem-se os momentos amostraisordinarios por

M ′i =

1n

n∑

k=1

(Xk)i.

Observe-se que estes momentos sao variaveis aleatorias, ao contrario do que acontecia durante o estudo daEstatıstica Descritiva.

Entao, de acordo com o Metodo dos Momentos, os estimadores Θ1, Θ2, . . . , Θr dos parametros θ1, θ2, . . . , θr

sao obtidos a partir da resolucao do seguinte sistema de equacoes nas incognitas θ1, θ2, . . . , θr:

M ′i = µ′i(θ1, θ2 . . . , θr).

Tais estimadores podem ser designados abreviadamente por estimadores M

Exemplo 4.4 Seja (X1, . . . , Xn), uma a.a. extraıda numa populacao normal de media µ e variancia σ2, des-conhecidos. Pretende-se determinar, usando o Metodo dos Momentos, os estimadores M e Σ2 de µ e σ2,respectivamente. Logo, tem-se o sistema

M ′

1 = X = µ′1(µ, σ) = E(X) = µM ′

2 = 1n

∑nk=1 X2

k = µ′4 = σ2 + µ9

donde resulta M = X

Σ2 = M ′2 = 1

n

∑nk=1 X2

k −X2

= 1n

∑nk=1

(Xk −X

)2= S2

39

Em relacao ao metodo que acabou de ser apresentado, note-se que ele admite variantes, sendo todas desi-gnadas por metodo dos momentos: em vez de se definir o sistema com base nos momentos ordinarios, poderecorrer-se aos momentos centrados; em vez de se definir o sistema a partir dos r primeiros momentos (ordinariosou centrados), pode recorrer-se a momentos de outras ordens.

4.5 Distribuicao de um Estimador

Teorema 4.2 Seja X uma v.a. tal que X ∼ N(µ, σ) e (X1, . . . , Xn) uma amostra aleatoria extraıda na po-pulacao X. Entao

X ∼ N

(µ,

σ√n

),

isto e, X e uma v.a. com distribuicao normal de media µ e desvio padrao σ/√

n.

Observacao 4.8 O teorema anterior e consequencia directa do teorema 3.15

Exemplo 4.5 O conteudo, em litros, de garrafas de oleo segue uma distribuicao normal. Se µ = 0.99 ` eσ = 0.02 `, pretende-se calcular a probabilidade de o conteudo medio numa amostra de 16 garrafas, seleccionadasao acaso, seja superior a 1 `.Resolucao: Sendo

X = capacidade de uma garrafa de oleo, em `uma v.a. tal que X ∼ N(0.99, 0.02), entao, pelo teorema 4.2, X ∼ N(0.99, 0.005). Logo,

P (X > 1) = P

(Z >

1− 0.990.005

)= P (Z > 2) = 0.5− P (0 ≤ Z ≤ 2) = 0.5− 0.4772 = 0.0228.

Teorema 4.3 Sejam X1 e X2 duas variaveis aleatorias tais que X1 ∼ N(µ1, σ1) e X2 ∼ N(µ2, σ2). Se(X11, X12, . . . , X1n1) e (X21, X22, . . . , X2n2) sao duas amostras aleatorias, independentes, extraıdas nas popu-lacoes X1 e X2, respectivamente, entao

X1 −X2 ∼ N

µ1 − µ2,

√σ2

1

n1+

σ22

n2

,

isto e,

Z =X1 −X2 − (µ1 − µ2)√

σ31

n1+

σ22

n2

∼ N(0, 1).

Observacao 4.9 O teorema anterior e consequencia dos teoremas 4.2 e 3.15 e observe-se que: se as amostrassao independentes, entao X1 e X2 sao variaveis aleatorias independentes e

E(X1 −X2) = E(X1)− E(X2) = µ1 − µ2,

V ar(X1 −X2) = V ar(X1) + V ar(X2) =σ2

1

n1+

σ22

n2.

Teorema 4.4 Se X e uma v.a. de media µ e desvio padrao σ e (X1, . . . , Xn) e uma amostra aleatoria extraıdana populacao X, entao

Z =X − µ

σ/√

n

o∼ N(0, 1),

quando n → +∞.

Observacoes 4.10

1. O teorema anterior e consequencia directa do Teorema do Limite Central (teorema 3.16).

2. Nas condicoes do teorema σ2 ≈ s2. Assim, quando σ e desconhecido podemos usar s e, consequentemente,

Z =X − µ

s/√

n

o∼ N(0, 1).

40

Corolario 4.5 Seja X ∼ Bernoulli(p) e (X1, . . . , Xn) uma amostra aleatoria extraıda nesta populacao. Entao

Z =X − p√p(1− p)

n

o∼ N(0, 1),

quando n → +∞.

Observacao 4.11 No contexto de uma populacao de Bernoulli, X e a proporcao de sucessos observados e evulgar representar-se por p.

Teorema 4.6 Sejam X1 e X2 duas variaveis aleatorias de medias µ1 e µ2 e variancias σ21 e σ2

2, respectiva-mente. Se (X11, X12, . . . , X1n1) e (X21, X22, . . . , X2n2) sao duas amostras aleatorias, independentes, extraıdasnas populacoes X1 e X2, respectivamente, entao

X1 −X2o∼ N

µ1 − µ2,

√σ2

1

n1+

σ22

n2

,

isto e,

Z =X1 −X2 − (µ1 − µ2)√

σ21

n1+

σ22

n2

o∼ N(0, 1),

quando n1 → +∞ e n2 → +∞.

Observacoes 4.12

1. O teorema anterior e consequencia dos teoremas 3.16 e 3.15.

2. Nas condicoes do teorema σ21 ≈ s2

1 e σ22 ≈ s2

2. Assim, quando σ1 e σ2 sao desconhecidos podemos usar s1 es2. Consequentemente,

Z =X1 −X2 − (µ1 − µ2)√

s21

n1+

s22

n2

o∼ N(0, 1).

Corolario 4.7 Sejam X1 ∼ Bernoulli(p1) e X2 ∼ Bernoulli(p2). Se (X11, . . . , X1n1) e (X21, . . . , X2n2) saoamostras aleatorias, independentes, extraıdas nas populacoes X1 e X2, respectivamente, entao

Z =p1 − p2 − (p1 − p2)√

p1(1− p1)n1

+p2(1− p2)

n2

o∼ N(0, 1).

quando n1 → +∞ e n2 → +∞.

4.5.1 Distribuicoes Amostrais Relacionadas com a Distribuicao Normal

Distribuicao do Qui-Quadrado

Definicao 4.9 Diz-se que uma v.a. X tem distribuicao do χ2 (qui-quadrado) com n graus de liberdade (ou deparametro n), simbolicamente X ∼ χ2

n, se a sua f.d.p. e definida por

fX(x) =e−x/2x(n/2)−1

2n/2Γ(

n2

) , n ∈ N, x ∈ R+,

onde

Γ(t) =∫ +∞

0

xt−1e−x dx, t > 0.

41

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

0 5 10 15 20 25 30 35

f.d.p. da Dist. do Qui-quadrado com n=10

Teorema 4.8 Sejam X1, X2, . . . , Xn v.a. independentes tais que Xi ∼ N(µi, σi), (i = 1, . . . , n). Entao a v.a.

U =n∑

i=1

(Xi − µi

σi

)2

∼ χ2n

Observacao 4.13 O termo “graus de liberdade” refere-se ao numero de quadrados independentes na somaanterior.

Corolario 4.9 Sejam a populacao X ∼ N(µ, σ) e (X1, . . . , Xn) uma amostra aleatoria. Entao

U =(n− 1)s′2

σ2∼ χ2

n−1.

Distribuicao t de Student

Definicao 4.10 Uma v.a. X tem distribuicao t de Student com n graus de liberdade (ou de parametro n),simbolicamente X ∼ Tn, se a sua f.d.p. e definida por

fX(x) =Γ

(n+1

2

)√

nπΓ(

n2

)(

1 +x2

n

)−n+12

, x ∈ R, n ∈ N,

onde

Γ(t) =∫ +∞

o

xt−1e−x dx, t > 0.

Observacao 4.14 A distribuicao t de Student e simetrica. Quando n = 4, e parecida com a distribuicaoNormal estandardizada.

0

0.05

0.1

0.15

0.2

0.25

0.3

-4 -3 -2 -1 0 1 2 3 4

f.d.p. da Dist. t de Student com n=4

Teorema 4.10 Se as variaveis aleatorias X e Y sao independentes tais que X ∼ N(0, 1) e Y ∼ χ2n, entao

T =X√Y/n

∼ Tn.

42

Corolario 4.11 Se X e uma v.a. tal que X ∼ N(µ, σ) e (X1, X2, . . . , Xn) e uma a.a., entao o racio de Student

X − µ

s/√

n

tem distribuicao t de Student com n− 1 graus de liberdade, isto e,

X − µ

s/√

n∼ Tn−1.

Dem.: Sabemos que

Z =X − µ

σ/√

n=√

n(X − µ)σ

∼ N(0, 1)

e

Y =(n− 1)s2

σ2∼ χ2

n−1.

Logo, pelo teorema 4.10,

T =Z√

Y/(n− 1)∼ Tn−1.

Dado que

T =

√n(X−µ)

σ√(n−1)s2

σ2(n−1)

=

√n(X−µ)

σsσ

=X − µ

s/√

n,

entao

X − µ

s/√

n∼ Tn−1. ¤

Teorema 4.12 Quando n → +∞, Tno∼ N(0, 1).

Teorema 4.13 Sejam X1 e X2 duas variaveis aleatorias independentes tais que X1 ∼ N(µ1, σ1) eX2 ∼ N(µ2, σ2), com σ1 = σ2. Se (X11, X12, . . . , X1n1) e (X21, X22, . . . , X2n2) sao duas amostras aleatorias,independentes, extraıdas nas populacoes X1 e X2, respectivamente, entao

T =X1 −X2 − (µ1 − µ2)√

(n1 − 1)s21 + (n2 − 1)s2

2

n1 + n2 − 2

√1n1

+1n2

∼ Tn1+n2−2.

Observacao 4.15 O teorema anterior e consequencia dos teoremas 4.3, 4.9, 4.10 e da aditividade da dis-tribuicao do Qui-Quadrado: Se as v.a. X1, . . . , Xn sao independentes e Xi ∼ χ2

ni, i = 1, . . . , n, entao∑n

i=1 Xi ∼ χ2m, com m =

∑ni=1 ni.

Distribuicao F de Snedcor

Definicao 4.11 Uma v.a. X tem distribuicao F de Snedcor com m e n graus de liberdade (ou de parametrosm e n), simbolicamente X ∼ Fm

n , quando a sua f.d.p. e definida por

fX(x) =Γ

(m+n

2

)

Γ(

m2

(n2

)(m

n

)m2 x

m−22

(1 + m

n x)m+n

2

, x ∈ R+.

Teorema 4.14 Se a v.a. X e tal que X ∼ Fmn , entao

1X∼ Fn

m.

43

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0 2 4 6 8 10

f.d.p da Dist. F-Snedcor com m=4 e n=5

Teorema 4.15 Se as variaveis aleatorias X e Y sao independentes tais que X ∼ χ2m e Y ∼ χ2

n, entao

U =X/m

Y/n∼ Fm

n .

Corolario 4.16 Se (X11, X12, . . . , X1n1) e uma amostra aleatoria extraıda da populacao X1 ∼ N(µ1, σ1),(X21, X22, . . . , X2n2) e uma amostra aleatoria extraıda da populacao X2 ∼ N(µ2, σ2) e ambas sao indepen-dentes, entao

s21

s22

σ22

σ21

∼ Fn1−1n2−1 .

Dem.: Sabemos que

(n1 − 1)s21

σ21

∼ χ2n1−1

e

(n2 − 1)s22

σ22

∼ χ2n2−1.

Logo, pelo teorema 4.15,

(n1−1)s21

(n1−1)σ21

(n2−1)s22

(n2−1)σ22

=s21

s22

σ22

σ21

∼ Fn1−1n2−1 . ¤

44

Capıtulo 5

Estimacao Intervalar

Considere-se uma (ou duas populacoes) onde se pretende estimar um parametro (ou uma relacao entre parametros).A estimacao intervalar consiste na determinacao, a partir de uma estimativa pontual do(s) parametro(s), de umintervalo onde o parametro (ou relacao entre parametros) esteja com uma dada probabilidade λ. Temos assimum intervalo de confianca a λ× 100% (ou com grau de confianca a λ× 100%) para o parametro (ou relacao deparametros).

Assim, no caso de o parametro ser a media (µ) (ou uma diferenca de medias (µ1−µ2)), pretende-se determinarnumeros reais a e b, com a < b, tais que

µ ∈ [X − b,X − a]

(respectivamente,

µ1 − µ2 ∈ [X1 −X2 − b,X1 −X1 − a]).

em que

P (a ≤ X − µ ≤ b) = λ

(respectivamente,

P (a ≤ X1 −X2 − (µ1 − µ2) ≤ b) = λ).

O calculo de a e b depende das condicoes iniciais:

• a(s) distribuicao(oes) da(s) populacao(oes) sao conhecida(s) ou desconhecida(s);

• a(s) amostra(s) e(sao) suficientemente grande(s);

e, tendo em conta estas condicoes, da escolha de uma variavel aleatoria (dita variavel fulcral), e respectiva-mente distribuicao, que relaciona o(s) parametro(s) com o respectivo estimador (ver capıtulo anterior). Paracada caso, verifica-se ainda que existem uma infinidade de solucoes para a e b. No entanto, em geral, como adistribuicao da variavel fulcral e a distribuicao Normal (ou aproximadamente normal) ou a distribuicao t deStudent, mostra-se que a amplitude (comprimento) do intervalo de confianca, fixado o seu grau de confianca, emınimo quando a = −b.

No caso do parametro ser a variancia (ou quociente de variancias) pretende-se determinar a e b, com c < d,tais que

σ2 ∈[

θ

b,θ

a

]

(ou

σ21

σ22

∈[1bθ,

1aθ

]),

com uma probabilidade λ, onde θ tem a ver com s2 (ou s21/s2

2).Para cada caso, verifica-se que existem uma infinidade de solucoes para a e b. Sendo, em geral, a distribuicao

da variavel fulcral a distribuicao do Qui-quadrado ou a distribuicao F de Snedcor, mostra-se, tambem, que existe

45

uma unica solucao para a e b que minimiza a amplitude do intervalo de confianca, fixado o seu grau de confianca.No entanto, este calculo e bastante trabalhoso. Assim, na pratica, por uma questao de comodidade os valoresde a e b sao determinados pelas condicoes

P (U ≤ a) =1− λ

2, P (U ≥ b) =

1− λ

2,

onde U ∼ χ2m ou U ∼ Fm

n .Observe-se o quadro na pagina seguinte, onde esta representado o intervalo de confianca para cada um dos

parametros em estudo, de acordo com a condicoes iniciais.

Quando queremos estudar variaveis que surjam naturalmente associadas, sao necessarios alguns cuidados.As duas amostras, cada uma proveniente da sua populacao, em vez de serem independentes sao emparelhadas,isto e, as amostras sao constituıdas por pares ordenados medindo a mesma grandeza. Nestes casos, podera, emmuitas circunstancias, originar uma situacao mais favoravel, porque se traduz numa reducao da variabilidade,ja que

var(X1 −X2) = var(X1) + var(X2)− 2cov(X1, X2).

Se as duas populacoes em estudo sao normais, entao o problema e reduzido ao caso de uma populacao normal,que e dada pela diferenca das suas iniciais.

46

PAR

.C

ON

DIC

OE

SV

.A.FU

LC

RA

IS/D

IST

.IN

TE

RVA

LO

SD

EC

ON

FIA

NC

AO

BS.

µPop

ulac

aono

rmal

com

vari

anci

aco

-nh

ecid

a

Z=

X−

µσ √ n

∼N

(0,1

)[ X

−z

σ √ n,X

+z

σ √ n

]Q

uand

ose

desc

onhe

cea

dist

ribu

icao

dapo

-pu

laca

o,m

asn

egr

ande

(n≥

30),

adi

stri

buic

aoe

apro

x.no

rmal

.

Pop

ulac

aono

rmal

deva

rian

cia

desc

o-nh

ecid

a

X−

µs √ n

∼T

n−

1

[ X−

ts √ n

,X+

ts √ n

]C

omn

gran

de,

po-

pula

cao

norm

alou

nao,

adi

stri

buic

aoe

apro

x.no

rmal

.

pPop

ulac

aode

Ber

-no

ulli

Z=

p−

p√

p(1−

p)

n

o ∼N

(0,1

)[ p−

z

√0.

25 n,p

+z

√0.

25 n

]Par

an

gran

de.

σ2

Pop

ulac

aono

rmal

(n−

1)s2

σ2

∼χ

2 n−

1

[ (n−

1)s2

b,(n−

1)s2

a

]

Dua

spo

pula

coes

norm

ais

com

vari

-an

cias

conh

ecid

as

Z=

X1−

X2−

(µ1−

µ2)

√σ

2 1

n1

2 2

n2

∼N

(0,1

) X

1−

X2−

z

√σ

2 1

n1

2 2

n2, X

1−

X2

+z

√σ

2 1

n1

2 2

n2

Qua

ndo

sede

scon

hece

adi

stri

buic

aoda

spo

-pu

laco

es,

mas

n1

en

2

sao

gran

des,

adi

stri

-bu

icao

eap

rox.

norm

al.

µ1−

µ2

Dua

spo

pula

coes

norm

ais

com

vari

anci

asde

s-co

nhec

idas

mas

igua

is

X1−

X2−

(µ1−

µ2)

√(n

1−

1)s2 1

+(n

2−

1)s2 2

n1

+n

2−

2

√1 n1

+1 n2

∼T

n1+

n2−

2

[ X1−

X2−

t√(n

1−

1)s

2 1+

(n2−

1)s

2 2n

1+

n2−

2

√1 n1

+1 n2,

X1−

X2

+t√

(n1−

1)s

2 1+

(n2−

1)s

2 2n

1+

n2−

2

√1 n1

+1 n2

]

Dua

spo

pula

coes

norm

ais

ouna

o,co

mva

rian

cias

desc

onhe

cida

sm

asn

1e

n2

gran

des

Z=

X1−

X2−

(µ1−

µ2)

√s2 1

n1

+s2 2

n2

o ∼N

(0,1

) X

1−

X2−

z

√s2 1

n1

+s2 2

n2,X

1−

X2

+z

√s2 1

n1

+s2 2

n2

p1−

p2

Dua

spo

pula

coes

deB

erno

ulli

Z=

p1−

p2−

(p1−

p2)

√p1(1−

p1)

n1

+p2(1−

p2)

n2

o ∼N

(0,1

)[ p

1−

p2−

z

√0.

25 n1

+0.

25 n2

,p1−

p2

+z

√0.

25 n1

+0.

25 n2

]Par

an

1e

n2

gran

des

σ2 1

σ2 2

Dua

spo

pula

coes

norm

ais

s2 1 s2 2

σ2 2

σ2 1

∼F

n1−

1n

2−

1

[ 1 b

s2 1 s2 2

,1 a

s2 1 s2 2

]

47

48

Capıtulo 6

Teste de Hipoteses

Um outro procedimento muito importante na Inferencia Estatıstica consiste em verificar a compatibilidade dedados amostrais (ou estimativas obtidas a partir destes dados) com determinadas populacoes (ou valores fixadospara parametros populacionais). Este procedimento - Teste de Hipoteses - leva, necessariamente, a uma deduas respostas possıveis para uma dada questao: afirmativa ou negativa. No entanto, como este procedimentoparte de dados amostrais, corre-se o risco de errar. Uma caracterıstica do teste de hipoteses e, justamente, a depermitir controlar ou minimizar tal risco.

A metodologia deste procedimento pode ser dividida em quatro fases:

i) Formulacao das hipoteses.

ii) Identificacao da estatıstica do teste e respectiva distribuicao.

iii) Definicao da regra de decisao, com especificacao do nıvel de significancia.

iv) Calculo do valor do teste e tomada de decisao.

Para uma melhor compreensao de cada uma destas fases, iremos apresenta-las no contexto do problemaseguinte, que e um teste de hipotese do tipo parametrico, isto e, um teste de hipotese onde a formulacao dashipoteses e feita para um parametro populacional desconhecido:

“Uma empresa tenciona importar um grande lote de instrumentos de precisao para posterior distribuicaono paıs. Os fabricantes garantem que o respectivo peso medio e de 100 gramas. Sendo, no entanto, o pesouma caracterıstica importante na qualidade do produto, resolveu-se testar a garantia do fabricante. Para tal,o departamento tecnico da empresa importadora obteve uma amostra de 15 instrumentos, donde resultaram osseguintes valores:

15∑

i=1

Xi = 1344 grs15∑

i=1

(Xi −X

)2= 3150 grs2

Admitindo que o peso e normalmente distribuıdo, diga qual a inferencia a tirar, para um nıvel de significanciade 1%.”.

Na resolucao de um problema deste tipo e importante definir correctamente a caracterıstica em estudo napopulacao, isto e, a variavel aleatoria, e saber quais os dados populacionais conhecidos (ou desconhecidos). Noproblema em questao temos:

X = “peso de um instrumento de precisao, em gramas”.

X ∼ N(µ, σ), µ e σ desconhecidos.

i) Neste problema esta em causa a afirmacao dos fabricantes relativamente ao peso medio de um instrumentopor eles fabricado. Eles garantem que o peso medio de um instrumento de precisao e de 100 gramas. Assim,temos a seguinte formulacao de hipoteses:

H0 : µ = 100HA : µ 6= 100

49

A primeira (H0) e denominada por hipotese nula e a segunda (HA) por hipotese alternativa. Emgeral, na formulacao da hipotese nula e necessario ter-se um igual, podendo usar-se um dos sımbolos: =,≤ ou ≥, pois um teste de hipotese parametrico requer um valor a testar. A hipotese alternativa tera, nocontexto do problema, de ser complementar da hipotese nula, podendo usar-se um dos sımbolos: 6=, < ou>.

ii) Para testarmos as hipoteses formuladas, necessitamos de uma estimativa pontual do parametro em estudo.Para tal, e necessario recolher uma amostra aleatoria na populacao em estudo. (Observe-se que, por razoesobvias, somente faz sentido a recolha de uma amostra depois de estabelecidas as hipoteses a testar.) Oestimador em causa, no contexto do teste de hipoteses, e usualmente denominado de estatıstica do testee tera uma distribuicao amostral. No nosso problema, a estatıstica do teste e X e como pretendemos testaro valor expresso na hipotese nula, quando a populacao X segue uma distribuicao normal de varianciadesconhecida e a amostra recolhida e pequena (n=15), resulta

T =X − 100s/√

n∼ T14

Em geral, a identificacao da estatıstica do teste e respectiva distribuicao amostral depende do parametroem estudo, dos dados conhecidos (desconhecidos) da populacao e do tamanho da amostra (ou amostras).Cada uma das variaveis fulcrais utilizadas nos intervalos de confianca transformam-se numa estatısticado teste quando se substitui o parametro populacional em estudo pelo valor a testar, que se encontra nahipotese nula. No caso da diferenca de proporcoes, sendo a hipotese nula p1 = p2 (ou p1 ≤ p2 ou p1 ≥ p))a variavel

p1 − p2 − (p1 − p2)√p1(1−p1)

n1+ p2(1−p2)

n2

transforma-se numa estatıstica do teste quando se substitui p1 − p2 pelo valor a testar e, para estar deacordo com a hipotese nula, p1 e p2 por

p =n1p1 + n2p2

n1 + n2=

∑n1i=1 X1i +

∑n2i=1 X2i

n1 + n2,

que e a media ponderada dos sucessos observados conjuntamente nas duas amostras.

iii) Na definicao da regra de decisao, que consiste em rejeitar ou nao rejeitar a hipotese nula, e necessarioencontrar um valor (ou valores), dito crıtico, que nos ajude nesta decisao. No nosso problema, rejeitamoso valor 100 desde que uma estimativa da media esteja “afastada”deste valor. A partida, este afastamentoe muito relativo, o que nos leva a definir um criterio de rejeicao. De qualquer modo, ao se tomar a decisaopodemos cometer dois tipos de erro: rejeitar uma hipotese verdadeira (erro tipo I) ou nao rejeitar umahipotese falsa (erro tipo II). Observe-se o quadro seguinte:

Situacao Real (desconhecida)Decisao H0 verdadeira H0 falsa

Nao rejeitar H0 Decisao correcta Erro Tipo IIRejeitar H0 Erro Tipo I Decisao correcta

A probabilidade de se cometer um erro tipo I sera designada por α. E de se cometer um erro tipo II porβ. Isto e,

P (Rejeitar H0|H0 e verdadeira) = α

e

P (Nao Rejeitar H0|H0 e falsa) = β.

A α chama-se nıvel de significancia do teste e a 1− β a potencia do teste.

Se rejeitarmos H0, com um nıvel de significancia α, podemos aceitar HA com uma confianca 1 − α. Ovalor de α diminui se β aumenta (e vice-versa). Por outro lado, a probabilidade de se cometer um erro do

50

tipo II, e portanto, a potencia do teste, 1 − β, dependem da forma como a hipotese alternativa se afastada hipotese nula. So existe uma forma de diminuir um dos riscos α ou β sem aumentar o outro: aumentaro numero de dados amostrais com base nos quais e calculada a estatıstica do teste. Em grande parte dosproblemas a resolver, em particular no que nos serve de exemplo, e especificado o nıvel de significancia, jaque o objectivo e a rejeicao de H0. Quando o nıvel de significancia e especificado a partida, permite-nosencontrar um conjunto de valores assumidos pela estatıstica do teste para os quais rejeitamos H0. Esteconjunto e denominado por Regiao Crıtica e, no contexto do problema que estamos a tratar, esta regiaoe do tipo bilateral, pois HA : µ > 100 ∨ µ < 100, sendo dada por

RC =tobs : tobs ≤ −tc ∨ tobs ≥ tc

,

onde tc e denominado de valor crıtico.

Se fosse HA : µ < µ0 (resp. HA : µ > µ0) a regiao crıtica era do tipo unilateral esquerda (resp.unilateral direita) e era dada por

RC =tobs : tobs ≤ tc

,

(resp.

RC =tobs : tobs ≥ tc

).

O valor crıtico e determinado da seguinte forma:

P (Rejeitar H0|H0 verdadeira) = α ⇔⇔ P (X ∈ RC1|µ = µ0) = 0.01

⇔ P

(X − µ0

s/√

n≤ −tc ∨ X − µ0

s/√

n≥ tc

)= 0.01

⇔ P (T14 ≤ −tc ∨ T14 ≥ tc) = 0.01⇔ P (T14 ≥ tc) = 0.005

(onde RC1 e a regiao crıtica de valores nao estandardizados)

e consultando-se uma tabela t de Student, obtemos para tc o valor 2.977.

iv) Depois de determinada a regiao crıtica, podemos decidir a rejeicao ou nao rejeicao de H0. Para tal, temosque calcular o valor do teste, isto e, o valor dado pela estatıstica do teste calculado a partir da amostra(s)recolhida(s). No nosso exemplo, o valor do teste e

tobs =89.6− 10015/

√15

≈ −2.6853

Como este valor nao pertence a regiao crıtica, nao rejeitamos H0, isto e, nao rejeitamos que um instrumentode precisao tenha em media 100 gramas.

Em vez de termos especificado o nıvel de significancia, poderıamos, a partir do valor do teste, encontraro nıvel de significancia, isto e, a probabilidade mınima que permita rejeitarmos H0, se H0 e verdadeira. Noexemplo que temos vindo a tratar, um valor crıtico que permita rejeitar H0 e, usando a tabela t de Student,2.624 e o respectivo nıvel de significancia e 0.02. Assim, para o nıvel de significancia de 2% podemos rejeitar H0,isto e, podemos rejeitar que um instrumento de precisao tenha em media 100 gramas. Nestas circunstancias, agarantia dada pelos fabricantes nao esta a ser respeitada.

Esta ultima abordagem sugere que se determine a probabilidade no extremo da cauda (ou caudas, no casobilateral) associada ao valor observado da estatıstica do teste. A esta probabilidade chama-se valor-p do testee toma-se a decisao com base nessa probabilidade. Assim, no teste que temos vindo a explorar, o valor-p e dadopor

P (|T14| ≥ | − 2.6853|),e como se tem que

0.01 < P (|T14| ≥ | − 2.6853|) < 0.02,

51

resulta a nao rejeicao da hipotese nula quando se toma α = 0.01 e a rejeicao quando α = 0.02

Quando queremos estudar variaveis que surjam naturalmente associadas, o procedimento base e semelhanteao adoptado durante o estudo da estimacao intervalar (ver final do Capıtulo 5).

52

Capıtulo 7

Testes Nao Parametricos

Neste capıtulo estudaremos dois testes, ditos do qui-quadrado, que nao incidem explicitamente sobre umparametro de uma ou mais populacoes.

7.1 Teste de Ajustamento (Teste de Aderencia)

Este teste aplica-se quando se pretende ensaiar hipoteses relativas a distribuicao de uma populacao em estudo.Este teste consiste em comparar as frequencia observadas numa amostra e as frequencias que seriam de esperarse a populacao em estudo seguisse a distribuicao especificada. Assim, pretende-se ensaiar

Hipoteses:H0 : A populacao segue a distribuicao especificadaHA : A populacao nao segue a distribuicao especificada

para um nıvel de significancia α.Recolhida uma amostra aleatoria de tamanho n e classificando estes dados de acordo com as modalidades

A1, A2, . . . , Ak do atributo qualitativo ou quantitativo em estudo, necessitamos dos seguintes elementos para aconstrucao da estatıstica do teste, para cada i = 1, 2, . . . , k:

ni = frequencia absoluta (observada) da modalidade Aik∑

i=1

ni = n

pi = P (Ai) = probabilidade de ocorrencia de Ai, quando a distribuicao da populacao e a especificadak∑

i=1

pi = 1

npi = frequencia absoluta esperada da modalidade Ai, quando a distribuicao da populacao e a especificada

Logo, pode mostrar-se, que uma estatıstica do teste para o ensaio das hipoteses H0 versus HA e

k∑

i=1

(ni − npi)2

npi

ou, equivalentemente,

k∑

i=1

n2i

npi− n

e sob H0

k∑

i=1

(ni − npi)2

npi

o∼ χ2k−ν−1,

sempre que n ≥ 30 e npi ≥ 5, i = 1, 2, . . . , k, e ν representa o numero de parametros desconhecidos da populacaoque ha necessidade de estimar.

53

Analisando-se a estatıstica do teste, verifica-se que a hipotese H0 podera ser verdadeira se as diferencas entreas frequencias observadas e esperadas forem pequenas. Logo,

1. Se o valor da estatıstica do teste for nulo, entao as frequencias observadas e esperadas coincidem e a hipoteseH0 e verdadeira.

2. Se o valor da estatıstica do teste for positivo, entao as frequencias observadas e esperadas nao coincidem.Quanto maior for o valor do teste, (χ2

obs), maior sera a discrepancia entre as frequencias observadas eesperadas. Se essa discrepancia for suficientemente grande, rejeita-se H0.

Consequentemente, neste teste, a regiao crıtica e sempre unilateral direita:

RC =χ2

obs : χ2obs ≥ χ2

c

=

[χ2

c ,+∞[

Exemplo 7.1 Uma maquina de lavar roupa e vendida em cinco cores: A1 = verde, A2 = castanho,A3 = vermelha, A4 = azul e A5 = branco. Num estudo de mercado para apreciar a popularidade das variascores analisou-se uma amostra aleatoria de 300 vendas recentes com o seguinte resultado:

Verde Castanho Vermelho Azul Branco TOTAL88 65 52 40 55 300

Pretende ensaiar-se a hipotese de que os consumidores nao manifestam tendencia para preferir qualquer dascores,

H0 : p1 = p2 = p3 = p4 = p5 = 0.2.

Os calculos necessarios para o teste encontram-se no quadro seguinte:

Classes A1 A2 A3 A4 A5 TOTALni 88 65 52 40 55 300npi 60 60 60 60 60 300

(ni − npi)2/npi 13.07 0.42 1.07 9.67 0.42 21.65

Para α = 0.05 e para 4 graus de liberdade, RC = [9.49, +∞[. Como se obteve um valor do teste

χ2obs = 21.65 > 9.49,

a hipotese H0 e nitidamente de rejeitar: os dados nao sao compatıveis com H0, para um nıvel de significanciade 5%.

7.2 Testes de Associacao

7.2.1 Teste de Independencia

Com este teste pretende ensaiar-se se dois atributos A e B, qualitativos ou quantitativos, com modalidadesA1, A2, . . . , Ar e B1, B2, . . . , Bs, respectivamente, sao independentes, isto e, se

P (Ai ∩Bj) = P (Ai) · P (Bj) , i = 1, . . . , r, j = 1, . . . , s.

Assim:

Hipoteses:H0 : Os atributos sao independentesHA : Os atributos nao sao independentes

para um nıvel de significancia α.Dada uma amostra aleatoria de tamanho n, considerem-se os seguintes elementos, para i = 1, . . . , r e

j = 1, . . . , s:

nij = frequencia absoluta das modalidades Ai e Bj

54

r∑

i=1

s∑

j=1

nij = n

pi· = P (Ai) = probabilidade de ocorrencia da modalidade Ai

r∑

i=1

pi· = 1

p·j = P (Bj) = probabilidade de ocorrencia da modalidade Bj

s∑

j=1

p·j = 1

pij = P (Ai ∪Bj) = probabilidade de ocorrencia simultanea das modalidades Ai e Bj

r∑

i=1

s∑

j=1

pij = 1

ni· = frequencia absoluta da modalidade Ai, qualquer que seja a modalidade Bj

r∑

i=1

ni· = n

n·j = frequencia absoluta da modalidade Bj , qualquer que seja a modalidade Ai

s∑

j=1

n·j = n

A hipotese H0 e verdadeira se pij = pi·p·j , para i = 1, . . . , r e j = 1, . . . , s. Mas estes valores sao, obviamente,desconhecidos. Logo, o teste ira consistir em comparar o estimador de pij , pij =

nij

n, com o estimador de pi·p·j ,

pi·p·j =ni·n· n·j

n, ou, equivalentemente, comparar nij com npi·p·j =

ni·n·jn

.Uma estatıstica do teste para o ensaio das hipoteses H0 versus HA e

r∑

i=1

s∑

j=1

(nij − npi·p·j)2

npi·p·j

ou, equivalentemente,

r∑

i=1

s∑

j=1

n2ij

npi·p·j− n,

e, sob H0

r∑

i=1

s∑

j=1

(nij − npi·p·j)2

npi·p·jo∼ χ2

(r−1)(s−1),

sempre que n ≥ 30 e npi·p·j ≥ 5, para i = 1, . . . , r e j = 1, . . . , s.A semelhanca do teste de ajustamento, o teste de independencia tem sempre uma regiao crıtica unilateral

direita.Para facilitar a analise e calculos num teste de independencia e usual utilizarem-se as tabelas de con-

tigencia seguinte:

nij B1 B2 · · · Bs ni·A1 n11 n12 · · · nis n1·A2 n21 n22 · · · n2s n2·...

...... · · · ...

...Ar nr1 nr2 · · · nrs nr·n·j n·1 n·2 · · · n·s n

npi·p·j B1 B2 · · · Bs ni·A1 np1·p·1 np1·p·2 · · · np1·p·s n1·A2 np2·p·1 np2·p·2 · · · np2·p·s n2·...

...... · · · ...

...Ar npr·p·1 npr·p·2 · · · npr·p·s nr·n·j n·1 n·2 · · · n·s n

sendo npi·p·j =ni·n·j

n.

55

Exemplo 7.2 M. um corrector de bolsa, cre que quando a actividade da bolsa e fraca durante a manha, tendetambem a ser fraca durante a tarde. Em consequencia, M. esta a pensar em tirar, ocasionalmente, a tarde livrequando a actividade da bolsa for fraca durante a manha. Registou entao o volume de negocios, durante 80 dias,nos perıodos da manha e da tarde e classificou-os na seguinte tabela:

Manha TardeFraca Activa

Fraca 13 7Activa 31 29

Pretendemos ensaiar se a actividade da bolsa de manha e independente da actividade de tarde, para um nıvelde significancia de 5%. Assim, sendo os atributos, e respectivas modalidades,

A = Actividade da bolsa durante a manhaA1 = FracaA2 = Activa

B = Actividade da bolsa durante a tardeB1 = FracaB2 = Activa

pretende ensaiar-se

Hipoteses:H0 : Os atributos sao independentesHA : Os atributos nao sao independentes

Usando-se uma tabela de contigencia

nij / npi·p·j B1 B2 ni·A1 13 / 11 7 / 9 20A2 31 / 33 29 / 27 60n·j 44 36 n =80

sendo npi·p·j =ni·n·j

n, resulta que

χ2obs =

133

11+

72

9+

312

33+

292

27− 80 ≈ 1.0774.

Como, para α = 0.05 e 1 grau de liberdade, RC = [3.84,+∞[, entao nao se rejeita H0, isto e, nao se rejeitaque as actividades da bolsa de manha e de tarde sejam independentes. Em princıpio, o corrector nao deve tirar,ocasionalmente, a tarde livre.

7.2.2 Teste de Homogeneidade

Este teste consiste em ensaiar se as proporcoes relativas as modalidades de um atributo B, para a mesmamodalidade de um atributo A, (Ai), isto e, as proporcoes pi1, pi2, . . . , pis, podem ser iguais (homogeneas). Esteteste e muito utilizado quando uma amostra aleatoria e dividida em grupos nao aleatorios (exemplo: se n = 100e formarmos dois grupos, n·1 = 50 e n·2 = 50). Por esta razao, e um teste muito utilizado em Biologia, nosentido em que se pretende comparar dois grupos, sendo um de controlo.

O teste e igual ao de independencia, sendo as hipoteses formuladas:

H0 : Existe homogeneidadeHA : Nao existe homogeneidade

para um nıvel de significancia α.

56

Apendice A

Tecnicas de Contagem

A.1 Arranjos Completos de n Elementos Tomados p a p

Definicao A.1 Seja C um conjunto finito. As sequencias do conjunto

Cp = (c4, c2, . . . , cp) : ci ∈ C, i = 1, 2, . . . , pchamam-se arranjos com repeticao ou arranjos completos.

O numero de arranjos com repeticao de n elementos p a p e designado por nA′p ou A′n,p, onde n = #C.

Proposicao A.1 nA′p = np

Observacao A.1 Na demonstracao da proposicao anterior utiliza-se o seguinte:

#(B1 ×B2 × · · · ×Bm) = #B1 ·#B2 · · ·#Bm.

Isto e, o cardinal do produto cartesiano de m conjuntos e igual ao produto dos cardinais desses conjuntos.

A.2 Arranjos Sem Repeticao de n Elementos Tomados p a p

Definicao A.2 Chamam-se arranjos sem repeticao ou arranjos simples as sequencias constituıdas porelementos todos distintos.

O numero de arranjos simples de n elementos p a p e designado por nAp ou An,p.Em particular, se n = p, os arranjos simples denominam-se por permutacoes e nAn = Pn.

Proposicao A.2 nAp = n× (n− 1)× (n− 2)× · · · × (n− p + 1) =n!

(n− p)!

Observacoes A.2

1. Obviamente, nos arranjos simples n ≥ p.

2. Nao esquecer que, por definicao,

n! =

n× (n− 1)× · · · × 2× 1 se n ∈ N \ 1,1 se n = 1,

e, por convencao, 0! = 1. Assim, Pn = n!.

A.3 Combinacoes de n Elementos Tomados p a p

Definicao A.3 Seja A um conjunto com n elementos. Chamam-se combinacoes desses n elementos p a p atodos os subconjuntos desses de p elementos que e possıvel considerar em A.

Designam-se por nCp ou(np

)o numero total de combinacoes de n elementos p a p.

Observacao A.3 Repare-se que abc e acb sao arranjos simples distintos, mas a mesma combinacao. Isto e,nos arranjos tem-se em conta a ordem, mas nao nas combinacoes.

Proposicao A.3 nCp =nAp

Pp=

n!p!(n− p)!

, com n ≥ p.

i