apostila

1 Introdução à Estatística

Fundamentos de EstatísticaFundamentos de Estatística

Lívio José Brand – 2012

2

Estatística

• A estatística nos fornece uma linguagem através da qual podemos falar sobre a incerteza, usada e compreendida pelas pessoas com conhecimento de estatística em toda parte.

Introdução à Estatística

Introdução

Não há certeza nas conclusões

• Como há variação em tudo, as conclusões são incertas.

3

Os dados batem os casos anedóticos

• Um caso anedótico é uma narrativa surpreendente que se fixa em nossa mente exatamente por ter essa característica. Casos anedóticos humanizam um fato, mas também podem levar a interpretações errôneas.

• Morar perto de linhas de transmissão de eletricidade causa leucemia em crianças? O National Cancer Institute dedicou 5 anos e 5 milhões de dólares coletando dados sobre esse assunto. Os pesquisadores compararam 638 crianças portadoras de leucemia com 620 saudáveis.

Introdução


http://oglobo.globo.com/saude/excesso-de-raio-dental-aumenta-risco-de-tumor-cerebral-4608637

4

Quanto a participação do pesquisador nos resultados: experimentação ou levantamento;

Quanto ao objetivo da análise: descritivo ou analítico; Quanto a complexidade dos dados: simples ou multivariados; Quanto a amplitude da coleta: censo ou amostra.

Tipos de pesquisas quantitativas:

24 = 16 possibilidades!

Métodos pelos quais é possível obter os dados


Como obter dados

A Investigação da Amostra

5

O primeiro passo na avaliação da validade de uma pesquisa (levantamento ou experimento) é determinar se a mesma teve como base uma amostra probabilística ou não-probabilística.

Pesquisas que empregam métodos de amostragem não-probabilística estão sujeitas a sérios vieses na coleta de dados, que podem apresentar resultados sem qualquer significado.


Como obter dados

Vantagens da amostragem

6

Custo menor. Velocidade maior. Precisão controlada. Necessidades especializadas: quando censo é impossível.

Se você usar métodos comumente aceitos de amostragem para selecionar 1.500 adultos de uma população com milhões de adultos, você pode quase sempre estimar com erro inferior a 3% aproporção de pessoas que tem certa característica ou opinião.

Este fato não depende do tamanho da população, mas somente do tamanho da amostra.


Como obter dados

Tipos de Amostras

7

1) Amostra Probabilística Uma amostra probabilística é aquela na qual os sujeitos da

amostra são escolhidos com base em probabilidades conhecidas. O único meio de fazermos inferências estatísticas corretas de uma

amostra para uma população é através da utilização de uma amostra probabilística .

Os quatro tipos de amostras probabilísticas geralmente mais utilizados são a amostra aleatória simples , a amostra estratificada , a amostra sistemática e a amostra de grupo(cluster).

2) Amostra não-probabilística : amostra de julgamento; amostragem de quota; amostragem de fatia.


Como obter dados

8

Amostragem Aleatória Simples (AAS)

População: N=64 Amostra: n=8


Cada elemento na população tem a mesma possibilidade de ser selecionado na amostra

Como obter dados

9

Amostragem Estratificada

População: N=64

E1

E2

E3

E4

Amostra: n=8


Como obter dados

10

Amostragem por Conglomerados


c1 c2 c3 c4 c5 c6 c7 c8


Como obter dados

11

Amostragem Sistemática

População: N=64 Amostra: n=8 k=5


Como obter dados

Principais tipos de erros

12

Mesmo quando empregam métodos de amostragem probabilística aleatória, as pesquisas estão sujeitas a erros potenciais. Existem quatro tipos de erros de pesquisa:

1) Erro de Cobertura (ou de abrangência, ou viés de seleção); 2) Erro por falta de resposta ou viés por falta de resposta; 3) Erro de amostragem ; 4) Erro de medição .


Como obter dados

13

Erros de Cobertura (ou de abrangência, ou viés de seleção)


Ignorado pelo plano amostral

(viés de seleção)

Resultam da exclusão de certos grupos de sujeitos da lista de população, de modo que os mesmos não têm chance de ser selecionados na amostra.


Como obter dados

14

Erros por falta de resposta


Não responderam

Falta de resposta Viés por falta de resposta

Resultam da falha em coletar dados de todos os elementos da amostra, e os erros decorrentes da falta de resposta resultam em viés pela falta de resposta.


Como obter dados

15

Erros de medição (erros grosseiros ou acidentais)

Referem-se à falta de exatidão das respostas registradas. Pode ocorrer devido a diversos fatores, tais como:

• deficiência na formulação da pergunta; • por um efeito causado pelo entrevistador sobre o informante;• arredondamento mal feito;• condições ambientais, etc.


Como obter dados

Como obter dados

Erro de Amostragem

16

Embora somente uma amostra seja efetivamente selecionada, se muitas amostras diferentes fossem selecionadas, espera-se que cada amostra seja uma representação em miniatura da população e produza estimativas razoáveis de suas características.

Erros de amostragem refletem a heterogeneidade ou “diferenças de oportunidade” de amostra para amostra, com base na probabilidade de os elementos serem selecionados nas amostras em particular.


Introdução à Estatística17

Característica de interesse: espessura de uma camada, ângulo de mergulho de um eixo de dobra, número de grãos de zi rcão, classificação de um fóssil, identificação da rocha num determinad o grupo petrográfico, etc.

População?

Amostra Aleatória?

Como obter dados


Característica de interesse: espessura de uma camada, ângulo de mergulho de um eixo de dobra, número de grãos de zi rcão, classificação de um fóssil, identificação da rocha num determinad o grupo petrográfico, etc.

População

Amostra Aleatória?

Os indivíduos são definidos segundo os limites impo stos pela natureza e o propósito do estudo.

Exemplo1: população de corpos arenosos (elementos arquiteturais) existentes numa determinada unidade estratigráfica: Espessura de arenitos; relação clásticos/químicos, etc.

Exemplo2: população de unidades estratigráficas situadas em uma bacia sedimentar: porosidade da unidade estrati gráfica; espessura de corpos arenosos por unidade estratigrá fica; etc

Como obter dados


Estatística DescritivaEstatística Descritiva

Lívio José Brand / Estatística – 2012

20

Indivíduos e Variáveis

• Os indivíduos são os objetos descritos por um conjunto de dados.

• Uma variável é qualquer característica de um indivíduo. Uma variável pode assumir valores diferentes para indivíduos diferentes.

• Para cada indivíduo, os dados fornecem valores para uma ou mais variáveis.

• A estatística descritiva utiliza gráficos e resumos numéricos para descrever as variáveis num conjunto de dados e as relações entre elas.


Estatística Descritiva

21

Variáveis Categóricas e Quantitativas Algumas variáveis são categóricas e outras quantitativas .

Uma variável categórica posiciona um indivíduo em um dos diversos grupos ou categorias.- escala nominal : prorpiedade de automóvel (sim, não); seguro de vida (prazo limitado, por dote, toda a vida, outro, nenhum); etc.

- escala ordinal : satisfação com produto (muito insatisfeito, relativamente insatisfeito, neutro, relativamente satisfeito, muito satisfeito); título na faculdade (professor titular, professor associado, professor assistente, professor); etc



22

Variáveis Categóricas e Quantitativas

Uma variável quantitativa assume valores numéricos com os quais se faz sentido efetuar operações aritméticas, tais como adição e cálculo de médias.-Dados contínuos : gerados a partir de algum processo de medição ( temperatura; altura; peso; idade; salário; etc)

-Dados discretos : gerados a partir de algum processo de contagem (“número de revistas assinadas”: 0, 1, 2,…).



Organizando Dados Numéricos Quando um conjunto de dados é coletado, os dados estão

geralmente em forma bruta , isto é, as observações numéricas não estão arrumadas em qualquer ordem ou sequência específica. À medida que o número de observações cresce, vai-se tornando mais difícil focalizar os principais aspectos em um conjunto de dados; assim, precisamos de meios para organizar as observações de modo que possamos compreender melhor que informações os dados estão comunicando.

A Disposição Ordenada Se colocarmos os dados brutos em ordem de classificação, da menor

para a maior observação, a sequência ordenada é chamada de disposição ordenada . Quando os dados estão classificados em uma disposição ordenada, nossa avaliação de seus principais aspectos fica facilitada. Torna-se então fácil detectar os extremos, os valores típicos e as concentrações de valores.

23


24

A Distribuição de Frequência

A distribuição de uma variável informa os valores que ela assume e com que frequência assume esses valores.

Uma distribuição de frequência é uma tabela resumida na qual os dados são organizados em grupos de classe ou categorias convenientemente estabelecidas e numericamente ordenadas.



Tabulando Dados Numéricos A Distribuição de Frequência Ao construir a tabela de distribuição de frequência, deve-se

atentar para: 1) A seleção do número apropriado de grupos de classe para a

tabela.O número de grupos de classe a ser utilizado depende principalmente do número de observações nos dados. Um número maior de observações requer um número maior de intervalos de classes. Em geral, entretanto, a distribuição de frequência deve possuir ao menos 5 grupos de classe, porém não mais do que 15.

Obs.:

onde n é o número de observações e k é o número de classes.

25

( )∆

=

−=∆ mínmáx3

1

13

x- xk

log

n

nqq


26

Tabulando Dados Numéricos A Distribuição de Frequência

Fórmula de Sturges:

Número de classes (k) = 1 + 3,3log10n,

Frequências Acumuladas

Uma medida muito usada para descrever dados quantitativos éa frequência acumulada (Fac) , que indica quantos elementos, ou que percentagem deles, estão abaixo de um certo valor.



27

Histograma Histogramas são utilizados para descrever dados numéricos que

tenham sido agrupados em distribuição de frequência. O histograma dá uma idéia de como é a verdadeira densidade de

frequências da população da qual os dados foram selecionados. Histogramas são gráficos de barras verticais nos quais as barras

retangulares são construídas nos limites de cada classe. O eixo vertical representa o número, a proporção, o percentual ou

a densidade de observações por intervalo de classe.



28

Curva de Densidade

Uma curva de densidade é uma curva que:

Está sempre ou sobre o eixo horizontal ou acima dele Tem área exatamente igual a 1 abaixo dela

Uma curva de densidade descreve o padrão geral de uma distribuição. A área sob a curva e acima de qualquer amplitude de valores é a proporção de todas as observações que caem neste intervalo.

As curvas de densidade, assim como as distribuições, podem apresentar diversas formas.



29

Curva de Densidade

Uma curva de densidade com uma forma apropriada é, geralmente, uma descrição adequada do padrão geral de uma distribuição.

Evidentemente que nenhum conjunto de dados reais é descrito exatamente por uma curva de densidade. A curva consiste em uma aproximação de fácil utilização e com precisão suficiente para ser usada na prática.



30



2420161284

0,10

0,05

0,00

Número de erros

Den

sida

de d

e Fre

qüên

cia

6,0%

34,0%

38,0%

18,0%

2,0%2,0%

Número de erros de impressão da primeira página de um jornal durante determinado período.

Histograma

31

Medidas Resumo As três principais propriedades que descrevem um conjunto de

dados numéricos são: 1) Medidas de localização 2) Variação 3) Formato Em qualquer análise e/ou interpretação, várias medidas descritivas

representando as propriedades de localização, variação e formato podem ser utilizadas para extrair e resumir as principais características do conjunto de dados. Se essas medidas descritivas resumidas forem calculadas através de uma amostra de dados, elas serão chamadas de estatísticas; caso sejam calculadas através de toda uma população de dados (curva de densidade), elas serão chamadas de parâmetros.



32

Medidas de localização de tendência central A Média Aritmética da Amostra A maioria dos dados apresenta uma diferente tendência de se

agrupar ou concentrar em torno de um ponto central. Assim sendo,para um conjunto de dados, em particular, geralmente se torna possível selecionar um valor típico ou média para descrever todo o conjunto. Tal valor descritivo típico é uma medida de localização ou tendência central .

Para uma amostra contendo um conjunto de n observações X1, X2,…,Xn, a média aritmética (representada pelo símbolo ) pode ser escrita como



X

∑=

+++==n

i

ni n

XXXX

nX

1

21 ...1

33

A Média Aritmética (dados agrupados em classes)

Xj: ponto médio da j-ésima classe;fj : frequência da j-ésima classe;k: número de classes.



∑

∑∑

=

=

=

== k

jj

k

jjjk

jjj

f

fX

fXn

X

1

1

1

1

onde:

AhuXh

AXu j

j +=⇒−

= .∑

∑

=

== k

jj

k

jjj

f

fu

u

1

1

34

A Moda A moda é o valor que aparece mais frequentemente em um

conjunto de dados.

hdd

dLIM o ⋅

++=

21

1 A Moda (dados agrupados):

onde:d1: excesso de frequência da classe modal sobre a classe anterior à

classe modal;d2: excesso de frequência da classe modal sobre a classe posterior

à classe modal;h: intervalo de classe padrão;LI: limite inferior da classe que contém a moda.



35

A Mediana Para uma amostra contendo um conjunto de n observações X1,

X2,…,Xn, a mediana (representada pelo símbolo Md) é o valor que divide a disposição ordenada pela metade (50% das observações são menores e 50% são maiores).

Regra para o cálculo da Mediana (dados não agrupado s) Posição de X correspondente à mediana: valor correspondente à

observação ordenada (n+1)/2. Se o tamanho da amostra for um número ímpar, a mediana é

representada palo valor numérico de X correspondente ao ponto de posicionamento (n+1)/2.

Se o tamanho da amostra for um número par, o ponto de posicionamento fica entre duas observações no meio da disposição ordenada. A mediana é a média dos valores numéricos correspondentes àquelas duas observações centrais.




Regra para o cálculo da Mediana (dados agrupados)

hf

Facn

LIMmd

d ⋅

−+= 2

onde:LI: limite inferior da classe que contém a mediana;n: número de observações;Fac: frequência acumulada até a classe anterior à classe da mediana;fmd: frequência absoluta da classe da mediana;h: intervalo de classe padrão.



Medidas de localização não-centrais Quartis Enquanto a mediana é o valor que divide a disposição ordenada

pela metade (50% das observações são menores e 50% são maiores), os quartis são medidas descritivas que dividem os dados ordenados em quatro partes.

O primeiro quartil, Q1 , é o valor que faz com que 25% das observações sejam menores e 75% sejam maiores.

O segundo quartil, Q2 , é o valor que faz com que 50% das observações sejam menores e 50% sejam maiores.

O terceiro quartil, Q3 , é o valor que faz com que 75% das observações sejam menores e 25% sejam maiores.


38

Quantis De modo geral, podemos definir uma medida, chamada quantil de

ordem p ou p-quantil, indicada por q(p), onde p é uma proporção qualquer, 0 < p < 1, tal que 100p% das observações sejam menores do que q(p).

q(0,25) = 1º Quartil = 25º Percentil q(0,50) = Mediana = 2º Quartil = 5º Decil = 50º Percentil q(0,75) = 3º Quartil = 75º Percentil q(0,40) = 4º Decil q(0,95) = 95º Percentil



39

Cálculo dos quantis para dados não agrupados


( ) ( ) ( )

( )( )ii

n

i

pp

px

nx

pq

−=

><

<<+

===

=

+

++

1

ii

n)(

11

1ii1iiii

i)(

p-pf onde

p se ,

pp se ,x

ppp se ,pqfpqf-1

n1,2,...,i ,0,5-i

pp se ,

)(



Cálculo dos quantis para dados agrupados

1,2,...,99i ,100 =⋅

−⋅+= h

f

Facn

iLIP

iPi

onde:LI: limite inferior da classe que contém o percentil;n: número de observações;Fac: frequência acumulada até a classe anterior à classe do percentil i;fPi: frequência absoluta da classe do percentil i;h: intervalo de classe do percentil i.



Boxplot É um desenho esquemático representando o menor e o maior valor, a

mediana, os quartis e os valores atípicos (caso existam).


Q1 Md=Q2 Q3

* * ** *

Cerca inferior= maior entre [menor valor; Q1-1,5 (Q3-Q1)]Cerca superior= menor entre [maior valor; Q3+1,5 (Q3-Q1)]

Valores atípicos

Os valores que ficarem abaixo da cerca inferior ou acima da cerca superior são considerados valores atípicos (ou outliers).


Medidas de variação (dispersão) A Variância da Amostra e o Desvio Padrão da Amostra

A variância é a soma das diferenças ao quadrado em torno da média aritmética dividida pelo tamanho da amostra menos 1.

( )1

1

2

2

−

−=∑

=

n

XXS

n

ii

Padrão) (Desvio 2SDP =

agrupados) não (Dados 1

1 2

1

22

−−

= ∑=

XnXn

Sn

ii



A Variância e o Desvio Padrão

( )s)frequênciaou classes em agrupados (Dados

1

1

1

1 2

1

2

1

22

−

−=−

−= ∑∑

==

XnfXn

fXXn

Sk

jjj

k

jjj


Resumindo e Descrevendo Dados Numéricos A Variância (dados agrupados em classes)

222uShS

X=

44

−

−= ∑

=

2

1

22

1

1unfu

nS j

k

jju


Propriedades da Média e da Variância de um conjunto de dados

X de aritmética média:X

45

222Y

Se )2

XSaS

XaY

aXY

===

2X

2Y SS

Se )1

=+=+=

aXY

aXY

X de variância:S2X

numéricos dados de conjunto:X

222Y

Se )3

XSaS

bXaY

baXY

=+=+=



Medidas de Variação O Coeficiente de Variação O coeficiente de variação é uma medida relativa de variação. Ele é

expresso como uma percentagem em vez de se utilizarem termos de unidades dos dados específicos.

Como uma medida relativa, o coeficiente de variação éparticularmente útil quando comparamos a variabilidade de dois ou mais conjuntos de dados que são expressos em diferentes unidades de medida.

%100

=X

SCV



Medidas de Variação O Coeficiente de Variação O coeficiente de variação também é muito útil quando

comparamos dois ou mais conjuntos de dados que são medidos nas mesmas unidades, porém diferem de tal modo que uma comparação direta dos respectivos desvios padrões não é de muita ajuda.

A média = 50 DP=10 B média = 12 DP=4 CVA=(10/50)100% = 20,0% CVB=(4/12)100% = 33,3% Na verdade, em relação à média aritmética, B é muito mais

variável do que A.



Medidas de Variação O Coeficiente de Variação

Se CV ≤ 15%: baixa dispersão (dados homogêneos);

15% < CV ≤ 30%: média dispersão;CV > 30%: alta dispersão (dados heterogêneos).

CV > 30%: mediana é melhor p/ representar os dados;CV ≤ 30%: média é melhor p representar os dados.



Variável reduzida, escores reduzidos

A variável

que mede o desvio em relação à média, em unidades de desvio padrão, é denominada variável reduzida e é uma quantidade abstrata (ou seja, independe das unidades usadas).

Se os desvios em relação à média forem dados em unidades de desvio padrão, diz-se que estão expressos em unidades reduzidasou escores reduzidos. Essas grandezas são muito valiosas para a comparação de distribuições.

,S

zXX −=



Medidas de Formato Assimetria

Coeficiente de assimetria de Pearson:

As = 0, distribuição simétrica;As > 0, distribuição assimétrica positiva;As < 0, distribuição assimétrica negativa.

|As| ≤ 0,15, distribuição praticamente simétrica;0,15 < |As| ≤ 1, assimetria moderada;

|As| > 1, forte assimetria.

( )S

M-X3Aou

S

MXA d

so

s =−=



Resumindo e Descrevendo Dados Numéricos Medidas de Formato Assimetria

Coeficiente de momento de assimetria:

a3 = 0, distribuição simétrica;a3 > 0, distribuição assimétrica positiva;a3 < 0, distribuição assimétrica negativa.

( )Excel S2

a33

3

m

n

n ⋅−

=( )

1

m

3

3 −

−=∑

=

n

XXn

iii


Resumindo e Descrevendo Dados Numéricos Medidas de Formato

Curtose

K > 0,263, platicúrtica (muito achatada);K = 0,263, mesocúrtica (normal);K < 0,263, leptocúrtica (pouco achatada).

( )1090

13

PP2K

−−= QQ

52



Resumindo e Descrevendo Dados Numéricos Medidas de Formato Curtose Coeficiente de momento de curtose

a4 > 3, leptocúrtica (pouco achatada);a4 = 3, mesocúrtica (normal);a4 < 3, platicúrtica (muito achatada).

( )( )( )

( )( )( ) ( )Excel

nn

n

S

m

nn

nn

32

13

32

1a

2

44

4 −−−−⋅

−−+=

( )1

m 1

4

4 −

−=∑

=

n

XXn

ii



Medidas de associação Medidas de associação entre variáveis qualitativas

(categóricas) Tabulando dados categorizados utilizando tabelas de

contingência Com frequência é necessário examinar as respostas de duas

variáveis categóricas simultaneamente. Essas tabelas combinadas com cruzamento de classificações (tabulações cruzadas) são conhecidas como tabelas de contingência .



Medidas de associação Medidas de associação entre variáveis qualitativas Suponha 2 variáveis qualitativas X e Y, classificadas em r

categorias A1, A2, …, Ar para X e s categorias B1, B2, …, Bs para Y.

Y X B1 B2 ... Bj ... Bs Total

A1 n11 n12 ... n1j ... n1s n1.

A2 n21 n22 ... n21 ... n21 n2.

… … … … … … … …

Ai ni1 ni2 ... nij ... nis ni.

… … … … … … … …

Ar nr1 nr2 ... nrj ... nrs nr.

Total n.1 n.2 ... n.j ... n.s n..

Tabela 1: Notação para tabelas de contingência


5656

Medidas de associação entre variáveis qualitativas

elementos de totalnúmeron n n..

Y de categoria ésima-j à espertencent elementos de númeron n

X. de categoria ésima-i à espertencent elementos de númeron n

Y. de categoria ésima-j e X de categoria ésima-i à espertencent elementos de número n

r

1i

s

1jij

r

1iij.j

s

1jiji.

ij

===

==

==

=

∑∑

∑

∑

= =

=

=



5757

Medidas de associação entre variáveis qualitativas Qui-quadrado de Pearson

( )

esperados valores:

observados valores: : ,

*

1 1*

2*2

ij

ij

r

i

s

j ij

ijij

n

nonden

nn∑∑

= =

−=χ

s,...,2,1j r;1,2,...,i ,n

nnn

n

n

n

n

: variáveisas entre associação não de hipótese a Sob

.ji.*ij

i.

.j

*ij ===→=

Se a hipótese de não-associação for verdadeira, então o valor calculado para deve ser próximo de zero, caso contrário o valor de deve ser grande.


2χ2χ


58

Medidas de associação entre variáveis numéricas Coeficiente de correlação de Pearson


P4

XX1 X2 X3 X4

A diferença entre os valores observados e ajustados são os resíduos

P3P2

P1

R1

R2

R3 R4

(resíduo)

e1e2

e3

e4

Y (ajustado)

Y (observado )

eYY ====−−−− ˆY

b0

X

XBAY ˆˆˆ +=Y


5959

Medidas de associação entre variáveis numéricas Coeficiente de correlação de Pearson

( ) ( )

−

−

−=−−==

∑∑

∑∑

==

=

= n

ii

n

ii

n

iii

ynyxnx

yxnyx

1

22

1

22

1in

1i

i

.

DP(Y)

yy

DP(X)

xx

1-n

1Y)corr(X,r

Covariância entre X e Y

-1r1 ≤≤−

( )( )∑=

−−=n

1iii yyxx

1-n

1Y)cov(X,



60

Medidas de associação entre variáveis numéricas Interpretação de r Se o valor absoluto do valor calculado de r exceder o valor da

tabela de valores críticos de r, conclua que há uma correlação linear significativa. Caso contrário, não há evidência suficiente para apoiar a conclusão de uma correlação linear significativa.

Equação da reta ajustada pelo método dos mínimos quadrados

XBAY ˆˆˆ +=



XBYA ˆˆ −=∑

∑

=

=

−

⋅−=

n

ii

n

iii

XnX

YXnYXB

1

22

1ˆ



Interpretação de rSe o valor absoluto do valor calculado de r exceder o valor da tabela de valores críticos de r, conclua que háuma correlação linear significativa. Caso contrário, não há evidência suficiente para apoiar a conclusão de uma correlação linear significativa.


Soma de Quadrados Total: SQT

representa a variação de Yi em torno de sua média

Soma de Quadrados do Modelo (da Regressão): SQM representa a variação da esperança de Y dado X em torno da

média de Y

Medida de Qualidade do Ajuste:Partição das Somas de Quadrados

2

1

( )n

ii

Y Y====

−−−−∑∑∑∑

2

1

ˆ( )n

ii

Y Y====

−−−−∑∑∑∑

X



Medida de Qualidade do Ajuste:Partição das Somas de Quadrados

Soma de Quadrados dos erros (ou Resíduos): SQE ou SQRes

representa a variação de Y em torno da reta estimada

2

1

ˆ( )n

i ii

Y Y====

−−−−∑∑∑∑



Coeficiente de Determinação

Proporção da variação de Y explicada pela inclusão da variável X no modelo

(((( ))))

(((( ))))

2

2

0 11 1

22

1

SQMSQT

n n

i i ii i

n

ii

r

b Y b X Y n Y

Y n Y

= == == == =

====

========

+ −+ −+ −+ −====

−−−−

∑ ∑∑ ∑∑ ∑∑ ∑

∑∑∑∑

0 0 ≤≤≤≤≤≤≤≤ rr22 ≤≤≤≤≤≤≤≤ 11


6565

Medida de associação entre variáveis qualitativas e quantitativas

Cálculo do R 2

O R2 indica o quanto da variação na variável numérica é expl icada com a inclusão da variável categórica. 0 ≤ R2 ≤ 1.

:onde ,)var(

)var(1

)var(

)var()var(2

X

X

X

XXR −=−=

( ) ( )

grupos de n k

grupo ésimo-i do variância(X)var

grupo; cada em sobservaçõe de n pelo ponderadas s variânciadas médiavar(X)

n

(X)varnvar(X)

n

X-X

(X)r van

X-X

var(X)

o

i

o

k

1ii

k

1iii

i

n

1j

2iij

i

n

1j

2

j

i

=

==

===∑

∑∑∑

=

===




ProbabilidadeProbabilidade



A idéia de probabilidade A teoria da probabilidade é o ramo da matemática que descreve o

comportamento aleatório. Ao considerarmos probabilidades, lidamos com experimentos

aleatórios , tais como medir a intensidade da corrente elétrica em um circuito, jogar um dado, responder a um teste de questões de múltipla escolha, submeter-se a um teste sobre uso de drogas, etc), os quais produzem resultados .

Um evento é qualquer conjunto de resultados ou consequências de um experimento.

Um evento simples é um resultado ou um evento que não pode mais ser decomposto em componentes mais simples.

O espaço amostral de um experimento consiste em todos os eventos simples possíveis.

Introdução à Probabilidade


Espaço Amostral É o conjunto de todos os eventos simples possíveis do

experimento, denotado usualmente por Ω.

O Espaço Amostral pode ser:

- Discreto : finito ou contável infinito;- Contínuo : não contável ou não enumerável.



Evento Aleatório Um evento aleatório, A, é por definição um subconjunto do espaço

amostral Ω.

Operações com Eventos Eventos podem ser combinados usando operações de conjuntos:

i) A união de dois eventos A e B (em símbolo: A U B), representa a ocorrência de pelo menos um dos eventos A ou B (isto é: ou A ocorre, ou B ocorre ou ambos os eventos ocorrem).ii) A interseção de dois eventos A e B (em símbolo: A ∩ B) representa a ocorrência simultânea de A e B (isto é: ambos os eventos A e B ocorrem).



Operações com Eventosiii) O complementar de A (em símbolos: Ac), representa o conjunto de pontos em S que não estão em A. Ou seja, o evento A não ocorre se o experimento produz um resultado em Ac.iv) Dois eventos A e B são disjuntos ou mutuamente exclusivos se eles não podem ocorrer simultaneamente, isto é, A ∩ B = φ.

Exemplos: 1) E - jogar um dado e observar a face que caiu para cima.Ω = 1, 2, 3, 4, 5,6

Sejam os eventos: A - ocorrer nº par;B - ocorrer um no maior ou igual a 4.

Neste caso: A = 2, 4, 6 e B = 4, 5, 6A U B = 2, 4, 5, 6 A ∩ B = 4, 6 Ac = 1, 3, 5 e Bc = 1, 2, 3



Exemplos: 2) E - jogar um dado e observar a face que caiu para cima.Ω = 1, 2, 3, 4, 5,6

Sejam os eventos: A - ocorrer nº par;B - ocorrer nº ímpar.

Neste caso: A = 2, 4, 6 e B = 1, 3, 5A ∩ B = φNeste caso, os eventos A e B são disjuntos, pois a ocorrência deum nº par e ímpar não pode ser verificada como decorrência do mesmo experimento.



Se A for um evento associado a um experimento, então, não poderemos afirmar com certeza que A irá ocorrer ou não.

Por isso , é muito importante tentar associar um número ao evento A, o qual medirá de alguma maneira quão verossímil éque o evento A venha ocorrer.

Esta tarefa nos leva à Teoria de Probabilidade.



ProbabilidadeÉ uma função utilizada para atribuir valores numéricos aos eventos do espaço amostral, conforme as definições a seguir:

Definição 1: Aproximação da Probabilidade pela Freq uência Relativa (procedimento frequencialista ou “ a posteriori” )

Repetições do experimento em condições idênticasRealize (ou observe) um procedimento e conte o número de vezes em que o evento A realmente ocorre. Com base nesses resultados, P(A) é estimada como:


repetido foi toprocedimen o que vezesde nº

Aocorreu que em vezesde nºlimP(A)

A evento do socorrência f

repetiçõesn

n

== ∞→ n

fnn


Definição 2: Abordagem Clássica da Probabilidade (requer resultados igualmente prováveis)

Suponha que um determinado experimento tenha n diferentes eventos simples e que cada um desses eventos tenha igual chance de ocorrer. Se o evento A pode ocorrer em k desses ncasos, então

Consiste na atribuição de probabilidades, baseando-se em características teóricas da realização do fenômeno.


n

k==oexperiment no simples eventos de totalnº

oexperiment noA a favoráveis casos de nºP(A)


Definição 3: Probabilidades Subjetivas

P(A), a probabilidade do evento A, é estimada com base no conhecimento de circunstâncias relevantes.

Opinião de um especialistaEx.: Potencial de uma bacia ainda não explorada



Axiomas da Probabilidade

i) 0 ≤ P(A) ≤ 1, para todo evento A contido no Ω;ii) P(Ω) = 1; iii) P(A1 U A2 U..... U An) = P(A1) + P(A2) + ......+ P(An),com os Ai‘s eventos disjuntos.



Algumas propriedades de probabilidade

1) Se φ é o conjunto vazio, então P(φ) = 0;2) Se Ac é o complemento de A, então P(Ac) = 1- P(A);3) Se A B, então P(A) ≤ P(B)4) Se A e B são dois eventos quaisquer, entãoP(AUB) = P(A) + P(B) - P(A ∩ B); (regra de adição de probabilidades)5) Se A e B forem eventos disjuntos (ou mutuamente exclusivos), então P(AUB) = P(A) + P(B).

⊂



Cálculo de Probabilidade ConjuntaProbabilidade de ocorrência de um Evento Conjunto, A e B (isto é, A ∩ B):

amostral espaço no selementare eventos de totalnúmero

amostral espaço no B eA a favoráveis resultados de números B)P(A =∩

Probabilidade Conjunta usando

Tabela de Contingência

Eventos B 1 B2 Total

A1 P(A1 e B1) P(A1 e B2) P(A1)

A2 P(A2 e B1) P(A2 e B2) P(A2)

Total P(B1) P(B2)



Regra de Adição de Probabilidades

amostral espaço no selementare eventos de totalnúmero

amostral espaço no Bou A a favoráveis resultados de números B)P(A =∪

P(A ou B) = P(A U B) = P(A) + P(B) - P(A ∩ B)



Princípio fundamental da contagem Quando duas ações distintas são realizadas em sucessão, se a

primeira puder ser realizada em m maneiras distintas e a segunda em n, temos um total de mn maneiras distintas em que se pode realizar as duas ações em conjunto.

Permutação Conjunto de objetos organizados de alguma maneira Duas permutações são iguais apenas se contiverem os mesmos

objetos e na mesma ordem


( )kn repetição Com

!k-n

n! k)P(n, repetição Sem =


Combinação Conjunto de objetos em que não importa a ordem Podemos construir qualquer permutação de n elementos tomados

k a k escolhendo em primeiro lugar a combinação, ou conjunto dos objetos envolvidos, e então colocando estes objetos em alguma ordem. Pelo princípio fundamental da contagem o número de permutações será igual ao produto do número de possíveis combinações pelo número de modos como podem ser ordenados.


( ) k!!kn

n!k)C(n,

k)k!C(n, k)P(n,

−=

=


Probabilidade Condicional Existem situações nas quais estamos interessados em saber a

probabilidade de um evento A sabendo que o evento B ocorreu. Por exemplo:

Sabendo que uma pessoa selecionada aleatoriamente de uma população tem história familiar de diabete (evento B), pode-se querer saber qual a probabilidade dessa pessoa ter diabete (evento A).

Então, vamos estudar como a probabilidade de um evento A muda depois de sabermos que algum outro evento B ocorreu.

Esta “nova” probabilidade de A é chamada a probabilidade condicional do evento A dado que (ou sabendo que) o evento B ocorreu.Notação: P(A | B)



Probabilidade Condicional Definição:

Se A e B são dois eventos quaisquer tal que P(B) > 0, então define-se a probabilidade condicional de A dado B, P(A | B), como sendo

Note que pela definição acima, P(A∩B) e P(B) são calculados em relação ao espaço amostral original Ω.

P(B)

B)P(A B) |P(A

∩=



Probabilidade CondicionalUma probabilidade condicional nada mais é do que uma probabilidade calculada a partir de um subconjunto de Ω (isto é, calculada em relação ao espaço amostral reduzido) e não mais a partir do espaço amostral original Ω.


Eventos Verm. Preta Total

Ás 2 2 4

Não Ás 24 24 48

Total 26 26 52

Probabilidade condicional usando tabela de contingência

2

1

52/4

52/2

P(ás)

ás) e P(verm. ás) / P(verm. ===

13

1

52/26

52/2

P(verm.)

ás) e P(verm. / verm)P(ás ===


Considerações:A noção intuitiva de probabilidade condicional foi introduzida e, depois, uma definição formal desta noção foi estabelecida.Então, pode-se notar que a probabilidade condicional de A dado B, P(A | B), pode ser calculada:- Diretamente, pela consideração da probabilidade de A em relação ao espaço amostral reduzido B; ou- Empregando a definição dada, onde P(A∩B) e P(B) são calculados em relação ao espaço amostral original Ω.



Regra do Produto de ProbabilidadesA partir da definição de probabilidade condicional, obtém-se a regra do produto (ou regra de multiplicação) de probabilidades, Esta regra é bastante útil para calcular a probabilidade de ocorrência conjunta dos eventos A e B.Ou seja , esta regra usa o conceito de probabilidade condicional para se obter a probabilidade de ocorrência conjunta de, no caso, dois eventos.P( A ∩ B) = P( A| B) · P(B)



Definição: Independência de eventosDois eventos A e B são independentes se a informação da ocorrência ou não de B não altera a probabilidade de ocorrência de A, isto é,P(A ∩ B) = P(A)P(B)Ou ainda, equivalentemente,a) se P(A | B) = P(A), se P(B) > 0, oub) se P(B | A) = P(B), se P(A) > 0.



Eventos independentesObservações:i) Se A independe de B, então B também independe de A;ii) Independência de A e B implica independência de outros eventos.Se A e B são independentes, entãoA e Bc também são independentes;Ac e B também são independentes;Ac e Bc também são independentes.


ExercícioUma urna contém 2 bolas brancas (B) e 3 vermelhas (V). Suponha que sorteemos 2 bolas ao acaso, sem reposição. Isto significa que escolhemos a 1a bola, verificamos a sua cor e não a devolvemos àurna; misturamos as bolas restantes e retiramos a 2a bola.Pergunta-se: Qual a probabilidadea) de se obter 2 bolas brancas (B)?b) de se obter uma bola branca (B)?c) de se obter nenhuma bola branca (B)?



Diagrama em árvore Em cada “galho” da árvore estão indicadas as probabilidades de

ocorrência, sendo que para as 2as bolas temos probabilidades condicionais .

B

V

B

VB

V

2/5

3/5

1/4

3/4

2/4

2/4

Resultados ProbabilidadesBB 2/5 x 1/4 = 2/20BV 2/5 x 3/4 = 6/20VB 3/5 x 2/4 = 6/20VV 3/5 x 2/4 = 6/20

---------------------------------------------Total 20/20 = 1



a) P(2 bolas brancas) = P(B e B)= P(B na 1a) x P(B na 2a | B na 1a) = 2/5 x 1/4 = 2/20b) P(obter 1 bola branca) = P(B e V) + P(V e B)= [P(B na 1a) x P(V na 2a | B na 1a)] ++ P(V na 1a) x P(B na 2a | V na 1a) == [2/5 x 3/4] + 3/5 x 2/4 = [6/20] + 6/20 = 12/20c) P(de se obter nenhuma bola branca) = P(V e V)= P(V na 1a) x P(V na 2a | V na 1a) = 6/20



Eventos IndependentesExemplo da urna: Imagine agora que as duas extrações feitas são com reposição, isto é a 1ª bola é reposta na urna antes da extração da 2a bola.Então, nestas condições as extrações são independentes, no sentido de que o resultado de cada extração não tem influência no resultado da outra.Construa o diagrama de árvores para este caso.

Resultados ProbabilidadesBB 2/5 x 2/5 = 4/25BV 2/5 x 3/5 = 6/25VB 3/5 x 2/5 = 625VV 3/5 x 3/5 = 9/25Total 1

Observe que a P(B na 2a | B na 1a) = 2/5 = P(B na 2a),ou seja , se o evento A é independente do evento B, então P(A | B) = P(A).



Definição: Partição do Espaço Amostral Os eventos A1, A2,........., Ak formam uma partição do espaço amostral Ω se eles não têm interseção entre si e se sua união é igual ao espaço amostral Ω. Isto é,

Ai ∩ Aj = φ para i ≠ j e

A figura abaixo apresenta um exemplo de uma partição de Ω em 5 eventos.

Ω=∪∪∪==U

k

iki AAAA

121 ...

A1 A2

A4 A5 A3

Ω

K = 5



Exemplo: Experimento (E) - Jogar um dadoΩ = 1, 2, 3, 4, 5, 6Uma partição possível de Ω:A1 = 1, 2;A2 = 3, 4;A3 = 5;A4 = 6Note que A i ∩ A j = φ para i ≠ j

Enquanto: C1 = 1,2,3,4, C2 = 4,5,6 não seria uma partição de Ω. Pois, C1 ∩ C2 = 4 ≠ φ

Ω=∪∪∪==

4

4

1321 AAAAA

iiU



Teorema de Bayes Seja A1, A2,......., Ak uma partição do espaço amostral Ω tal que

P(Ai) > 0, para i = 1, 2, ......, k e seja B um evento qualquer em Ω, tal que P(B) > 0.

Então para i = 1, 2, ........., k

)()|(

)()|()|(

1j

k

jj

iii

APABP

APABPBAP

∑=

=



Observação:O Teorema de Bayes permite inverter probabilidades condicionais. Isto é, às vezes é fácil calcular P(B|Ai), mas o que se deseja conhecer é P(Ai|B). O Teorema de Bayes fornece uma regra simples para calcular probabilidades condicionais P(Ai|B) a partir de probabilidades condicionais P(B|Ai) e probabilidades não-condicionais P(Ai).

Ou seja, o Teorema de Bayes expressa uma probabilidade condicional em termos de outras probabilidades condicionais e não condicionais (marginais).



Exemplo 1: Num estudo de reservatório foram sistematicamente amostrados (20 cm) os testemunhos de três poços. Do total de amostras 15% são do poço 1, 35% do poço 2 e 50% do poço 3. Nestes poços ocorrem 1%, 5% e 2%, respectivamente, de amostras cimentadas. Se uma amostra é escolhida ao acaso:

a) Qual a probabilidade de ser arenito cimentado? b) No caso dos três poços, dado que foi selecionada uma amostra

de arenito cimentado, qual a probabilidade de ser uma amostra dopoço 2?



Considere os eventos: Pi - “amostra selecionada do poço i”, com i =1, 2, 3 C - “amostra de arenito cimentado” Probabilidades fornecidas: P(P1) = 0,15; P(P2) = 0,35; P(P3) = 0,50 P(C | P1) = 0,01; P(C | P2) = 0,05; P(C | P3) = 0,02 Note que P1, P2 e P3 formam uma partição do espaço

amostral pois uma dada amostra cimentada vem, necessariamente, de um e apenas um dos 3 poços.



Então o evento C pode ser escrito em termos de interseções de C com os eventos P1, P2 e P3, conforme figura a seguir.

C = (C ∩ P1) U (C ∩ P2) U (C ∩ P3)

P1 P2

P3

C



C = (C ∩ P1) U (C ∩ P2) U (C ∩ P3) C é a união de três eventos disjuntos (ou mutuamente

exclusivos), logo aP(C) = (C ∩ P1) U (C ∩ P2) U (C ∩ P3) =P(C) = P[(C ∩ P1)] + P[(C ∩ P2)] + P[(C ∩ P3)] =

(*)

Se P(Pi)>0, para i = 1,2,3

Então P(C ∩ Pi) = P(C | Pi) P(Pi) (**)(**) em (*), temos que:

(***)

∑=

∩=3

1

)(i

iPCP

)()|()(3

1i

ii PPPCPCP ∑

=

=



Solução (cont.): a) Qual a probabilidade de ser arenito cimentado? Probabilidades fornecidas: P(P1) = 0,15; P(P2) = 0,35; P(P3) = 0,50 P(C | P1) = 0,01; P(C | P2) = 0,05; P(C | P3) = 0,02 Da página anterior, obtivemos que: P(C) = P(P1) P(C | P1) + P(P2) P(C | P2) + P(P3) P(C | P3) Logo, P(C) = (0,15)(0,01) + (0,35)(0,05) + (0,50)(0,02) = 0,029 = 2,9%



Solução (cont.): b) No caso dos três poços, dado que foi selecionada uma

amostra de arenito cimentado, qual a probabilidade de ser uma amostra do poço 2?

Queremos: P(P2 | C) = ? Da definição de probabilidade condicional temos que:

)(

)()|( 2

2 CP

CPPCPP

∩=



Solução (cont.): b) No caso dos três poços, dado que foi selecionada uma amostra de arenito cimentado, qual a probabilidade de ser uma amostra do poço 2?

Queremos: P(P2 | C) = ? Probabilidades fornecidas: P(P1) = 0,15; P(P2) = 0,35; P(P3) = 0,50 P(C | P1) = 0,01; P(C | P2) = 0,05; P(C | P3) = 0,02 Da página anterior, obtivemos que:

603,0029,0

)35,0)(05,0(

)()|()()|()()|(

)()|()|(

332211

222

==

=++

=PPPCPPPPCPPPPCP

PPPCPCPP



104

Variáveis Aleatórias Discretas




Noção Geral de Variável Aleatória Informalmente, uma variável aleatória (v.a.) é um número

associado a um resultado de um experimento.

Exemplo1: E - jogar uma moeda equilibrada duas vezes Ω = kk, kc, ck, cc, onde: k - coroa; c - cara

Eventos kk kc ck ccprobabilidades 1/4 1/4 1/4 1/4

105

Se definimos X - número de caras observadas, vemos que o valor de X depende do resultado do experimento.

Logo os possíveis valores de X são 0, 1, 2.

Valores de X Eventos correspondentes0 kk1 kc ou ck2 cc

********************************************************X 0 1 2P(X = xi) 1/4 1/2 1/4

∑ ==ix

ixXP 1)(

106


Exemplo: Ao descrever uma peça manufaturada, podemos empregar as categorias “defeituosa”e “não defeituosa”.

Todavia podemos atribuir um número a cada resultado não-numérico do experimento.

Por exemplo, peças “não-defeituosas” - atribuir o valor 1. peças “defeituosas” - atribuir o valor 0.

107


Notação Utiliza-se letras maiúsculas para v.a’s. (por ex., X, Y, Z,...) e para o

valor que elas assumem utiliza-se letras minúsculas, como, x, y , z,....

Em muitas situações experimentais, desejamos atribuir um número real x a todo elemento s do espaço amostral S.

Isto é, X(s) = x é o valor da função X do espaço amostral no espaço dos números reais.

Com isto em mente, formulamos a seguinte definição.

108


Definição: Sejam E um experimento e Ω um espaço amostral associado ao experimento.

Uma função X, que associe a cada elemento s Є Ω um número real, X(s), é denominada variável aleatória.

Em símbolos: X: Ω → Rs → X(s)=x

Graficamente,

109

Ω R

s . . X(s)X


Variáveis Aleatórias Discretas Uma variável aleatória é discreta se o número de valores

possíveis de X for finito (isto é, x1, x2,..., xk) ou se for infinito enumerável (isto é, x1, x2, ...,xk, ...).

Obs.: Usualmente, X assumirá apenas um número finito de valores.

110


O que queremos? A cada v.a. atribuir uma noção de probabilidade. Definimos então para cada valor xi da v.a. X, o evento, [X = x i] =

s Є S tal que X(s) = x i. Assim poderemos calcular P([X=xi]), ou simplesmente, P(X = x i). Voltando ao Exemplo 1: E - jogar uma moeda equilibrada duas vezes Ω = kk, kc, ck, cc, onde: k - coroa; c - cara X - v.a. que representa o número de caras observadas nos dois

lançamentos. [X=0] = kk [X=1] = ck, kc [X=2] = cc Logo: P(X=0) = 1/4, P(X=1) = 1/2, P(X=2) =1/4

111


Função de probabilidade (fp) A função que atribui a cada valor xi (i=1, 2,...) da variável aleatória

X sua probabilidade de ocorrência é denominada de função de probabilidade.

Notação utilizada: P(X=x i) = p(xi), i = 1, 2, ....ou ainda,

X x1 x2 x3 ......P(X=xi)=p(xi) p(x1) p(x2) p(x3) ......

Uma função de probabilidade satisfaz 0 ≤ p(xi) ≤ 1 e Σp(xi) = 1

112


Definição 2: Função de distribuição acumulada A função de distribuição acumulada (f.d.a.), ou

simplesmente função de distribuição de uma variável aleatória X é definida, para qualquer número real x, por:

Obs.: O domínio de F é todo o conjunto dos números reais, enquanto que o contradomínio é o intervalo [0,1].

∑≤

=≤=xx

i

i

xpxXPxF )()()(

113


Voltando ao Exemplo 1: Utilizando a função de probabilidade de X, temos que a função de distribuição acumulada de X édada por:

Relembrando: X - V.A. que representa o número de caras observadas nos dois lançamentos.X 0 1 2P(X = xi)=p(xi) 1/4 1/2 1/4

A função de distribuição acumulada (f.d.a.) de X é:

≥

<≤

<≤

<

=

2 xse ,1

2x1 ,4

3

1x0 ,4

1

0 xse ,0

)(

se

sexF

114


Gráfico da função de distribuição acumulada

0 1 2

1/2

3/4

1

F(x)

x

115


Exemplo 3: (Magalhães & Lima) Uma população de 1000 crianças foi analisada em um estudo

para determinar a efetividade de uma vacina contra um tipo de alergia. No estudo, as crianças recebiam uma dose de vacina e após um mês passavam por um novo teste. Caso ainda tivessem tido alguma reação alérgica, recebiam outra dose da vacina. Ao fim de 5 doses todas as crianças foram consideradas imunizadas.

Os resultados completos estão na tabela abaixo:

Doses 1 2 3 4 5freqüência 245 288 256 145 66

116


Supondo que uma criança é sorteada ao acaso dessa população, qual será a probabilidade dela ter recebido 2 doses?

Solução.: Utilizando a idéia de atribuir probabilidade através da freqüência de ocorrência, a probabilidade desejada é de: 288/1000 = 0,288.

A função de probabilidade da V.A. número de doses recebidas (X) fica sendo:

X 1 2 3 4 5p(xi) 0,245 0,288 0,256 0,145 0,066

117


Suponha agora que desejamos calcular a probabilidade da criança ter recebido até 2 doses de vacina.

Solução.: O que precisamos obter é a função de distribuição no ponto 2, ou seja, calcularmos a probabilidade de ocorrência de valores menores ou iguais a 2.

Logo, F(2) = P(X ≤ 2) = P(X=1) + P(X=2)= 0,245 + 0,288 =0,533.

118


Note que, tendo em vista que a variável aleatória sóassume os valores 1, 2, 3, 4 , 5; então o valor de F não

se altera no intervalo [2 ; 3).Ou seja, por exemplo, F(2,1)=F(2,5)=F(2,99)= 0,533.

Logo, podemos escrever: F(x) = P(X ≤ x) = 0,533 para 2 ≤x < 3.

A função de distribuição acumulada é:

≥<≤<≤<≤<≤

<

=

5 1

5x4 934,0

4x3 789,0

3x2 533,0

2x1 245,0

1 ,0

)(

xse

se

se

se

se

xse

xF

119


Gráfico da função de distribuição acumulada

0 1 2

0,245

0,533

0,789

F(x)

x3 4 5

0,939

1

120


Importante: i) 0 ≤ F(x) ≤ 1 ii) Observe que P(X = x i) é igual ao salto (“pulo”) que a

função F(x) dá no ponto xi; por exemplo, P(X=3) = F(3) - F(3-) = 0,789 - 0,533 = 0,256 . Generalizando: P(X=xi) = F(xi) - F(xi-)

121


Esperança e Variância de uma v. aleatória discreta Sabe-se que para descrever um conjunto de dados utiliza-

se medidas resumo como a média, a variância, etc. Pode-se fazer o mesmo para descrever um modelo

probabilístico. Para isto utiliza-se a média e a variância da variável

aleatória.

122


Definição: A média, valor esperado ou esperança de uma variável aleatória

discreta X é dada pela expressão:

Em palavras: A esperança (ou média) da variável aleatória X, representada por E(X), é uma média dos possíveis valores que a variável aleatória pode assumir ponderados pelas respectivas probabilidades de ocorrência.

Notação alternativa: µ = E(X)

∑=i

ii xpxXE )()(

123


Exemplo: A esperança da variável aleatória X. X - representa o número de caras obtidas no lançamento de 2

moedas.

X 0 1 2P(X = xi)=p(xi) 1/4 1/2 ¼

= 0.P(X=0) +1.P(X=1) + 2.P(X=2)= 0.(1/4) + 1.(1/2) + 2.(1/4)= (1/2) + (2/4) = 1

==∑i

ii xpxXE )()(

124


Definição: Seja X uma V.A. com média E(X) (ou, µ). Então a variância de X denotada por Var(X) é definida por:

Var(X) = E( X - E(X) )2 = E( X - µ)2 = Σ(xi - µ)2p(xi) Em palavras: A variância de X é a soma dos desvios

quadráticos em torno da média ponderados pelas probabilidades de ocorrência de X.

125


Observações importantes: Var(X) = E( X - E(X) )2 = E(X2) - (E(X))2

(maneira mais fácil para fazer os cálculos);onde:

Notação alternativa: σ2 = Var(X)

∑=i

ii xpxXE )()( 22

126


Definição: O desvio-padrão de uma V. aleatória discreta O desvio padrão de X, DP(X), é definido por:

Obs.: Em muitas aplicações é preferível usar o desvio padrão ao invés da variância, pois ele tem a mesma unidade de medida da variável aleatória.

)()( XVarXDP ==σ

127


Exemplo: A variância da variável aleatória X. X - representa o número de caras obtidas no lançamento de 2

moedas.

X 0 1 2P(X=xi)=p(xi) 1/4 1/2 ¼

Var(X) = E( X - E(X) )2 == E(X2) - (E(X))2 = Σx2p(x) − (E(X ))2 == (02×1/4 + 12×1/2 + 22×1/4) − 12 = (1/2 + 4/4)-1==1/2

128



Variáveis Aleatórias Independentes Relembrando: Os eventos aleatórios A e B são independentes se e somente se

P(A∩B)=P(A)P(B).

Definição: v.a’s. discretas independentes As variáveis aleatórias X e Y, assumindo os valores x1, x2, ......e

y1, y2, ....., respectivamente, são independentes se, e somente se, para todo par de valores (xi,yj) de X e Y,

Basta que a igualdade acima não seja satisfeita para um par (xi,yj), para que X e Y não sejam independentes.

A definição acima pode ser estendida para mais de duas v.a’s.


Propriedades do Valor Esperado: i) Se X = c, onde c é uma constante. Então: E(X) = c. ii) Suponha que b seja uma constante e suponha que X é uma v.a.

Então: E(bX) = b E(X). iii) Se a e b são constantes. Então: E(aX + b) = a E(X) + b. iv) Sejam X e Y duas v.a’s quaisquer. Então E(X+Y) = E(X) +

E(Y). v) Se X e Y são v.as. independentes. Então: E(XY) = E(X) E(Y).

130


Propriedades da Variância: i) Se c é uma constante. Então V(c) = 0. ii) Se c for uma constante. Então: V(X + c) = V(X). Esta

propriedade é intuitivamente evidente, porque somar uma constante a um resultado X não altera sua variabilidade, que é aquilo que a variância mede. Apenas “desloca” os valores de X para a direita ou para a esquerda, dependendo do sinal de c.

iii) Se c for uma constante. Então: V(cX) = c2V(X). iv) Para quaisquer constantes a e b, V(aX + b) = a2V(X).

131


Propriedades da Variância Covariância entre duas variáveis aleatórias A covariância e o coeficiente de correlação são medidas da

relação linear entre duas variáveis aleatórias.

Definição: Se X e Y são duas v.a’s, a covariância entre elas édefinida por

Cov(X,Y)=E[X-E(X)][Y-E(Y)]

Em palavras: a Covariância é o valor médio do produto dos desvios de X e Y em relação às suas respectivas médias.

132


Propriedades da Variância: vi) Se X e Y são v.a’s independentes. Então: V(X+Y) = V(X) +

V(Y). vii) Se X e Y são v.a’s independentes. Então: V(X - Y) = V(X) +

Var(Y). viii) Se X e Y não são v.a’s independentes:

Então: V(X + Y) = V(X) + V(Y) + 2Cov(X,Y)V(X - Y) = V(X) + V(-Y) + 2Cov(X,-Y) = V(X) + V(-Y) +

2E[X(-Y)] - E(X)E(-Y) = = V (X) + V(Y) + 2-E(XY) + E(X)E(Y) = V(X) + V(Y) – 2Cov(X,Y)

133


Definição: Quando a Cov(X,Y)=0, dizemos que as v.a’s X e Y são não correlacionadas.

Proposição: Se X e Y são duas v.a’s independentes então Cov(X,Y)=0.

Ou seja, se X e Y são independentes então elas são não correlacionadas.

Atenção: não vale a recíproca. Isto é, se X e Y são não correlacionadas (Cov(X,Y)=0) NÃO IMPLICA que X e Y sejam independentes.

Comentário: Se a correlação é zero, o que podemos dizer é que não existe dependência linear entre as variáveis.

134


O Coeficiente de Correlação A Covariância depende das unidades de medida de X e Y. O Coeficiente de Correlação não depende das unidades de

medida de X e Y. Definição: O coeficiente de correlação entre X e Y é definido por

Isto é, o coeficiente de correlação é a covariância dividida pelo produto dos desvios padrões das duas variáveis.

O coeficiente de correlação é uma medida da relação linear entre X e Y.

135

( ) ( )( ) ( )YX

YXCovYX

σσρ ,

, =


Variáveis Aleatórias Discretas: Bernoulli A Distribuição de Bernoulli Um experimento particularmente simples é um no qual somente 2

possíveis resultados existem. Exemplos: 1) Uma moeda é lançada: o resultado ou é cara ou é coroa. 2) Um dado é lançado: ou ocorre a face 5, ou não (neste caso,

ocorrendo uma das faces: 1,2, 3,4 ou 6). 3) Uma peça é escolhida, ao acaso, de um lote contendo 300

peças: esta peça é defeituosa ou não. 4) Uma pessoa escolhida, ao acaso, dentre 500 pessoas: é ou

não do sexo masculino.

136


Variáveis Aleatórias Discretas: Bernoulli O resultado de cada experimento acima pode ser classificado

como sucesso ou fracasso . Para cada experimento anterior podemos designar os dois

resultados possíveis do experimento por 0 e 1. Então, vamos definir uma v.a. X que assume apenas 2 valores: X

= 1 se ocorre sucesso e X = 0 se ocorre fracasso. Indicaremos por p a probabilidade de sucesso, isto é, P(Sucesso)

= p, 0 < p < 1

137


Variáveis Aleatórias Discretas: Bernoulli Definição : Dizemos que uma v.a. X tem uma distribuição de

Bernoulli (ou é uma v.a. de Bernoulli) com parâmetro p (com 0 < p < 1), se X assume somente os valores 0 e 1 com função de probabilidade:

Onde: q=1-p. Ou escrevendo de outra maneira: P(X = 1) = p, P(X = 0) = 1 – p.

Experimentos que resultam em uma v.a. de Bernoulli são chamados de ensaios de Bernoulli.

138


139

• Variáveis Aleatórias Discretas: Bernoulli


Variáveis Aleatórias Discretas: Bernoulli Exemplo : Experimento - lançamento de um dado equilibrado. Seja

X = 1, se a face 5 ocorre e X = 0 , caso contrário. Determine a função de probabilidade de X.

Solução: X 0 1 P(X=x) 5/6 1/6

140


Variáveis Aleatórias Discretas: Binomial A Distribuição Binomial Considere agora n ensaios de Bernoulli. Isto é, suponha que

repitamos um ensaio de Bernoulli n vezes. Suponha que as repetições são independentes (resultado de um

ensaio não afeta o resultado de qualquer outro ensaio). A probabilidade de sucesso em cada ensaio é constante (é

sempre p). Um resultado qualquer será constituído de uma seqüência de

sucessos e fracassos, ou, de uns e zeros.

141


Variáveis Aleatórias Discretas: Binomial Definição: Chama-se experimento binomial ao experimento: i) Que consiste em n ensaios de Bernoulli; ii) Cujos ensaios são independentes; iii) A probabilidade de sucesso em cada ensaio é sempre igual a p.

Definição : Seja X uma v.a. que representa o número de sucessos em n ensaios (ou experimentos) de Bernoulli. Então X é uma v.a. binomial com parâmetros (n, p). A função de probabilidade de uma v.a. binomial com parâmetros n e p é dada por:

142


Variáveis Aleatórias Discretas: Binomial Se X é uma V.A. binomial com parâmetros n e p, denota-se por X

~ bin (n, p).

Esperança de X: E(X) = np Variância de X: Var(X) = np(1-p)

Se cada uma das v.a’s X1, X2, ..., Xn tem distribuição de Bernoulli com parâmetro p e se

X = X1 + X2 + ...+ Xn

Então X tem distribuição binomial com parâmetros n e p.

143


Variáveis Aleatórias Discretas: Binomial Se X1, X2, ..., Xk são v.a.’s independentes e se cada Xi tem

distribuição binomial com parâmetros ni (i =1, 2, ..., k) e p.Então a soma X1 + X2 +...+ Xk

tem distribuição binomial com parâmetros (n1 + n2 +...+ nk) e p. (isto é, X1 + X2 + ...+ Xk ~ Bin (n1 + n2 +...+ nk, p)).

144


Variáveis Aleatórias Discretas: Poisson

A Distribuição de Poisson Quando observamos eventos discretos em uma área de

oportunidade (intervalo de tempo, superfície, volume, etc) de modo que se encurtarmos suficientemente a área em pequenas unidades:1) Em cada unidade a probabilidade de observarmos exatamente um sucesso é estável;2) Em cada unidade a probabilidade de observarmos mais de um sucesso é zero;3) A probabilidade de sucesso em cada unidade éestatisticamente independente das demais. Podemos utilizar a distribuição de Poisson para modelar o fenômeno observado.

145


Variáveis Aleatórias Discretas: Poisson Definição : Uma v.a. X é uma v.a. de Poisson com parâmetro

λ > 0, se sua função de probabilidade é dada por:

Onde P(X=x) é a probabilidade de observarmos x sucessos, dado que em média são esperados λ sucessos por unidade.

Notação: X ~ Pois (λ) Observação: e = 2,71828

146


Variáveis Aleatórias Discretas: Poisson

A distribuição de Poisson fornece um modelo para muitos fenômenos aleatórios, como por exemplo:

a) o nº de acidentes fatais por semana em um dado lugar; b) o nº de falhas de um computador em um dia de operação; c) o nº de partículas radioativas emitidas por unidade de tempo; d) o nº de chamadas telefônicas por hora que chegam a uma

central telefônica de uma empresa; e) o nº de bactérias por unidade de volume de algum fluido; f) o nº de defeitos de algum arame por unidade de comprimento

147


Variáveis Aleatórias Discretas: Poisson A distribuição de Poisson como aproximação da distr ibuição

Binomial (n,p).

Se n é grande, p é pequeno, então

Observação: A aproximação é boa se n é grande e p é pequeno e de tal forma que np ≤ 7.

148



Variáveis Aleatórias Contínuas



Variável Aleatória Contínua Uma função X, definida sobre o espaço amostral Ω e assumindo

valores em um intervalo de números reais, é chamada uma variável aleatória contínua.

Informalmente: X é uma v.a. contínua se o número de valores possíveis de X for um intervalo ou uma coleção de intervalos. Os valores da v.a. são, usualmente, resultantes de uma mensuração.

Exemplos: Medidas de: comprimento, área, peso, altura, salário, tempo de

vida de um equipamento, etc. São quantidades que podem ser modeladas por variáveis

aleatórias contínuas.



Função Densidade de Probabilidade (fdp) A fdp é um modelo teórico para as freqüências relativas de uma

variável aleatória contínua. Diz-se que X é uma v.a. contínua se existir uma função f,

denominada função densidade de probabilidade (fdp), que satisfaça às seguintes condições:

( ) . e entre áreadXc P 3)

1;curva a sob Área 2)

x;0,f(x) 1)

dc=<<=

∀≥

f(x)

0c d x


Observações Importantes: 1) A condição ii) pode ser escrita como

2) P( a < X < b) representa a área sob a curva da fdp f entre a e b (com a < b).

3) Pela forma como atribuímos as probabilidades no caso contínuo, teremos área zero sob qualquer valor individual, logo, P(X=x0) = 0, para qualquer x0.

4) Devido a obs. anterior, se X for uma v.a. contínua, então todas as probabilidades abaixo são iguais: P(a < X < b), P(a ≤ X < b), P(a < X ≤ b), P(a ≤ X ≤ b), para quaisquer a e b.

1)( =

∫∞

∞−

dxxf


5) Note que a função de densidade de probabilidade (fdp) não é uma probabilidade, mas uma função matemática que nos auxilia na atribuição de probabilidades.

6) Relembrando:

)()()( aPfbPfa

bPfdxxf

b

a

−==∫

Teorema Fundamental do Cálculo Primitiva de f definição


Definição: Função de distribuição acumulada A função de distribuição acumulada (f.d.a.), ou simplesmente

função de distribuição de uma variável aleatória contínua X édefinida, para qualquer número real x, por:

Exemplo 5: Seja X uma variável aleatória contínua com fdp dada por:

a) Determine a f.d.a de X . Isto é , determine F(x).

real. x todopara ,)()()( ∫∞−

=≤=x

duufxXPxF

≤≤

=c.c. 0,

1x0 ,2)(

xxf


Resolução:

≤≤

=c.c. 0,

1x0 ,2)(

xxf

≥=++=++

<≤=+=+

<

=

∫ ∫ ∫

∫ ∫

∫

∞

∞

∞

0

-

1

0

10

2

1

0

- 0

20

2

0

-

1 se ,10|2

20020du

1x0 se ,|2

2020du

0 se ,0du

)(

xu

duudu

xu

udu

x

xF

x

xx


Logo:

Gráfico de F(x):

≥<≤

<

=1 se 1

1x0 se ,

0 se ,0

)( 2

x

x

x

xF

1

1 x

F(x)


Importante: i) 0 ≤F(x) ≤ 1, para todo x realii) lim x→ -∞F(x) = 0 iii) lim x→∞F(x) = 1 iv) No caso de uma V.A. contínua, não há saltos (“pulos”) na f.d.a., ou seja, F(x) - F(x-) = 0. v) Para todos os valores de x para os quais F(x) é derivável temos que,

)()(

)(' xfdx

xdFxF ==


Exemplo: Suponha que

seja a f.d.a. de uma V.A. X. Determine a fdp de X. Solução: Utilizando o fato que

temos que

≥<≤

<

=1 se 1

1x0 se ,

0 se ,0

)( 2

x

x

x

xF

)()(

)(' xfdx

xdFxF ==

≤≤

=c.c. 0,

1x0 ,2)(

xxf


Definição: A média, valor esperado ou esperança de uma variável aleatória contínua X, com função de densidade f, é dada pela expressão:

Notação alternativa: µ = E(X)

∫∞

∞−

= dxxxfXE )()(


Variância para variáveis aleatórias contínuas Definição: Se X é uma V.A. contínua com média E(X). Então a

variância de X denotada por Var(X) é definida por:

Notação alternativa: σ2 = Var(X) Expressão alternativa: Var(X) = E( X - E(X) )2 = E(X2) -(E(X))2

(maneira fácil para fazer os cálculos); onde:

∫∞

∞−

−=−=−= dxxfxXEXEXEXVar )()()())(()( 222 µµ

∫∞

∞−

= dxxfxXE )()( 22


Definição: O desvio-padrão de uma V. aleatória contínua O desvio padrão de X, DP(X), é definido por:

Obs.: Em muitas aplicações é preferível usar o desvio padrão ao invés da variância, pois ele tem a mesma unidade de medida da variável aleatória.

)()( XVarXDP ==σ


Exemplo: Geólogos estudaram uma certa região e estabeleceram um modelo teórico para a variável X, comprimento de fósseis da região (em cm).

Suponha que X seja uma V.A. contínua com a seguinte fdp:

a) Calcule E(X). b) Calcule DP(X).

≤≤

+=

contráriosoc

px

xf

a ,0

20x0 ara ,11040

1)(


Alguns modelos probabilísticos p/ variáveis aleatór ias contínuas

De um modo geral, podemos dizer que as variáveis aleatórias cujos valores resultam de mensuração são V.A. contínuas.

Exemplos: Os pesos ou as alturas de pessoas de uma cidade; A demanda diária de arroz em um supermercado; O tempo de vida de uma lâmpada; Erros de medida resultantes de experimentos laboratoriais.


Alguns modelos contínuos

Distribuição Uniforme; Distribuição Normal; Distribuição Exponencial; Distribuição Lognormal;


Definição : Distribuição UniformeUma variável aleatória X tem distribuição uniforme no intervalo [a,b], com −∞ < a < b < +∞, a,b Є ℜ se sua função de densidade de probabilidade (fdp) é dada por


Distribuição Uniforme A função de distribuição de X, F(x), é dada por


Se X é uniformemente distribuída no intervalo [a,b] então: E(x) = (a + b)/2 Var(X) = (b - a)2/12

Verificando


Distribuição Uniforme Exemplo 1 : Suponha que X seja uma V.A. que represente a

corrente medida em um fio fino de cobre (em mili amperes). Assuma que X é uniformemente distribuída no intervalo [9mA,11mA]. Qual a probabilidade que a corrente medida esteja entre 9,5 e 10 mA? Calcule também a esperança de X, a variância e o desvio padrão.


Solução:


A distribuição Normal A distribuição normal é uma das distribuições mais

importantes em estatística. A distribuição Normal foi introduzida pelo matemático francês

Abraham De Moivre em 1733. Foi usada por ele para aproximar probabilidades associadas

com v.a.’s Binomiais quando n é grande. Todavia, o trabalho de De Moivre foi perdido (por algum

tempo) e, independentemente Karl Gauss desenvolveu a distribuição Normal 100 anos mais tarde (aproximadamente).

A Normal - também conhecida como Gaussiana.


Definição : Dizemos que a V.A. X tem distribuição Normal com parâmetros µ e σ2, -∞ < µ < +∞ e 0 < σ2 < +∞, se sua fdp é dada por:

Notação: X ~ N(µ, σ2)


Conhecidos os valores de µ e σ, a fórmula anterior fica determinada para qualquer valor de X.

É possível calcular qual a probabilidade (ou a proporção de valores) em cada intervalo de dados.

Denotamos por N(µ;σ) ou N(µ;σ2), a distribuição Normal com média µ e desvio padrão σ (ou variância σ2) isto é, (X ~ N(µ;σ2)).


Modelo Normal - A área sob o gráfico de f(x) (ou sob a curva de freqüência normal) é igual a 1, pois f(x) é uma fdp. Esta propriedade vale para quaisquer valores de (µ,σ).

Área sob o gráfico de f(x) em um intervalo especificado representa a probabilidade (essencialmente, a proporção de casos ou freqüência relativa) no intervalo.


Calculando Probabilidades


Suponha que X~ N(µ, σ2) e queiramos determinar

A integral acima indicada não pode ser calculada exatamente, e a probabilidade indicada só pode ser obtida aproximadamente por métodos numéricos.

Esta tarefa é facilitada pelo uso da variável Z=(X-µ)/σ, desta forma somente é necessário construir uma tabela para a distribuição normal padrão, (N(0,1)).


Teorema 1:

Se X ~ N(µ,σ2) e Y = aX + b, onde a e b são constantes e a ≠ 0, Então Y ~ N(aµ+b, a2σ2).

Corolário 1: Seja X ~ N(µ, σ2). Então, Z = (X −µ)/σ ~ N (0,1)


Quando uma distribuição normal tem µ = 0, e σ2 = 1, a distribuição é chamada de distribuição normal padrão ou reduzida.

Observação: A densidade e a função de distribuição de um V.A. N(0,1) são denotadas usualmente por φ e Φ. Assim, a fdp de Z é:


Exemplo 4: Suponha que diâmetros de eixos manufaturados por uma máquina são V.A.’s normais com média 10cm e desvio padrão 0,1cm. Para uma dada aplicação o eixo deve satisfazer a especificação que o diâmetro esteja entre 9,9 e 10,2cm. Qual é a proporção de eixos produzidos por essa máquina que satisfazem a especificação?


Solução:


Combinações lineares de V.A.'s distribuídas normalm ente Teorema 2 : Se as V.A.'s X1, X2, ....., Xk são independentes e

se Xi ~ N(µi,σi2), i = 1,...,k, então a soma

Corolário 2: Se as V.A.'s X1, X2, ....., Xk são independentes, se Xi~N(µi, σi

2), i=1,...,k, e se a1, a2, ....., ak são constantes sendo pelo menos uma das ai’s não nulas, então


Corolário 3: Suponha que X1, X2, ....., Xn constituam uma sequência v.a.’s independentes e normalmente distribuídas com E(Xi)=µ e V(Xi)=σ2. Seja

a média amostral. Então

),N(

n

µXZ 10~σ

−=


194

Distribuição Exponencial Definição : A V.A. X tem distribuição exponencial com parâmetro λ

(λ>0) se a sua fdp é:

A fda de X é dada por:


195

Se X ~ Exp(λ), então: (i) E(X) = 1/λ, (ii) Var(X) = 1/λ2

Aplicações: na engenharia, física, biologia, etc. A distribuição exponencial é utilizada como um modelo para o tempo

de vida de várias “coisas”. Por exemplo: Tempo de vida de equipamentos; Tempo que um átomo radioativo leva para se desintegrar; O tempo requerido para atender um cliente em um estabelecimento; Intervalos entre solicitações de serviços; Tempos de sobrevivência de espécies; etc. A exponencial representa o tempo de vida (ou tempo de espera) até

que um evento ocorra.


196

Exemplo 2: O tempo de vida (em horas) de uma lâmpada éuma V.A. T com fdp

Qual a probabilidade de que o tempo de vida da lâmpada seja maior do que a sua média?


197

Solução: E(T) = 500 horas (vida média da lâmpada). Assim,


198

Exemplo 3: Considere a variável aleatória X que representa o intervalo de tempo em minutos entre emissões consecutivas de uma fonte radioativa, tal que X ~ Exp( λ ) , com λ = 0,2 .

a) Calcule a probabilidade de ocorrer emissão em um intervalo inferior ou igual a 2 minutos.

b) Calcule a probabilidade deste intervalo de tempo ser superior a 7, sabendo-se que é maior que 5.


199

a)


200

b) Calcule a probabilidade deste intervalo de tempo ser superior a 7, sabendo-se que é maior que 5.

Adicionalmente, note que:

Este fato é uma importante propriedade da distribuição exponencial.


201

Falta de memória da Distribuição Exponencial Se X ~ exp(λ) então



A distribuição lognormal

Para dados que são altamente assimétricos ou que contêm outliers, a distribuição normal, em geral, não é apropriada. A distribuição lognormal, que é relacionada com a normal, éfrequentemente uma boa escolha para estes conjuntos de dados. A distribuição lognormal é derivada da distribuição normal como segue:

Se X é uma variável aleatória com média µ e variância σ2, então a variável Y = ex é dita ter a distribuição lognormal com parâmetros µ e σ2. Note que se Y tem distribuição lognormal com parâmetros µ e σ2, então X = lnY tem distribuição normal com média µ e variância σ2.



Função densidade de probabilidade da lognormal

Se Y é uma variável aleatória com distribuição lognormal de parâmetros µ e σ2, então a média E(Y) e a variância V(Y) são dadas por

( )

≤

>

−−=

00

0ln2

1exp

2

1)(

2

2

xse

xsexxxf

µσπσ

( )

( ) 22

2

222

2

σµσµ

σµ

++

+

−=

=

eeYV

eYE



Note que se Y tem distribuição lognormal, os parâmetros µ e σ2

não se referem à média e variância de Y.

Exercício: Os tempos de vida de certo componente eletrônico são

distribuídos com parâmetros µ =1 dia e σ = 0,5 dia.

a) Encontre o tempo de vida médio destes componentes. Encontre o desvio padrão dos tempos de vida.

b) Calcule P(Y>4).


205

Teorema do Limite Central



Definição: Amostra Aleatória (a.a) Suponha que exista uma distribuição (implícita) para a população

de tal forma que os dados amostrais possam ser pensados como v.a.’s independentes tendo esta distribuição.

Uma amostra aleatória de tamanho n de uma v.a. X com dada distribuição é um conjunto X1, X2,…,Xn de n v.a’s independentes, cada uma com a mesma distribuição de X.

Por exemplo, suponha que se esteja investigando o tempo de vida de lâmpadas

produzidas por uma fábrica. Suponha que o tempo de vida (X) seja Normalmente distribuído. Espera-se que cada uma das observações do tempo X1, X2,...,Xn

em uma a.a. de n lâmpadas sejam v.a.’s independentes com a mesma distribuição Normal.

206


Estatística Se X1,X2,...,Xn é uma a.a de uma v.a. X, uma estatística é qualquer função de X1,X2,...,Xn. As estatísticas mais comuns são: a média amostral, a proporção amostral, a variância amostral, o desvio padrão amostral.

O processo de tirar conclusões acerca da população baseado em dados amostrais faz uso constante destas estatísticas.

207


Distribuição de Amostragem Um dos principais objetivos da análise de dados é utilizar as

estatísticas da amostra, como a média aritmética da amostra e a proporção da amostra, para estimar os parâmetros correspondentes nas respectivas populações.

Hipoteticamente, para utilizar a estatística de amostragem para estimar o parâmetro da população, deveríamos examinar cada amostra que tivesse possibilidade de ocorrer.

Se essa seleção de todas as amostras possíveis fosse efetivamente realizada, a distribuição dos resultados seria chamada de distribuição de amostragem.

O processo de generalização dos resultados dessas amostras para toda a população é chamado de inferência estatística.

Na prática, uma amostra simples de tamanho predeterminado éselecionada aleatoriamente, a partir da população.

208


22121 nσ)X...XV(Xenµ)X...XE(Xonde nn =+++=+++

209

O Teorema do Limite Central O TLC é um dos resultados mais extraordinários em probabilidade. Informalmente, o teorema afirma que a soma de um grande

número de v.a.’s independentes possui uma distribuição de amostragem aproximadamente Normal.

Seja X1, X2,...,Xn uma sequência de v.a. independentes e identicamente distribuídas, com E(Xi)=µ e V(Xi)=σ2.

Façamos X=X1+X2+...+Xn.

N(0;1). n

nXXXZ de amostragem de ãodistribuiçA

grande mentesuficiente én quando Então,

n21 ≅×−+++=σσσσ

µµµµ...


∑=

=n

i

i

n

XX

1

210

Distribuição de amostragem da média aritmética Equivalentemente, com as mesmas hipóteses anteriores o TLC

também é apresentado da seguinte forma: Seja X1, X2,...,Xn uma sequência de v.a. independentes e

identicamente distribuídas (iid), com E(Xi)=µ e V(Xi)=σ2. Façamos

Então a distribuição de amostragem da variável

grandefor n quando N(0,1),

nσ

µX →−=Z


Aproximação Normal da distribição BinomialSe X tiver uma distribuição binomial com parâmetros n e p, e se

Então, para n grande, Y terá uma distribuição aproximadamente N(0,1).n > 10, se p ≈ ½. n ≈ 30, se p ≈ 0 ou 1. Na prática esta aproximação será razoável

quando np>5 e n(1-p)>5.Notamos agora duas aproximações possíveis para a dist. Binomial:

- Poisson: quando n é grande e p é pequeno (np≤7)- Normal

)1( pnp

npXY

−−=

211


Aproximação Normal da distribuição das proporçõesSe X for o número de sucessos e for a proporção de sucessos em uma amostra aleatória de tamanho n, tal que , então

e portanto a v.a.

terá uma distribuição aproximadamente N(0,1), para n grande.n > 10, se p ≈ ½. n ≈ 30, se p ≈ 0 ou 1. Na prática esta aproximação será razoável

quando np≥5 e n(1-p)≥5.

( ) ( ) ( )n

pp

n

pnp

n

XXXV

n

XVpV n

n

i

ip

−=−=

+++=

== ∑=

11...ˆ

221

1ˆσ

n

pp

ppZ

)1(

ˆ

−−=

212

nXp /ˆ =p


Aproximação Normal da distribuição de Poisson Se X tiver distribuição de Poisson com parâmetro λ suficientemente grande então:

terá uma distribuição aproximadamente N(0,1).Na prática, esta aproximação será razoável quando λ>18.

213

λλ−= X

Z


Observação: 1) A velocidade de convergência depende da distribuição inicial, sendo mais rápida nas distribuições simétricas.2) Pelo teorema temos que quanto maior é o tamanho da amostra, melhor é a aproximação. Estudos envolvendo simulações mostram que em muitos casos valores de n ao redor de 30 fornecem aproximações bastante boas na prática.3) Nos casos em que a verdadeira distribuição dos dados ésimétrica, excelentes aproximações são obtidas, mesmo com valores de n inferiores a 30.

214


Correção de continuidade Ao empregar aproximações Normais para a Binomial ou Poisson

estamos aproximando a distribuição de uma variável aleatória discreta por uma contínua. Isto requer cautela quanto às extremidades dos intervalos considerados.

Se a variável aleatória é contínua, a probabilidade de um ponto énula (por ex., P(X=3)=0), enquanto para uma variável aleatória discreta esta probabilidade pode ou não ser nula.

Para melhorar a aproximação, é costume alterar em 0,5 unidades os valores das extremidades dos intervalos, para mais ou para menos.

215


Correção de continuidade

i)

ii)

iii)

iv)

)5,0()( −≥=≥ xXPxXP

216

)5,0()( +≥=> xXPxXP

)5,0()( +≤=≤ xXPxXP

)5,0()( −≤=< xXPxXP



Nõções de Análise de Risco

Nõções de Análise de Risco



Valor Monetário Esperado Avaliação Econômica de um Prospecto

Ω = seco, acumulação pequena, acumulação média, acumulação grande = S,P,M,G.P(S)=0,90P(P)=0,06 P(M)=0,03P(G)=0,01

Noções de Análise de Risco


Avaliação Econômica de um Prospecto

X = (S, -5), (P, 20), (M, 100), (G, 500).VME = valor monetário estimado = E(X)

= (-5)(0,90) + (20)(0,06) + (100)(0,03) + (500)(0,01)== 4,7 milhões.



Análise de Risco Tabela de Retorno

Onde xij é o retorno que ocorre quando o rumo de ação j é selecionado e

o evento i ocorre.

Tabela 1 - Tabela de Retorno para a ação Ai

Rumos de ação alternativos (ações a tomar)

Eventos A1 A2

E1 x11 x12

E2 x21 x22



Análise de Risco

Árvore de Decisão

x11

A1

A2

E1

E2

E1

E2

x21

x12

x22



Análise de Risco Perda de Oportunidade É a diferença entre o lucro mais elevado possível para um evento

e o lucro real obtido para uma ação empreendida. Valor Monetário Esperado (VME) para um rumo de ação j é o

lucro para cada combinação Xij do evento i e da ação j, vezes a probabilidade de ocorrência do evento Pi, somado para todos os eventos.

VMEj = valor monetário esperado da ação j; Xij = retorno que ocorre quando o rumo de ação j é selecionado e

o evento i ocorre; Pi = probabilidade de ocorrência do evento i.

∑=

=n

iiijj PXVME

1



Análise de Risco

Perda de Oportunidade Esperada

POEj = perda de oportunidade esperada da ação j; lij = perda de oportunidade que ocorre quando o rumo de ação j é

selecionado e o evento i ocorre; Pi = probabilidade de ocorrência do evento i.

∑=

=n

iiijj PlPOE

1



Análise de Risco Lucro esperado em condições de certeza Representa o lucro que será realizado se tivermos a informação

perfeita sobre qual evento irá ocorrer.

Valor Esperado da Informação Perfeita (VEIP) Representa a quantia máxima que estamos dispostos a pagar

para obter a informação perfeita.

VEIP = lucro esperado em condições de certeza – valor monetário esperado da melhor alternativa.

VEIP = POE (menor)



Análise de Risco

Relação entre Retorno e Risco

VMEj = valor monetário esperado da ação j; σj = desvio padrão para a ação j;

j

jj

σ

VMErisco e retorno entre Relação =


226226

Bibliografia

BUSSAB, W. O., MORETTIN, P. A. (2005). Estatística Básica . 5ª ed. São Paulo: Saraiva.

CIENFUEGOS, F. Estatística Aplicada ao Laboratório . Editora Interciência. 2005.

COSTA NETO, P. L. O. Estatística . São Paulo, 15ª ed., Edgard Blücher, 1997.

LEVINE, D. M., BERENSON, M. L. e STEPHAN, D. (1998) . Estatística: Teoria e Aplicações Usando Microsoft E xcel em Português . Rio de Janeiro: LTC.

227227

Bibliografia

MAGALHÃES, M.N. e LIMA, A.C.P. (2005). Noções de Probabilidade e Estatística , 6ª ed. rev. – São Paulo: Editora da Universidade de São Paulo.

MONTOMERY, DOUGLAS C., Estatística Aplicada e Probabilidade para Engenheiros , 2ª ed. LCT 2003.

SPIEGEL, M.R, Estatística , 3ª ed., Makron Books, 1993, Rio de Janeiro.

TRIOLA, MARIO F. Introdução à Estatística , 9ª ed., LCT, 2005.

apostila

Documents