medidas de posiÇÃo - nead.uesc.brnead.uesc.br/arquivos/biologia/mod4bloco3/eb11/estatistica... ·...

Estatística Descritiva Profª Maria Eliane

Licenciatura em Biologia, Educação à Distância, UESC 2011.2 46

MEDIDAS DE POSIÇÃO

CONCEITO São medidas denominadas de estatísticas, que dão uma idéia condensada

de todo o conjunto de dados. Também são conhecidas como medidas de localização, e em conjunto com as medidas de dispersão formam as medidas resumo.

UTILIDADE Fornecer uma descrição resumida sobre o comportamento de um

determinado fenômeno; caracterizar um grupo como um todo, através de um valor único. Ex.: Quanto é o gasto médio mensal da família brasileira com alimentação?

Qual o tipo sangüíbneo mais comum? Qual o valor que divide um lote de produtos, em produtos de qualidade

superior e de qualidade inferior? TIPOS Abordaremos os aspectos mais importantes de seis medidas de posição,

para dados isolados. Essas medidas são:

Média

Mediana

Moda

• Quartil

• Decil

• Percentil

Medidas de Tendência Central para Dados Isolados (dados que não estão em intervalos ou faixas)

1. Média É o valor que pode substituir todos os valores da variável, isto é, é o valor que a variável teria se em vez de variável ela fosse constante. A média torna todos os valores de um conjunto de dados iguais a um único valor, que é resultante da operação de cálculo. Existem vários tipos de médias: aritmética, geométrica e harmônica. Estudaremos a média aritmética simples. Média Aritmética: é o resultado da soma de todos os valores dos dados dividido pelo número de dados. É a mais utilizada e geralmente quando se menciona o termo média, refere-se à aritmética.

Medidas de Tendência Central: assim chamadas porque estão no valor central de um conjunto de dados ordenado, ou o mais próximo dele.

Separatrizes: assim chamadas porque separam, dividem um conjunto de dados ordenado em partes percentuais iguais.



O modelo de cálculo da média amostral é dado por: n

x

x

n

i

i∑== 1

Onde, Σxi= somatório dos valores de xi

i = índice que varia de 1 a n elementos da amostra ou

n= tamanho da amostra em estudo.

Exemplo→→→→ a pesagem individual de uma amostra dos componentes de um grupo de macacos (adultos) em uma área de proteção ambiental (APA), apresentou os seguintes valores em quilograma:

5 6 4 5 7 8 A amostra tem 6 elementos (seis macacos), então n=6. Significa que i= macaco 1, 2, 3, 4, 5 e 6 ou seja, x= peso em Kg de macacos adultos é a variável a ser conhecida, será representada individualmente pelo peso de cada macaco da amostra (x1 x2 x3 x4 x5 e x6). Desse modo, 5 6 4 5 7 8 x1 x2 x3 x4 x5 x6

Colocando os valores no modelo de cálculo da média temos 6

6

1∑

== i

ix

x

Kgxxxxxx

x 83,56

35

6

875465

6654321 ==

+++++=

+++++=

Significa que o grupo de macacos da APA pesam em média 5,83Kg. Todos os macacos terão esse valor para representar o seu peso. Verifique que, ao ordenar os dados de forma crescente, o valor da média encontrada estará no centro dos valores do conjunto de dados. Por esse motivo a média é uma medida chamada de tendência central:

4 5 5 5,83 6 7 8 Centro



Mas é preciso ter cuidado ao utilizar a média em pesquisas, pois é uma medida que sofre a influência de valores muito pequenos ou muito grandes presentes em um conjunto de dados. Isso faz com que haja uma distorção nos resultados. Falaremos desse assunto após conhecermos as outras medidas de tendência central. 2. Mediana

É o valor central dos valores ordenados (de forma crescente ou decrescente), que estabelece um limite que separa os dados em metade superior (50%) e metade inferior a ele (50%). É simbolizado pela sigla Me ou por x~ . Valor mínimo Mediana Valor máximo

50% 50% 50% dos valores do conjunto de dados estão abaixo do valor da Me 50% dos valores do conjunto de dados estão acima do valor da Me

Exemplo: 3 4 5 6 7

↑é o valor mediano desse conjunto de dados, observe que está no centro. Por isso é uma medida de tendência central.

Para encontrar a posição do elemento mediano em um conjunto de dados com número ímpar de elementos usamos o seguinte modelo matemático:

21n

PEMe+

= Onde PEMe = Posição do Elemento Mediano

n= número de elementos que compõem o conjunto de dados (população ou amostra) Exemplo: suponha que a amostra do grupo de macacos pesquisado na APA, fosse de 5 elementos. O elemento que será o peso mediano é:

posiçãoa3==

+=

+=

26

215

21n

PEMe ,

com os pesos ordenados de forma crescente: 4 5 5 6 7 ↑esta é a 3ª posição Portanto, o peso mediano desse grupo de maçados é de 5Kg. Significa que 50% dos macacos do grupo possuem peso igual ou abaixo de 5Kg, e 50% dos macacos do grupo possuem peso acima de 5Kg. Se não fosse utilizado o fator de correção +1, a posição do elemento seria: 5/2= 2,5aposição. Observe que para esta posição o valor do elemento estaria deslocado do centro do conjunto de dados, não iria representar uma divisão exatamente ao meio com 50% para cada lado em relação ao valor. Observe que o cálculo feito apenas encontra a posição do elemento mediano, e não o seu valor. O valor é encontrado por meio da visualização do conjunto ordenado, onde identificamos qual é o valor que está na posição encontrada no cálculo. Cuidado para não confundir a posição com o valor do dado mediano.



Para encontrar a posição do elemento mediano em um conjunto de dados com número par de elementos usamos o mesmo modelo matemático. Assim, considerando a amostra do peso de seis macacos:

.5,3 posiçãoa==

+=

+=

27

216

21n

PEMe O valor do peso mediano está entre a 3ª e a 4ª posição

com os pesos ordenados de forma crescente: 4 5 5 6 7 8

↑ ↑ 3ª 4ª

O valor da mediana corresponderá à média aritmética entre os valores encontrados nas posições:

.5,56

Kg==+

=2

112

5eM

3. Moda

É o valor que apresenta a maior frequência no fenômeno estudado. É a única medida de tendência central que pode ser aplicada a todos os níveis de medida (nominal, ordinal, intervalar e racional). É simbolizado pela sigla Mo ou por x

r.

Exemplo→ para a amostra do peso de seis macacos: 4 5 5 6 7 8 O peso modal é 5Kg, porque é o peso que aparece com maior freqüência (2 vezes). O conjunto de dados com uma única moda é chamado de UNIMODAL. Numa série ou conjunto de dados pode ocorrer que: • A moda seja dois números:

4 5 5 6 6 7 8 , Mo= 5 e 6 (BIMODAL)

• A moda seja mais de números: 4 5 5 6 6 7 7 8 , Mo= 5; 6 e 7 (MULTIMODAL)

• Não existir valor modal: 4 5 6 7 8 , (AMODAL) A moda (para dados isolados) é estimada pela simples inspeção dos dados, observando-se qual o valor onde há maior número de freqüência. Não há cálculo. Observe que o valor modal tende a ser um número central ou o mais próximo do centro do conjunto de dados, por isso a moda também é uma medida de tendência central.



Cuidado ao utilizar a média Voltemos a falar sobre o cuidado ao utilizar a média em pesquisas, pois é uma medida que sofre a influência de valores muito pequenos ou muito grandes presentes em um conjunto de dados. Isso faz com que haja uma distorção nos resultados. Para ilustrar, suponha um estudo realizado em três regiões geográficas diferentes, para estimar o número de uma espécie de pássaro. Em cada região foram selecionadas cinco áreas, onde o número de pássaros foi contado, obtendo-se os seguintes resultados:

Região Área 1 Área 2 Área 3 Área 4 Área 5 Medidas de Tendência central

Média Mediana Moda

A 1 1 2 3 3 2 2 1 e 3

B 1 2 2 3 4 2,4 2 2

C 1 2 3 3 31 8 3 3

Observe que o valor da média de pássaros da região C ( )8=x foi muito influenciada pelo valor da contagem da área 5 (n=31), que é bem maior que os demais valores do conjunto de dados dessa região. A idéia que esse resultado passa é que em toda a região C o número de pássaros é maior que nas demais regiões, o que não é verdade porque apenas uma área da região C apresentou alta contagem de número de pássaros.

Quando em uma amostra ou dado da pesquisa encontramos um valor muito elevado ou muito pequeno em relação aos demais valores do conjunto de dados estudados, dizemos que é um valor discrepante, também chamado de valor extremo ou outlier. É o que ilustra bem o valor n=31 da área 5 em relação aos demais valores de contagens de pássaro das outras áreas da região C. E para todo o conjunto das regiões, este valor também é valor extremo.

Sobre cuidados ao utilizar e interpretar as medidas de tendência central (média, mediana e moda), leia a crítica de Ubaldo Ribeiro no texto complementar da p.54.

SEPARATRIZES

Existem diversas situações nas quais o interesse principal é a posição relativa de um elemento no grupo, e não o desempenho do grupo como um todo. A interpretação de um resultado isoladamente é impossível, sendo necessário indicar a posição específica que um determinado resultado ocupa no grupo através de medidas que possibilita interpretar o seu significado. Essas medidas são denominadas de separatrizes, pois separam a distribuição em partes percentualmente iguais. As mais utilizadas são: Quartil: divide o conjunto de dados ordenados em 4 partes iguais, de 25% cada parte . Os valores são identificados por Q1 (25% dos dados estão abaixo do valor do 1ºquartil); Q2 (50% dos dados estão abaixo do valor do 2ºquartil, observe que o Q2 é a mediana) e Q3 (75% dos dados estão abaixo do valor do 3ºquartil). Não existe Q4. Q1 Q2 Q3

25% 25% 25% 25%



Para o cálculo da posição do Quartil: 4

niQPE i

×= Onde, i = quartil que se deseja obter (i=1,2,3)

n = quantidade de elementos observados, ou tamanho da amostra

Decil: divide o conjunto de dados ordenados em 10 partes iguais, cada parte com 10% dos valores do conjunto de dados. Os valores são identificados por D1, D2, D3,..., D9. Não existe D10. D1 D2 D3 D4 D5 D6 D7 D8 D9

10% 10% 10% 10% 10% 10% 10% 10% 10% 10%

Para a posição do Decil: 10

niDiPE

⋅= Onde, i = decil que se deseja obter (i=1,2,3,...,9)

Centil ou Percentil: divide o conjunto de dados ordenados em 100 partes iguais, cada parte com 1% dos valores do conjunto de dados. Os valores são identificados por P1, P2, P3,..., P99.

Para a posição do percentil: 100

niPiPE

⋅= Onde, i = centil que se deseja obter (i=1,2,3,...,99)

Exemplo de uso das separatrizes: suponha que um entomologista selecionou 50 exemplares de uma espécie de inseto, de mesma ninhada e período de eclosão dos ovos. Submeteu os insetos às mesmas condições ambientais e nutricionais, para estimar o tempo de vida (longevidade) da espécie. Ao final do experimento, o pesquisador obteve os seguintes dados de longevidade (em dias de sobrevivência para cada exemplar).

16 17 18 18 18 20 20 21 21 21 22 23 23 24 24 25 25 26 26 27 27 27 28 29 30 31 31 33 33 34 36 36 37 38 38 41 42 42 43 45 45 46 47 50 52 53 59 61 65 70

Determinando-se o 1º e 3º quartis:

posiçãoª5,12==450x 1

QPE 1 , o valor está entre os valores da 12ª e 13ª posição dos elementos

ordenados de forma crescente (23 e 23 respectivamente). Assim, Q1= 23 dias. Significa que 25% dos insetos tiveram um tempo de vida igual ou menor que 23 dias, e 75% período de vida igual ou maior que 23 dias.

posiçãoª5,37==450x 3

QPE 3 , o valor está entre os valores da 37ª e 38ª posição dos elementos

ordenados de forma crescente (42 e 42 respectivamente). Assim, Q3= 42 dias. Significa que 75% dos insetos tiveram um tempo de vida igual ou menor que 42 dias, e 25% período de vida igual ou maior que 23 dias.



Construindo um intervalo com estes valores observamos:

Q1=23 Q3=42 25% 25% 25% 25%

Entre 23 e 42 dias é o período de tempo que viveram 50% dos insetos, excluindo-se 25% dos menores períodos e 25% dos maiores períodos de longevidade. Outros exemplos de uso das separatrizes Exemplo 1 É muito comum o uso das separatrizes na área da Economia, principalmente em estudos de séries de tempo, pois o fracionamento percentual dos dados facilita observar se houve mobilidade ou permanência de valores de um fenômeno econômico. Rendimento Real Trimestral Máximo e Mínimo dos Ocupados e dos Assalariados no Trabalho Principal (1)

Região Metropolitana de Salvador

2010

Jan-2010 314 492 677 1.256 2.161 492 534 785 1.323 2.390

Fev 312 528 680 1.177 2.123 492 534 780 1.270 2.329

Mar 311 529 680 1.244 2.223 529 534 777 1.258 2.420

Abr 310 525 676 1.210 2.274 525 530 743 1.248 2.409

Mai 309 523 694 1.230 2.384 523 528 747 1.253 2.395

Jun 308 522 699 1.230 2.370 522 525 771 1.302 2.389

Jul 308 523 718 1.237 2.389 523 526 783 1.345 2.563

Ago 309 526 718 1.237 2.268 524 526 809 1.363 2.466

Set 308 525 719 1.238 2.272 525 526 805 1.358 2.479

Out 308 523 703 1.237 2.160 523 525 801 1.340 2.377

Nov 305 519 712 1.231 2.257 519 526 814 1.334 2.383

Dez 304 518 711 1.231 2.298 517 528 812 1.339 2.441

Fonte: PED-RMS – Convênio SEI, Setre, Dieese, Seade, MTE/FAT.

(1) Inflator utilizado: IPC - SEI; valores em reais de janeiro de 2011.

(2) Excluem os assalariados e os empregados domésticos assalariados que não tiveram remuneração no mês, os trabalhadores familiares sem

remuneração salarial e os trabalhadores que ganharam exclusivamente em espécie ou benefício.

(3) Excluem os assalariados que não tiveram remuneração no mês.

10% Mais

Ricos Ganham

Acima de

Rendimento Real Trimestral

Ocupados (2) Assalariados (3)

10% Mais

Pobres

Ganham Até

25% Mais

Pobres

Ganham Até

50% Mais

Pobres

Ganham Até

25% Mais

Ricos Ganham

Acima de

Trimestres50% Mais

Pobres

Ganham Até

25% Mais

Ricos Ganham

Acima de

10% Mais

Ricos Ganham

Acima de

10% Mais

Pobres

Ganham Até

25% Mais

Pobres

Ganham Até

Os 10% mais pobres é o D1 Os 10% mais ricos é o D9

Os 25% mais pobres é o Q1

Os 25% mais ricos é o Q3

Os 50% mais pobres é o Q2 , é a mediana. Observe que houve pouca mobilidade econômica para os trabalhadores. A melhoria salarial não é significativa, pois a tendência revela decrescimento, ou seja perda de rendimentos.



Exemplo 2



QUAL MEDIDA DE POSIÇÃO USAR ?

A decisão sobre qual medida empregar envolve a consideração de uma série de fatores: • nível de mensuração (se a variável é qualitativa ou quantitativa); • formas de distribuição (simétrica, assimétrica ou uniforme); • exatidão requerida (uma medida central mais exata ou mais empírica); • estabilidade da medida; • manipulação subseqüente (se os resultados servirão para outros cálculos e para inferência); • objetivo da pesquisa (apurar os resultados de forma mais sofisticada ou comunicá-los de forma mais

simples). A média é preferível especialmente em distribuições aproximadamente simétricas, devido à sua maior estabilidade e à manipulações estatísticas posteriores. A mediana é mais apropriada quando a assimetria é acentuada; os valores (limites) extremos da primeira e última classes não são definidos, e quando o nível de mensuração é ordinal. A moda é empregada em situações em que uma estimativa rápida e grosseira da medida central é suficiente; os dados atingem apenas o nível nominal ou o caso típico é desejado. Além dessas regras, deve-se examinar cada distribuição de dados e o objetivo específico do estudo. O ideal não é optar entre as medidas, mas usá-las todas, quando o nível de mensuração permite, pois cada uma fornece uma visão parcial dos dados e elas se complementam umas às outras. BIBLIOGRAFIA CONSULTADA: AKAMINE, Carlos e YAMAMOTO, Roberto. Estatística descritiva. São Paulo: Érica, 1998, p.139-80. BUNCHAFT, Guenia. Estatística sem mistério. Petropólis, RJ: Vozes, 1998, p.107-53. FRANCISCO, Valter de. Estatística. São Paulo: Atlas, 1982, p.20-28. PEREIRA, Wilson e TANAKA, Oswaldo. Estatística. São Paulo: Mc-Graw Hill do Brasil, 1990, p.73-120.



Texto complementar Artigo do jornal "O Estado de São Paulo" de 28/09/2008 Domingo, 28 de setembro de 2008 João Ubaldo Ribeiro NÃO SOMOS TODOS BURROS

"Às vezes fico meio sem jeito para tratar de certos assuntos aqui, achando que vou chover no

molhado ou repetir coisas que todo mundo sabe. Mas, em outras ocasiões, me bate sensação oposta, a de

que a maioria não sabe. Hoje, por exemplo. Fico lendo os jornais, ouvindo comentários e sendo alvejado

por declarações pomposas não contestadas por ninguém e penso que de fato conseguiram fazer um

Brasil virtual, distinto do real. Aí corro o risco de provocar tédio nos que de fato já sabem como somos

tapeados, e pouca serventia virá a ter a coluna de hoje. Mas faz parte, vamos lá.

Fala-se muito mal da Estatística. De um lado, constitui grande injustiça para com uma ciência

sem a qual hoje talvez nem sobrevivêssemos direito. De outro, trata-se da compreensível reação contra a

maneira pela qual a Estatística é usada e abusada para "provar" o duvidoso e manipular a chamada

realidade objetiva. Compreendo o sujeito que disse, como já lembrei aqui antes, que a Estatística é a arte

de mentir com precisão, porque de fato o seu uso inescrupuloso e falsário equivale a isso.

Começo lembrando a famosa média. Em grande parte dos casos em que ela é empregada em

indicadores sociais e econômicos, não quer dizer nada, ou melhor, quer dizer muito pouco. Se Bill Gates

passasse a ser residente da cidade de Itaparica, teríamos talvez a renda per capita mais alta do planeta

ou com certeza uma das mais altas, sem que um itaparicano sequer passasse a ganhar mais um centavo.

Isso porque a renda per capita é uma média aritmética e, por conseguinte, sensível em excesso aos

valores extremos. Então, numa população em que um ganha por mês um milhão de borodongas e os

outros cinco borodongas cada, falar em renda per capita é ridículo.

Precisamos, portanto, saber da mediana. Talvez por às vezes revelar-se incomodativa, não é

muito mencionada, notadamente em estatísticas oficiais. A mediana dá mais peso e significado à média.

É o valor que se encontra exatamente no meio dessa coletividade. Ou seja, não é bastante saber que a

renda média é 1.000. É preciso saber também (estou simplificando e peço desculpas a estatísticos e

matemáticos em geral) o valor que divide esses indivíduos pela metade, ou seja, o ponto em relação ao

qual exatamente a metade ganha menos e a metade ganha mais. Quando a média é próxima da mediana,

isso significa que a distribuição é mais ou menos simétrica. Quando não, a distribuição é tortinha. Logo,

a mediana pode, por exemplo, desmoralizar a renda per capita, se demonstrar que metade da população

ganha muito abaixo desta e a outra metade muito acima. Mas ninguém fala na mediana.



Também tem, desculpem, a moda. Não a moda fora da qual estou, mas a moda estatística

mesmo, ou seja, o valor mais freqüente, o que mais ocorre numa população determinada. Assim, se a

renda média dos habitantes da próspera comunidade de Lulalápolis, é R$ 1.000 por mês, mas a mediana

é 100 e/ou a moda é oitentinha, já vemos bem como podemos (e somos) ser engabelados. É por isso que

até a Bethânia, que não é de sair por aí falando ou fazendo manifestações, se revelou na imprensa um

pouco irritada com esse país maravilhoso (virtual, estatisticamente siliconado, digo eu) a que ela não

consegue chegar.

Também convivemos acriticamente com uma porção de chutes que desonram e desmerecem a

Estatística, tais como a conversão de coexistência numa relação de causa e efeito. É como o torcedor do

Flamengo achar que a causa da vitória do time dele foi ter entrado um urubu em campo, logo antes do

jogo. Não vamos discutir com torcedor, tudo bem. Mas coisas boas que acontecem são vinculadas a

outras de maneira absolutamente arbitrária e aí, em propaganda comercial por exemplo, para esquecer

um pouco a política, acabamos acreditando em afirmações que não passam de reformulações de

vigarices como "todos os que morreram de enfarte do miocárdio no ano passado faziam uso de água".

Verdade, mas claro que não prova que tomar banho faz mal ao coração. Com espertas artes, porém, nos

enrolam muito nessa linha.

E as categorias? O sujeito enche a boca e diz: "Depois de tantos anos de meu governo, o número

de ricos cresceu em 20% e o de pobres diminuiu em 32%." Além dos probleminhas de média, mediana e

moda, que sempre estão rondando, é muito fácil (e é isso que se faz) dizer que rico é quem ganha mais

de R$2.000 por mês. Fico até admirado por não haverem proposto R$ 1.500, porque o número de ricos

ia bombar. Até a felicidade é quantificada e lemos a sério, como parvos, que o povo tal tem o maior

índice de felicidade do mundo ou semelhantes despautérios.

E a coleta dos dados? Desde antes da definição das categorias e das perguntas, desde o início do

planejamento, um dos maiores problemas que o estatístico sério encontra é a feitura de uma coleta de

dados "neutra", que não influencie as respostas. Em rigor, impossível, porque até condições

meteorológicas podem influir nas respostas. As próprias perguntas podem induzir a determinado tipo de

resposta. A roupa, o sexo, a idade, o sotaque, o local, a época, a hora, as palavras e expressões usadas, a

ordem das perguntas, o tamanho do questionário, e centenas de outros fatores podem, mesmo nas

pesquisas mais honestas e cientificamente orientadas, levar à distorção de resultados. Há até, em

confusão com esses e outros fatores, o perigo de o entrevistado querer responder o que acredita que se

espera dele e não o que de fato pensa.

Há muito mais, um dia desses falo mais. Enche mesmo o saco nos tratarem como a uma tropa de

burros, que não somos. Somos, sim, otários, comodistas, coniventes e subservientes, mas isso já é outro

problema."



MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE

Em nosso estudo sobre as medidas de posição observamos que é preciso tomar cuidado com o uso da média e sua interpretação, pois como é influenciada por valores extremos esconderá muitos aspectos métricos sobre o conjunto de dados. Observemos mais um exemplo, para entendermos porque a média necessita de outras medidas estatísticas que auxiliem em seu uso e interpretação. Suponha que em duas regiões geográficas diferentes subdivididas em cinco áreas, o número de uma espécie de planta encontrada por área foi: Região A: 4 5 6 7 8 Número médio de plantas = 6unidades Região B: 2 4 6 8 10 Número médio de plantas = 6unidades Se considerarmos apenas o número médio de plantas encontradas, diríamos que as duas regiões são iguais em relação à ocorrência do número dessa planta. Contudo, pela contagem individual em cada área verificamos que há diferenças de dispersão e concentração do número de plantas em cada área das duas regiões. Por esse motivo precisamos medir o padrão de dispersão do conjunto de contagem de cada região.

É o que faz as medidas de dispersão, também como forma de resumir as informações presentes em um conjunto de dados. As medidas de dispersão de uma distribuição são os valores que indicam o grau de afastamento dos valores da variável em relação à média do conjunto de dados. As principais medidas de dispersão são:

1. variância 2. desvio padrão 3. coeficiente de variação

1. Variância: é o desvio quadrático médio dos dados em relação à média. Expressa a variabilidade dos dados como uma grandeza elevada ao quadrado (exemplo: altura2). Por esse motivo é uma medida de difícil interpretação universal.

A variância possui o seguinte modelo de cálculo: 1111nnnn))))xxxx(x(x(x(x

ssssnnnn1111iiii 2222iiii2222

−

−=∑

=

Onde:

s2 = símbolo da variância amostral

Σ = somatório dos valores da diferença entre os valores individuais e a média amostral

xi = valor de cada elemento da amostra

x = símbolo da média amostral

n -1= graus de liberdade, que é uma correção para o valor do cálculo na amostra



Calculemos a variância para o exemplo da contagem do número de uma espécie de plantas em duas regiões, anteriormente descrito:

Região A Região B

)( xxi − 2)( xxi − )( xxi − 2)( xxi −

4 – 6 = -2 4 2 – 6 = -4 16

5 – 6 = -1 1 4 – 6 = -2 4

6 – 6 = 0 0 6 – 6 = 0 0

7 – 6 = 1 1 8 – 6 = 2 4

8 – 6 = 2 4 10 – 6 = 4 16

Σ 10 Σ 40

Variância região A:

1111nnnn))))xxxx(x(x(x(x


−

−=∑

=

25,210

plantas=−

=11115555

ssss 2222

Variância região B:



−

−=∑

=

21040

plantas=−

=11115555

ssss 2222

2. Desvio Padrão: de todas as medidas de dispersão esta é a mais utilizada, e é definida como a raiz quadrada da variância. Ela exprime o resultado na mesma medida da variável em estudo, ao contrário da variância. Por esse motivo é mais utilizada, permite uma interpretação universal do resultado.

Modelo para o cálculo do desvio padrão: 2222nnnn1111iiii 2222iiiissss1111nnnn

))))xxxx(x(x(x(xssss =

−

−=∑

=

Para o nosso exemplo do número de uma espécie de plantas por região temos os seguintes desvios padrão por região: Desvio padrão região A:


ssssnnnn1111iiii 2222iiii

−

−=

∑=

plantas58,110

=−

=11115555

ssss

Desvio padrão região B:


ssssnnnn1111iiii 2222iiii

−

−=

∑=

plantas16,340

=−

=11115555

ssss



Estes resultados indicam que em torno do número médio da espécie de planta existente na região A a variabilidade de plantas é de 1,58 plantas; já em torno da média da região B é de 3,16plantas. A região B tem maior dispersão de número de plantas, é o dobro da dispersão encontrada na região A. Esses resultados são expressos na forma de um intervalo de valores em torno da média, pois a dispersão pelo desvio padrão indicará quantos elementos estão abaixo e acima da média encontrada. Assim, Região A: =± sx 6±1,58 Em torno da média 6plantas, o número de plantas da região A pode

variar de 4,42plantas (6-1,58) a 7,58plantas (6+1,58), para 68% das contagens.

Região B: =± sx 6±3,16 Em torno da média 6plantas, o número de plantas da região B pode

variar de 2,84plantas (6-3,16) a 9,16plantas (6+3,16) ), para 68% das contagens.

3. Coeficiente de Variação: indica a proporção do desvio padrão em relação à média, expresso em percentagem. Pode ser usada para comparar a dispersão de dois conjuntos de dados, sem que eles estejam necessariamente na mesma unidade de medida.

Modelo para o cálculo do: 100×=x

sCV

Para o nosso exemplo do número de uma espécie de plantas por região, a dispersão do número de plantas em torno da média por região, em termos percentuais é de:

Região A: %33,261006

58,1100 =×=×=

A

AA

x

sCV

Região B: %67,521006

16,3100 =×=×=

B

BB

x

sCV

Percentualmente, confirma-se que a dispersão da espécie de plantas na região B é o dobro da dispersão da região A. Portanto, a região A possui uma distribuição mais homogênea do número dessa espécie do que a região B. A ocorrência da espécie nessas regiões não é igual, como levaria a acreditar o valor apenas da média calculada. Em relação à variância e o desvio padrão, o coeficiente de variação tem a vantagem de possibilitar comparar a dispersão de dados que estejam em unidades de medida diferentes, por exemplo:

a) comparar altura (em cm) e peso (em g); b) comparar valor monetário (em R$) e peso (em Kg); c) comparar volume (em cm3) e quantidade (em unidades).

Observação: tratamos a comparação entre médias e medidas de variabilidade de modo bem simples. Porém, estatisticamente, é preciso fazer testes mais apurados para comparar e detectar as diferenças, o que é feito por meio dos testes de hipóteses de médias (que serão vistos no capítulo de probabilidade), e teste de variância por ANOVA.



Gráficos especiais para avaliar a variabilidade de um conjunto de dados: 1. Box-plot ou Desenho Esquemático Este é um gráfico mais elaborado do que o dot-plot, usando algumas medidas obtidas dos dados, a saber: mediana, 1°quartil, 3°quartil, valor máximo e valor mínimo. Colocamos sobre a reta essas cinco medidas e traçamos um retângulo com extremos em Q1 e Q3, marcondo dentro dele o lugar correspondente à mediana. Em seguida marcamos sobre a reta dos valores (Q1 – 1,5(Q3-Q1)) e (Q1 + 1,5 (Q3-Q1)). Os valores dos dados que estiverem acima ou abaixo desses dois valores calculados serão considerados como valores extremos (outliers).

O Box plot pode ser desenhado em palno horizontal ou vertical.



Exemplo de uso do Box plot:

Sobrevivência em dias da Coytiera pertusa

8888N =

Nível de maturação das folhas de Theobroma cacao

4321

So

bre

viv

ên

cia

em

dia

s d

a C

oytie

ra p

ert

usa

100

80

60

40

20

0

11

Fonte: Terra e Sousa, 2004. Sobrevivência de Coytiera pertusa e de Percolapsis ornata segundo a ontogênese das folhas de cacau (Theobroma cacao) e de ingá (Inga ebulis) usadas na alimentação em cativeiro. 2. Dot-plot: representa na reta todos os dados de um conjunto, com as repetições necessárias.

BIBLIOGRAFIA CONSULTADA: AKAMINE, Carlos e YAMAMOTO, Roberto. Estatística descritiva. São Paulo: Érica, 1998. BOTTER, Denise et alli. Noções de Estatística. São Paulo:EDUSP, 1996. BUNCHAFT, Guenia. Estatística sem mistério. Petropólis, RJ: Vozes, 1998. FRANCISCO, Valter de. Estatística. São Paulo: Atlas, 1982. PEREIRA, Wilson e TANAKA, Oswaldo. Estatística. São Paulo: Mc-Graw Hill do Brasil, 1990.



INTRODUÇÃO AO ESTUDO DE PROBABILIDADE PROBABILIDADE É o estudo dos fenômenos aleatórios que, a princípio, define a

possibilidade de ocorrência de um evento. PROVA, OBSERVAÇÃO OU EXPERIMENTO É todo fenômeno ou ação que geralmente pode ser repetido, cujo resultado

é casual ou aleatório, por exemplo: o lançamento de um dado. Se estabelecermos todos os possíveis resultados de um experimento teremos um espaço amostral.

ESPAÇO AMOSTRAL É o conjunto universo denotado por (Ω), (U) ou (S), ou seja, é o conjunto

de todos os resultados possíveis de acontecer em uma observação. Ex.: O espaço amostral do lançamento de um dado é (U)=1,2,3,4,5,6

EVENTO: É cada subconjunto do espaço amostral (U). É representado por letras

arábicas maiúsculas:A, B, C... Pode ser classificado como:

•evento simples: formado por um único elemento do espaço amostral.

•evento composto: formado por mais de um elemento do espaço amostral.

•evento certo: ocorre em qualquer realização do experimento aleatório.

•evento impossível: não ocorre em qualquer realização do experimento aleatório.

•eventos mutuamente exclusivos ou disjuntos ou incompatíveis: quando dois eventos a e b não puderem ocorrer simultaneamente, i. e., a interseção entre a e b é um conjunto vazio.

•eventos dependentes: a ocorrência de um evento depende da ocorrência previa de um outro evento b.

•eventos independentes: quando eles não exercem ações reciprocas, ou seja, o acontecimento de um não interfere no acontecimento do(s) outro(s).

•evento complementar: é constituído pela parte do espaço amostral que não contém o evento desejado.

•eventos condicionados: há vínculos entre eles, ou seja, a ocorrência de um dos eventos é afetada pelo fato de um outro ter ou não acontecido.

DEFINIÇAO DE PROBABILIDADE: Dado um experimento aleatório (E) e (S) o espaço amostral, probabilidade de um evento (A) denotada como P(A), é uma função definida em S que associa a cada evento um numero real, satisfazendo os seguintes axiomas:



1. Para todo o evento A, a probabilidade de sua ocorrência será sempre um valor compreendido entre 0 e 1: 0<P(A)<1 . Significa que o resultado do cálculo de uma probabilidade não pode ser negativo, e pode ser escrito de modo percentual como de 0% a 100% de ocorrer.

2. P(A) = 0 (quando for um evento impossível de acontecer) 3. P(A) = 1 (quando for um evento certo de ocorrer) 4. Se Ā é o evento complementar de A, então, P(Ā) = 1 - P(A) e P(A) + P(Ā) = 1 5. P(S) = 1 (todo o espaço amostral tem soma igual a 1). Ex.: no lance de uma moeda o espaço

amostral S= Cara;Coroa, como a probabilidade de ocorrer cara ou coroa é de ½, então: P(S)= P(Cara) + P(Coroa) = ½ + ½ = 1.

6. Se A e B forem eventos mutuamente exclusivos ( A∩B = Ø ), então, P( A U B) = P(A) + P(B)

Representando pelo diagrama de Venn: 7. Se A e B forem eventos não mutuamente exclusivos, então, P( A U B) = P(A) + P(B) - P(A∩B)

Representando pelo diagrama de Venn:

8. Se A e B são independentes P(A∩B) = P(A) * P(B)

9.Probabilidade condicional: P(AB) = )(

)(

BP

BAP ∩

S

A B

A∩B



NOÇÕES DE ANÁLISE COMBINATÓRIA Exemplo: considere três pares de cromossomos homólogos com seus centrômeros identificados por A/a, B/b e C/c. Quantos tipos diferentes de produtos meióticos este indivíduo pode produzir? Cada cromossomo representa os estados da natureza: N Cada centrômero representa as ações possíveis: n Como o crescimento é multiplicativo geométrico, temos Nn Pela restrição da diferença de produtos (os produtos meióticos devem ser diferentes) N=2 Então: Nn = 23 = 8 combinações diferentes possíveis. Ilustrando-se pela árvore de probabilidade temos:

A

B C ABC c Abc

b C AbC c Abc

a

B C aBC c aBc

b C abC c abc

Observe que a árvore de probabilidade lembra o heredograma. VARIÁVEIS ALEATÓRIAS

Em nossas aulas introdutórias, vimos que os resultados de uma característica, que se tem o

interesse em pesquisar, podem ser classificados segundo duas categorias: qualitativa e

quantitativamente. Vimos também que, como essa característica de interesse fornece resultados variados

de elemento para elemento do conjunto pesquisado, ela é denominada de variável. E esboçamos o

seguinte esquema de classificação e exemplificação:

Variável Qualitativa: ordinal e nominal;

Variável Quantitativa: discreta e contínua.

Estamos interessados, em nossos estudos de Estatística, em medidas quantitativas.

Das noções de probabilidade, vimos o que é experimento, evento, espaço amostral,

possibilidades e probabilidade. Realizamos alguns cálculos simples através das quais associamos um

número real a todo elemento do espaço amostral. Através destas noções básicas poderemos, agora,

iniciar o estudo sobre variável aleatória.



Definição 1: variável aleatória (v.a.) é uma função numérica X, que associa a cada elemento do espaço

amostral (ω ∈ Ω) um número real X(ω).

Exemplo 1- No lance de uma moeda temos:

Ω = Cara, Coroa

X(ω) sejam os valores: 0 se for cara, e 1 se for coroa

Então, o domínio de X(ω)= Cara, Coroa e o contradomínio 0,1, ou seja, X(ω)=xi ⇒ xi=0,1.

O termo aleatório indica que a cada possível valor da variável atribui-se uma probabilidade de

ocorrência, por isso também é chamada de variável estocástica. Podemos nos referir à v.a. também

como uma função aleatória ou função estocástica.

Denota-se uma variável aleatória por uma letra latina maiúscula, como X, Y, Z, W,... . O mais

usual é a utilização da letra X.

Através da definição 1 trabalharemos o conceito de variável aprendido nas noções de estatística,

reelaborando o conceito de variável quantitativa discreta e contínua à luz dessa definição.

Variável aleatória discreta (v.a.d.)

Definição 2: uma v.a.d. real X, em um espaço de probabilidade (Ω, A, P), é uma função real X(ω) cujo

domínio é Ω e cujo contradomínio é um subconjunto finito ou infinito enumerável x1, x2, x3,... dos

números reais ℝ , tal que ω:X(ω) = xi é um evento para todo i. Diz-se que os eventos da v.a.d. são

unitários νX= xi , i=1,2,3,....

Variável aleatória contínua (v.a.c.)

Definição 3: uma v.a.c. real X, em um espaço de probabilidade (Ω, A, P), é uma função real X(ω), ω ∈

Ω, tal que ωX(ω) ≤ x é um evento para -∞<x<∞.

Em outras palavras, uma v.a.c. é aquela que toma um número infinito (não-enumerável) de valores. O

contradomínio de X é um intervalo, ou uma coleção de intervalos.

Funções da variável aleatória discreta

Seja X uma v.a.d. com x1, x2, x3,..., seus diferentes (possíveis) valores.



Definição 4: a função que atribui a cada valor (x1, x2, x3,...) da v.a.d. sua probabilidade é denominada de

função de probabilidade (f.p.). É denotada por:

P(X= xi ) = p (xi ), i = 1,2,3,…

ou P(X= xi ) = f (x)

Como é uma função, p(⋅), deve satisfazer às seguintes propriedades:

i) 0≤ p(xi ) ≤1, para todo xi

ii) ( ) 1=∑x

ixp

Definição 5: a soma das probabilidades dos valores xi menores ou iguais a x, em um ponto x, é a função

acumulada de probabilidades ou função de distribuição acumulada (f.d.a. ou f.d.). É denotada por:

Em fenômenos da realidade algumas v.a.’s são muito notórias, sendo explicadas através de seus

modelos de distribuição.

Diante disso, as distribuições de probabilidade são úteis para investigação, pesquisa e observação

de problemas com variáveis aleatórias discretas ou contínuas, facilitando a análise e interpretação dos

dados para conclusão por dedução. Ou seja, servem para explicar fenômenos aleatórios de observação

clínica, econômica, biológica, etc., através de modelo matemático probabilístico.

Muitos são os modelos que descrevem o comportamento das variáveis aleatórias discretas, entre

eles:

• Binomial

• Poisson

Também são muitos os modelos que descrevem o comportamento das variáveis aleatórias contínuas, o principal é a distribuição Normal.

( ) ( )( ) ( )∑

≤

=

≤=

xx

iX

X

i

xpxF

xXPxF



Distribuição binomial É constituída pelo número de vezes que ocorre determinado evento, quando a probabilidade desse evento for constante em cada prova. É adequada aos experimentos que apresentam apenas dois resultados:Sucesso/Insucesso ou seja, Ocorre/Não ocorre o evento em estudo. ∗ Baseia-se nas seguintes hipóteses:

H1 n provas independentes e do mesmo tipo são realizadas H2 cada prova admite dois resultados: ocorre ou não ocorre o evento H3 a probabilidade de ocorrer o evento em cada prova é p e a de não ocorrer é 1-p=q.

∗ Fundamenta-se nas possibilidades dadas pela função de Bernoulli: X=1 (ocorrência) = P(x1) = p X=0 (não ocorrência) = P(x2)= 1 – p = q

∗ O somatório de todas as probabilidades da observação é igual a 1, ou seja, [p + (1-p)] = 1. ∗ O nome binomial é devido ao fato de o grau da variável está relacionado ao desenvolvimento do

binômio de Newton: (q+p)n.

∗ O número de possibilidades favoráveis ao evento é: )!(!

!

xnx

nC xn −

=

A fórmula para a distribuição binomial é: xnxqp

xnx

nxXP

−⋅⋅−

==)!(!

!)(

Onde, P(X=x)= probabilidade de ocorrer o evento desejado x = número de provas n = número de vezes que ocorre o evento p = ocorrência do evento (em proporção ou freqüência relativa) q = não ocorrência do evento (q = 1-p) ∗ Parâmetros da Distribuição Binomial:

Média µ = n · p

Variância σ2= n · p · q

Desvio padrão qpn ××=σ



Exemplo de distribuição binomial: Os tipos de sangue M-N dos seres humanos estão sob o controle genético de um par de alelos codominantes. Numa família com seis filhos, onde ambos os pais são do tipo MN, qual é a probabilidade de encontrarmos três crianças do tipo M? considere que a ocorrência do tipo M é ¼. Temos os seguintes fatos: n = 6 filhos x = 3 filhos p = ¼ = 0,25 ou 25% , que é a ocorrência do tipo M (1-p) = 1- 0,25 = 0,75 , que é a não ocorrência do tipo M. Substituindo esses valores no modelo da distribuição binomial:

xnxqp

xnx

nxXP

−⋅⋅−

==)!(!

!)(

1318,04219,00156,002)75,0()25,0()!36(!3

!6)3( 363 =××=⋅⋅

−== −XP

A probabilidade de em uma família com seis filhos, onde ambos os pais possuem sangue do tipo MN, encontrarmos três crianças do tipo M é de 13,18%. Distribuição de Poisson ∗ Idealizada pelo matemático francês Simeon Poisson. ∗ É um caso particular da distribuição de probabilidades, já que calcula apenas o número de

ocorrências do evento e não calcula as não ocorrências. ∗ Utilizada para descrever as possibilidades de determinado número de ocorrências em determinado

intervalo, espaço ou campo contínuo (tempo, comprimento, área, volume, peso, etc). Ex.: Chegada de pacientes ao PS/minuto Acidentes/dia Microrganismos/cm3 de água

Ou seja, trabalha com a variável discreta inserida em um espaço contínuo (tempo, área, volume).

Baseia-se nas seguintes hipóteses: H1 o experimento é constituído de eventos independentes H2 só há um resultado possível: ocorrência do evento H3 a probabilidade de ocorrer o evento é constante em todo o intervalo (espaço contínuo em estudo) H4 a probabilidade de mais de uma ocorrência em um mesmo ponto é zero.



∗ A fórmula da distribuição de Poisson é dada por: )(

!

)()( t

x

ex

txXP

λλλλλλλλ −⋅==

Onde, P(X=x)= probabilidade de ocorrer o evento desejado

λ = taxa média de ocorrências dos eventos por unidade de medida (letra grega “lambda”) t = espaço de medidas ou número de intervalos x = número de ocorrências e = base dos logaritmos neperianos (é um número infinito, e=2,71828...) ∗ Parâmetros da Distribuição de Poisson:

Média µ = λ

Variância σ² = λ

Desvio padrão λσ =

Exemplo de distribuição de Poisson: Suponha que apenas um em cada mil indivíduos, em uma população, seja albino. Se uma amostra de 100 indivíduos é retirada ao acaso desta população, qual é a probabilidade de se encontrar dois indivíduos albinos? Temos os seguintes fatos: t = 100 indivíduos x = 2 albinos λ = um em cada mil indivíduos = 1/1000 = 0,001 Substituindo esses valores no modelo da distribuição de Poisson:

)(

!

)()( t

x

ex

txXP

λλλλλλλλ −⋅== = 0045,02

)01,0)(9048,0(

!2

)100001,0()2( )100001,0(

2

==⋅×

== ×−eXP

A probabilidade de se encontrar dois indivíduos albinos nessa população, é 0,45% isto é, é menor do que 1% de chance.



Distribuições contínuas: São as distribuições utilizadas para as variáveis aleatórias contínuas. Uma observação importante é que não se pode associar uma probabilidade pontual a cada valor da variável contínua, pois ao se aplicar a fórmula matemática de probabilidade:

)(

)()(

Un

AnAP = como n(U) = ∞ ⇒ 0

)()( =

∞=

AnAP

Assim a distribuição de probabilidade das variáveis contínuas são dadas para intervalos de valores da variável: P(a≤ X≤b).

A principal dentre os vários tipos de distribuição contínua e a mais utilizada é a Distribuição Normal.

Distribuição Normal: O estudo da variável contínua na distribuição normal é feita com o auxílio da curva normal padrão (denominada de curva de Gauss ou do Sino), através da Variável Aleatória Padronizada (VAP), denominada de Z cujos valores são lidos em uma tabela. A variável aleatória X tem distribuição normal com média µ e variância σ2 , representada por: X~N(µ ; σ2). Para a variável transformada Z representamos Z~N(0;1) sendo,

σσσσµµµµ−

=x

Z

∗ O modelo matemático da Distribuição Normal é:

σσσσµµµµ

σσσσµµµµ −

≤≤−

=≤≤=≤≤ 212121 )()(

xZ

xzZzPxXxP

Onde, x = valor da média da variável observada µ= valor da média populacional σ= valor do desvio padrão populacional Os resultados obtidos (área de z1 e de z2)são lidos na tabela normal padrão (em anexo). Como a área associada a um ponto é igual a zero, para o cálculo de probabilidades sob uma curva normal torna-se indiferente o uso dos sinais < ou ≤ bem como > ou ≥. A distribuição normal é a mais importante para os estudos da estatística, pois é através dela que se baseia toda a conclusão estatística por meio da Inferência, fazendo a ligação entre a Estatística Descritiva e a Probabilidade, dando sustentação ao caráter afirmativo de confiança nos estudos e testes realizados.

Para o estudo da variável aleatória X com distribuição normal valem as seguintes propriedades:

a) A curva é simétrica, centrada na média; b) A distância de µ aos pontos onde a curvatura da distribuição muda de sentido é igual a σ ; c) A moda e a mediana de X são iguais à média; d) A área sob a curva Normal e acima do eixo horizontal é igual a 1; e) É assintótica em relação ao eixo das abscissas.



Exemplo de distribuição Normal: em um estudo com a mosca das frutas, observou-se que o tempo decorrido entre a ovoposição e a emergência do adulto, na sequência ovo-larva-pulpa-adulto, é de 273horas em média, com desvio padrão de 20horas (Nascimento, 1992). Qual é a probabilidade de ocorrer um tempo entre a ovoposição e a emergência, entre 260 e 280horas?

Pelo desenho da curva, a ocorrência deseja representa a seguinte área hachurada: 260h 273h 280h

no modelo de cálculo temos:

3790,0)280260(

1368,02422,0)280260(

35,065,0)280260(20

273280

20

273260)280260(

)()( 212121

=≤≤+=≤≤

+≤≤−=≤≤

−≤≤

−=≤≤

−≤≤

−=≤≤=≤≤

XP

XP

ZXP

ZXP

xZ

xzZzPxXxP

σµ

σµ

Logo, a probabilidade de ocorrer ovoposição emergência adulto em período de tempo entre 260-280horas é de 37,90%.

Esses valores (-0,65 e +0,35) serão lidos na tabela da distribuição normal da p.71. Como a curva é simétrica (lado esquerdo e direito ao eixo da média são iguais) os valores são lidos como módulo, não se considera o sinal. Observe pela tabela que o valor para -0,65 é 0,2422 e para +0,35 é 0,1368. Deixei marcado com um retângulo para facilitar sua compreensão. Como a área desejada está em torno da média, a operação feita é de soma desses dois valores encontrados para z1 e z2.

Pelo enunciado do exemplo, sabemos que: a média é µ=273 o desvio padrão é σ=20 limite inferior do intervalo é z1=260 limite superior do intervalo é z2=280



Tabela para leitura dos valores da distribuição Normal (x=z)



TESTES DE HIPÓTESES

CONCEITO É uma regra de decisão para aceitar ou rejeitar uma hipótese com base nas diferenças observadas entre os valores alegados e aqueles fornecidos pelas estatísticas amostrais.

Hipótese estatística é uma suposição quanto ao valor de um parâmetro populacional, ou quanto à natureza da distribuição de probabilidade de uma variável populacional.

UTILIDADE Fazer Inferência Estatística com o maior nível possível de confiança e

representação, partindo de algum referencial (amostras). APLICAÇÃO Investigação, pesquisa e observação de problemas, especialmente para

avaliação de situações múltiplas. Exemplos: a) testar as afirmativas feitas por fabricantes sobre % de defeitos de um

lote de medicamentos; b) verificar se o teor de oxigênio DBO em amostras de um rio está dentro

do limite tolerável estabelecido por órgão de controle ambiental. PRESSUPOSTO Variáveis normalmente distribuídas. ADOTADOS CONCEITUAÇÕES: Nível de significância: define a probabilidade de o teste aceitar IMPORTANTES uma hipótese falsa. É representado por α=0,05 α=0,01 α=0,1 que são os

valores mais usados. Equivale à região crítica onde rejeita-se a hipótese principal.

Nível de confiança: define o intervalo em que deve cair o parâmetro

amostral para que se possa considerar verdadeira a hipótese formulada. É representado por 1-α=0,9 (90%) 1-α=0,95 (95%) 1-α=0,99 (99%), sendo estes os valores mais usados, limitados pelos respectivos valores de z. Equivale à região de aceitação onde aceita-se a hipótese principal.

Hipótese nula ou principal (Ho): é a que afirma uma dada propriedade

ou característica sobre a população. Vem sempre acompanhada do sinal =.

Hipótese alternativa (H¹): é a que se opõe ou nega a hipótese principal. Vem acompanhada de um dos sinais: ≠ > ou <.

Teste Bilateral: utiliza toda a área da curva normal (as duas caudas para os valores críticos), considerando os níveis: 90% 95% e 99%.

Teste Unilateral: utiliza uma parte da curva (à esquerda ou à direita para os valores críticos ), considerando os níveis de 40% 45% e 49%.

Erro Tipo I ou alfa: é o erro de se aceitar H0, quando a H1 é verdadeira.

Erro tipo II ou beta: é o erro de se rejeitar H0, sendo ela a hipótese verdadeira verdadeira.



• As hipóteses definidas da forma: H0: θ = x1 versus Ha: θ = x2 sem conter desigualdades, são denominadas hipóteses simples .

• As hipóteses definidas da forma: H0: θ = θ0

H1: θ ≠ θ0 H1: θ > θ0 ou H1: θ < θ0

são denominadas de hipóteses compostas, sendo as mais comumente utilizadas, definindo-se se o teste é uni ou bilateral, de acordo com o interesse do estudo. Por conveniência técnica, a hipótese nula sempre fica com o sinal de igualdade.

• Uma parte importante do teste de hipóteses é controlar a probabilidade de cometer os erros

associados: α = P(erro tipo I)= P(rejeitar H0|H0 verdadeira) β = P(erro tipo II) = P(não rejeitar H0| H0 falsa)

A situação ideal é aquela em que ambas as probabilidades estão próximas de zero. Entretanto, à medida que diminui o erro alfa, a probabilidade de beta aumenta. Portanto, deve-se construir as hipóteses de maneira que o erro mais importante seja evitado, que é o erro tipo alfa.

• De modo geral, como o erro beta depende do valor de µ, é conveniente obter uma função que ajude a caracterizar o desempenho do teste: Função de Poder do Teste, dada por:

)(1)( µβµ −=g

Para um mesmo nível de significância α, quanto maior o poder melhor o teste.

Como não se pode diminuir os dois erros simultaneamente, uma alternativa é aumentar o tamanho da amostra, pois quanto maior for n, melhor é a precisão do estimador utilizado e maior é o poder do teste. A função β é também chamada Curva Característica de Operação CCO, que são gráficos que indicam as probabilidades de erros do tipo II, sob várias hipóteses. Elas proporcionam indicações de como testes bem aplicados podem possibilitar a redução ao mínimo de erros do tipo I e II, i.é., indicam o poder do teste, para evitar que sejam tomadas decisões erradas. São úteis no planejamento de experiências, por mostrarem, por exemplo, que tamanhos de amostras devem ser usados.

• Os testes de hipóteses para a média apresentados pressupõem variância conhecida. Se a variância for desconhecida, deve-se utilizar a estatística t-Student, valendo-se do estimador da variância populacional, que é a variância amostral s2.

• Se a variável de interesse, além de ter variância desconhecida, não tiver densidade Normal, é necessário utilizar técnicas não-paramétricas para a realização do teste da média.



Testes de Hipóteses Utilizando o Nível Descritivo:

Ao realizarmos um teste de hipóteses, partimos de um dado valor de alfa pré-fixado, para construir a regra de decisão. Uma alternativa é deixar a cargo de quem vai utilizar as conclusões do teste a escolha do valor para a probabilidade alfa, que não precisará ser fixada a priori.

A idéia consiste em calcular, supondo que a hipótese nula seja verdadeira, a probabilidade de se obter estimativas mais desfavoráveis ou extremas (à luz da H1) do que a que está sendo fornecida pela amostra.

Esta probabilidade será o nível descritivo, denotado por α∗ (ou p-valor). Valores pequenos de α∗ indicam que a hipótese nula é falsa pois, sendo a amostra a ferramenta de inferência sobre a população, ela fornece uma estimativa que teria probabilidade muito pequena de acontecer, se H0 fosse verdadeira. O conceito do que é pequeno fica a cargo do usuário, que assim decide qual alfa utilizar para comparar com o valor α∗ obtido.

Observações importantes:

• Para comparação de médias de mais do que duas populações, o método utilizado é o teste ANOVA (Análise de Variância).

• Para a comparação de várias variâncias deve-se utilizar o teste de Cochran (para amostras de mesmo tamanho), e o teste de Bartlett ( para amostras de tamanhos diferentes).



TESTES DE HIPÓTESES (Clássico)

Teste Bilateral:

H0 : θ = θ = θ = θ = x (Hipótese Nula)

-z + z

H1 : θθθθ≠≠≠≠ x (Hipótese Alternativa)

Teste Unilateral à Esquerda:


-z H1 : θ < θ < θ < θ < x (Hipótese Alternativa)

Teste Unilateral à Direita:


H1 : θ > θ > θ > θ > x (Hipótese Alternativa)

z

Valores Críticos de ±±±±z:

Para α = 10%α = 10%α = 10%α = 10% α = 5%α = 5%α = 5%α = 5% α = 1%α = 1%α = 1%α = 1%

Teste Bilateral

1,64 1,96 2,58

Teste Unilateral

1,28 1,64 2,33

Região de Rejeição α/2α/2α/2α/2

Região de Rejeição

α/2

Região de Aceitação para Ho

1 - αααα


α Região de Aceitação para Ho

1 - αααα


α Região de Aceitação para Ho

1 - αααα



Distribuição t-Student: é utilizada para amostras com número de elementos menor do que 30, que têm a variável aleatória contínua X com uma distribuição normal. O estudo de X é feito através da variável t, chamada de variável estudentizada representada como t≈N(0;1) com valores também lidos em tabela. Os valores de t dependem do número de elementos da amostra em estudo, por isso a dependência dos graus de liberdade. O modelo de cálculo da Distribuição t é:

nnnnssssμμμμxxxxtttt −

=

Onde, x = valor da média da variável observada µ = valor da média populacional s = valor do desvio padrão amostral n = tamanho da amostra A leituras dos valores da área de t levam em consideração o nível de confiança (probabilidade) e o grau de liberdade (n-1). Também tem seus valores lidos em tabela (ver p.78). A distribuição T-Student tem a curva semelhante à curva Normal, todavia é mais achatada e com probabilidades mais densas nas caudas, conforme mostra a figura 5.3 a seguir:



Exemplo de teste de hipóteses: estudos anteriores mostravam que a alcalinidade média do rio Caí era de 19,6mg de CaCo3/L (Vargas, 1992). Entretanto, estudo recente com 16 observações, a média de CaCo3/L encontrada foi de 16,2mg e desvio padrão de 7,7mg. Esse novo valor estará indicando que a alcalinidade no rio se modificou? ou será que a diferença de 3,4mg é devida a um erro aleatório? Como o que se deseja é apenas verificar se a alcalinidade se modificou, e não se é menor que 19,6mg, o teste é bilateral. Adotaremos nível de significância (ou seja, admitiremos erro máximo nesse teste de hipótese em relação ao verdadeiro valor da concentração de CaCo3/L no rio Caí) de α/2=5%/2=2,5%. Isso quer dizer que vamos comparar o valor de t-calculado com o valor de t-tabelado sob os seguintes critérios: α/2=5%/2=2,5%=0,025 para n-1graus de libredade = 16-1 = 15 na tabela t será o valor = 2,131 (observe o valor marcado com um retângulo na tabela da p.78). O desenho da curva e escrita das hipóteses do teste bilateral é:

Teste Bilateral: H0 : µx=19,90mg/L (Hipótese Nula)

H1 : µx≠19,90mg/L (Hipótese Alternativa)

-t=-2,131 +t=+2,131

Se o valor de t-calculado estiver dentro de uma das áreas de α/2=0,025, rejeitamos a hipótese de que o valor da alcalinidade é de 19,9mg/L. Então vamos ao cálculo: pelo enunciado do exemplo sabemos que: a média da hipótese principal ou nula é µx=19,60 a média da amostra em teste é µx=16,2 o desvio padrão é conhecido por meio da amostra, portanto é s e não σ, s=7,7 e o tamanho da amostra é n=16. Substituindo esses valores no modelo de cálculo:

766,1925,1

4,3

4

7,74,32,6

−=−

=−

=−

=−

=

161616167,77,77,77,719,619,619,619,61111

nnnnssssμμμμxxxxtttt

Então, como (t-calculado = -1,766) é maior que (t-tabelado = -2,131), isto é, pertence à área de aceitação da hipótese nula, podemos dizer que estatisticamente ao nível de confiança de 95% a alcalinidade do rio Caí não se modificou.

Região de Rejeição α/2α/2α/2α/2=0,025=0,025=0,025=0,025


α/2=0,025

Região de Aceitação para Ho

1 - αααα



Teste qui-quadrado (χ2): a distribuição qui-quadrado é contínua e assimétrica, assumindo apenas valores positivos. Assim como a distribuição normal e a distribuição t, a qui-quadrado também é tabelada (ver tabela na p.81).O valor depende do tamanho da amostra, portanto dos graus de liberdade. Como o teste qui quadrado é feito com dados representados por uma, tabela o graus de liberdade (g.l.) vai considerar o número de de linhas (r) e o número de colunas (c), do seguinte modo:

g.l. = (r-1) x (c-1)

O modelo de cálculo do teste é: i

iik

i e

eoQ

2

1

2 )( −=∑

=

Onde, Σ = somatório oi = freqüência observada na i-ésima casela da tabela

ei = freqüência esperada na i-ésima casela da tabela i = i-ésima casela, ou seja, casela 1, 2, 3,... de uma tabela.

A distribuição χ2 tem curva assimétrica, conforme gravura a seguir:

Observe que os valores de χ2 serão todos positivos. O χ2

1-γ;ν é chamado de qui quadrado inferior; O χ2

γ;ν é chamado de qui quadrado superior.



Exemplo do teste qui quadrado: em uma universidade foi apurada o número de estudantes dos cursos da área de ciências humanas e de ciências exatas. Uma amostra de 170 estudantes apontou os seguintes resultados, segundo o sexo:

Ciências humanas

Ciências exatas

Total

Masculino 48 52 100

Feminino 45 25 70

Total 93 77 170

Será que o sexo influência a escolha da área de estudo?

Para responder esta pergunta, primeiro precisamos transformas as freqüências absolutas (observadas) da tabela em freqüências percentuais (esperadas).

Ciências humanas

Ciências exatas

Masculino 55 45

Feminino 38 32

A pergunta agora é a proporção do sexo masculino (πM) é igual à de mulheres (πF) nas áreas de estudo?

Vamos adotar um nível de significância de 5%. Os grau de liberdade para 2linhas e 2colunas será:

(2-1)x(2-1)=1. Então 1 g.l. e α=0,05, o valor de χ2-tabelado = 3,841.

O desenho da curva e a construção das hipóteses é:

3,841 O qui quadrado calculado é:

79,432

)3225(

38

)3845(

45

)4552(

55

)5548()( 22222

1

2 =−

+−

+−

+−

=−

=∑= i

iik

i e

eoQ .

Como (χ2-calculado = 4,79) é maior que ( χ2-tabelado = 3,841), ou seja, está na área de rejeição da hipótese nula, pode-se dizer que estatisticamente ao nível de confiança de 95% do teste há influência do sexo na escolha da área de estudo.

Área de aceitação para H0

Área de rejeição α=0,05

H0 : πM = πF (as proporções são iguais nas áreas de estudo) H1 : πM ≠ πF (as proporções são diferentes nas áreas de estudo)



BIBLIOGRAFIA CONSULTADA

BOTTER, Denise Aparecida. Noções de estatística. São Paulo, EDUSP, 1996, pg. 45-76.

CALLEGARI-JACQUES, S. M. Bioestatística. Porto Alegre: Artmed, 2003.

FRANCISCO, Walter de. Estatística. São Paulo, Atlas, 1982, pg.71-121.

GRIFFITHS, A. J. F. et al. Introdução à genética. Rio de Janeiro: Guanabara Koogan, 2006.

HOEL, P. G.; PORT, S. C.; STONE, C.J. Introdução à teoria da probabilidade. Rio de Janeiro: Interciência, 1978.

LINDGREN, B. W. Introdução à estatística. São Paulo: Ao livro Técnico, 1972.

MENDENHALL, W. Probabilidade e estatística. Rio de Janeiro: Campus, 1985.

MEYER, P. Probabilidade – aplicações à estatística. Rio de Janeiro: 2.ª ed. Livros Técnicos e Científicos Editora, 1984.

MILONE, G.; ANGELINI, F. Estatística Geral. São Paulo: Ed. Atlas, 1993.

MIRSHAWKA, V. Estatística. São Paulo: Nobel, 1972.

SPIEGEL, M.R. Probabilidade e Estatística. São Paulo: McGraw-Hill do Brasil, 1978.

STANSFIELD, W.D. Genética. São Paulo: McGraw Hill do Brasil, 1985.

TOLEDO, G. L.; OVALLE, I. I. Estatística Básica. São Paulo: Atlas, 1994.

medidas de posiÇÃo - nead.uesc.brnead.uesc.br/arquivos/biologia/mod4bloco3/eb11/estatistica... ·...

Documents