testes não-paramétricos

TESTES NO PARAMTRICOS

1. IntroduoAs tcnicas clssicas de inferncia estatstica partem geralmente de pressupostos restritivos sobre a populao ou populaes a partir das quais as observaes so retiradas. Por exemplo, assumir que os dados so provenientes de populaes normalmente distribudas. Pode em alguns casos pressupor-se que as populaes envolvidas possuem a mesma varincia, ou que existe uma relao conhecida entre elas. No caso Normal, o teste estatstico que se obtm geralmente uma funo da mdia amostral e da varincia amostral. Alternativamente, podemos assumir que os dados so provenientes de outras distribuies conhecidas como a Exponencial, Gamma ou Poisson. Continuaramos ainda assim num procedimento baseado nos parmetros que caracterizam a referida distribuio. Nestas circunstncias, estamos no contexto da inferncia paramtrica, para as quais: 1) Os testes incidem sobre um parmetro (valor esperado; varincia; proporo) 2) A distribuio amostral da estatstica de teste pressupe uma forma particular da distribuio populacional. As provas paramtricas exigem tambm que os valores analisados resultem de medidas efectuadas pelo menos ao nvel intervalar de modo a se poderem realizar operaes aritmticas.

1

Os problemas surgem quando estes pressupostos no podem ser feitos, porque so contrrios aos mecanismos que geram a populao ou porque os dados simplesmente no satisfazem os pressupostos. Nestes casos necessitamos de recorrer a tcnicas de inferncia que no requerem pressupostos sobre o mecanismo subjacente gerao dos dados. Podemos neste contexto recorrer a utilizao de teste no paramtrico, ou seja, testes cujo modelo no especifica condies sobre os parmetros da qual se extraiu a amostra. Existem contudo suposies bsicas associadas maioria das provas no paramtricas, nomeadamente que as observaes sejam independentes e que haja continuidade da distribuio subjacente aos dados. Uma vantagem dos testes no paramtricos consiste no facto de no exigirem mensuraes to fortes quanto as provas paramtricas; a maior parte dos testes no paramtricos so aplicados a dados em escala ordinal, e em alguns casos em escala nominal. Efectivamente, em muitos dos testes a que recorremos nem sequer do uma importncia privilegiada aos dados recolhidos, antes consideram os respectivos ranks, scores, sinais, ou perfazem contagens. Este facto origina algum desperdcio de informao mas, no entanto, na recolha de amostras surgem com muita frequncia observaes perturbadoras (muito grandes ou muito pequenas), podendo ser prefervel moderar o seu peso na tomada de deciso, em vez de as ignorar. Tambm, em certas situaes, temos apenas acesso s ordens e no s observaes que as originaram, pelo que ser melhor optar por um mtodo que no faa especificaes sobre os parmetros populacionais. Apesar de tudo, caso sejam cumpridas as condies para que possam ser aplicadas as provas paramtricas (observaes independentes; provenientes de uma populao normal; com a propriedade homocedstica, e com variveis em medidas pelo

2

menos intervalar), estas devero ser utilizadas preferencialmente pois so mais poderosa do que qualquer outra para rejeitar a hiptese nula quando ela falsa. Os testes no paramtricos podem ser divididos em cinco categorias: (1) Testes de localizao; (2) Testes de ajuste; (3) Testes de associao ou correlao; (4) Testes de aleatoriedade; (5) Testes de disperso. Neste curso apenas dedicaremos a nossa ateno aos testes 1-4, mesmo nestas categorias apenas nos cingiremos aos mais utilizados. Os testes podem tambm ser divididos em categorias com base nos pressupostos referentes s populaes e s respectivas amostras: (1) Uma amostra (2) Duas amostras emparelhadas (3) Duas amostras independentes (4) k (>2) amostras emparelhadas (5) k (>2) amostras independentes. Observe-se que quando nos referimos a testes no paramtricos, no significa que no se d relevncia a parmetros de localizao e de escala. Significa apenas que as estatsticas de teste no especificam parmetros.

3

2. Testes de localizaoEstes testes dizem respeito s inferncias sobre diferenas na localizao da distribuio populacional. Para muitos destes testes, os dados devem ser medidos numericamente pelo menos numa escala ordinal de modo que um par de observaes possa ser comparada e numericamente ordenada. Um vector de n valores pode portanto ser ordenado do menor para o maior. Os ranks obtidos contm toda a informao dos dados originais, e deste modo os testes podem ser derivados facilmente a partir deles. Para uma amostra ou o caso emparelhado, a estatstica de teste pode ser obtida a partir do nmero de observaes (ou diferenas) menores que zero (ou outro valor fixo), assim como pelo sinal obtido. Sob a hiptese que a mediana de uma nica populao zero ou que a diferena das medianas de populaes emparelhadas zero, o nmero de valores positivos e negativos dever ser similar. O teste de Wilcoxon vai mais alm do teste do sinal porque tem em conta as diferenas de valor entre as observaes e a mediana. Para o caso de duas amostras, se colocada a hiptese de igualdade de medianas, a distribuio dos ranks de cada amostra na amostra global dever ser similar. Testes estatsticos como a estatstica U de Mann-Whitney, que baseada nos ranks de cada amostra e sumaria as diferenas em soma de ranks para cada amostra, dever ser computada. Estas hipteses podem tambm ser testadas utilizando o teste da mediana. Este teste estatstico baseado no nmero de valores em cada amostra que maior (ou menor) que a mediana da amostra global, em vez dos ranks de cada amostra.

4

2.1 Localizao de uma populaoApesar de o valor esperado, , ser o parmetro de localizao mais utilizado em inferncia estatstica, a mediana populacional, , uma medida de localizao central que pode em muitos casos proporcionar melhores resultados. Neste contexto, os testes de localizao que apresentaremos dizem respeito a esta medida.

O teste do Sinal Este teste desenvolve-se com base em amostras aleatrias provenientes de populaes contnuas. Admitamos que a mediana populacional possui um determinado valor que representamos por 0 . Simbolicamente estaremos perante um teste de hiptese do gnero: H 0 : = 0 H 1 : 0 ou ( < 0 ou > 0 ) Supondo H 0 verdadeira e a amostra aleatria simples, o nmero Y de observaes com valor inferior a 0 (ou superior) uma varivel aleatria com parmetro p = 0.5 . Deste modo, o nosso teste de hipteses pode ser representado alternativamente por H 0 : p = 0.5H 1 : p 0.5 ou ( p < 0.5 ou p > 0.5)

Com uma estatstica de teste dada por:

ET = Y

5

Para amostras de grandes dimenses, a distribuio normal constitui uma boa aproximao da distribuio binomial. De um modo geral, para n 20 obtm-se uma boa aproximao. Nestas condies, a estatstica utilizada no teste ser:ET = p 0 .5 0.25 N

que segue uma distribuio normal padro.

Para efectuar o teste do sinal para uma amostra no SPSS, deve proceder-se do seguinte modo: (a) Na barra de menus escolher: AnalyseNonparametric testsbinomial (b) Seleccionar o ponto de corte (Define dichotomy Cut point), 0 , seleccionar a varivel a comparar e utilizar p=0.5.

O teste do sinal no est implementado no software estatstico R. Contudo, facilmente podemos construir uma funo nesta linguagem que nos permite ajustar este teste:sign.test 0) and length(d) - sum(d == 0) number of successes = 8, number of trials = 12, p-value = 0.3877 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.3488755 0.9007539 sample estimates: probability of success 0.6666667

9

No SPSS, escolhendo na barra de menus escolher AnalyseNonparametric testsbinomial

Cuja tabela de resultados se apresenta em baixo e se encontra de acordo com os resultados obtidos no software estatstico R.Binomial Test Category 60 N 4 8 12 Observed Prop. ,33 ,67 1,00 Test Prop. ,50 Exact Sig. (2-tailed) ,388

Rendimento

Group 1 Group 2 Total

O teste de Wilcoxon pode ser facilmente implementado no software estatstico R recorrendo funo wilcox.test.

R> wilcox.test(x1s,mu=60) Wilcoxon signed rank test data: x1s V = 54, p-value = 0.2661 alternative hypothesis: true location is not equal to 60

10

2.2 Localizao relativa de duas populaes: amostras emparelhadasConsiderem-se duas amostras emparelhadas, ~ = ( x , x ,..., x ) x 1 2 n e

~ = ( y , y ,..., y ) , provenientes de distribuies com a mesma forma. Nestas y 1 2 n condies, a varivel aleatria diferena entre pares de observaes pode servir de base realizao de um teste de localizao.

Teste do sinal Para o teste do sinal no existem requisitos quanto forma da distribuio dos dados. Apenas necessrio que os pares sejam seleccionados aleatoriamente. A forma mais simples de abordar o problema consiste em observar que sob a hiptese nula h igual probabilidade de termos y i > xi como de termos xi > y i . Para efectuar o teste do sinal basta: 1. Observar o sinal de d i = y i xi , desprezando as diferenas nulas, e tomando como n o nmero de diferenas no nulas. 2. Estabelecer um nvel de probabilidade, abaixo do qual rejeitamos a hiptese nula. 3. Recorrer tabela binomial com os parmetros n e p = 0.5 . Para efectuar o teste do sinal no SPSS, deve proceder-se do seguinte modo: (a) Na barra de menus escolher: AnalyseNonparametric tests2 Related samples (b) Seleccionar o par de variveis a comparar; (c) Escolher o teste do sinal, Sign em Test Type.

11

Observaes:1. Quando o teste do sinal aplicado sobre variveis dicotmicas, toma o nome de teste de McNemar. Por exemplo, se pretendemos verificar se existe igual probabilidade de homens e mulheres licenciados terem cnjuge no licenciado. O teste de McNemar muitas vezes utilizado em cenrios do tipo antes-depois (por exemplo, verificar se as intenes de voto se alteram aps um debate televisivo). 2. O teste de homogeneidade marginal uma extenso do teste de McNemar de resposta binria para resposta multinomial.

Teste de Wilcoxon O teste de Wilcoxon considera como pressuposto a simetria da distribuio das diferenas entre os pares de valores. Admitindo este pressuposto, o teste de Wilcoxon apresenta-se como uma melhoria em relao ao teste do sinal, porque ao contrrio deste ultimo tem em considerao a grandeza das observaes. O do teste de Wicoxon tem em linha de conta, mas de forma modesta, a magnitudes das diferenas de cada observao, com o objectivo de verificar se existem diferenas significativas entre os seus resultados nas duas situaes. Deste modo, o teste de Wilcoxon ordena e classifica as diferenas, separando-as depois em positivas e negativas. Supondo verdadeira a hiptese nula, espera-se que as mdias das diferenas sejam aproximadamente iguais para ambos os grupos. A metodologia a seguir a seguinte: 1. Formulam-se as hipteses a testar:

H 0 : A = B (a medida de localizao das duas populaes so iguais)H 1 : A B ou ( A < B ou A > B ) (a medida de localizao das duas

populaes so diferentes). 12

2. Calculam-se os valores absolutos das diferenas das observaes originais, isto ,d i = xi y i para i = 1,..., n .

3. Atribuir ordens s diferenas. 4. Afectar ordem da i-sima diferena absoluta o sinal de xi y i e denote a ordem afectada de sinal por Ri . 5. Calcular o valor da estatstica que resulta da soma dos nmeros de ordem positivos ou negativos. Esta estatstica denota-se por W + no primeiro caso, W no segundo, e por W quando se referir genericamente aos dois casos anteriores. Se H 0 for verdadeira, as distribuies de W + e W so idnticas e simtricas em torno do valor esperado,n(n + 1) / 4 . Deste modo, indiferente ser escolhida W + ou W .

6. Para n 15 podem-se utilizar tabelas para a tomada de deciso. Se H 0 for verdadeira, a distribuio de W tende para a distribuio normal quando n aumenta. Para valores de n superiores a 15, a aproximao da normal j suficientemente precisa. Nesta situao, a estatstica de teste ser dada por: ET = n(n + 1)(2n + 1) / 24 W n(n + 1) / 4

e segue uma distribuio normal reduzida. 7. Se existirem observaes empatadas, o desvio padro da estatstica de teste dever ser corrigido, vindo:

W =

u u n(n + 1)(2n + 1) 3 i i i

i

24

48

onde u i representa o nmero de empates no i-simo grupo de observaes iguais.

13

Observao: Para verificarmos de uma forma rude que as diferenas sejam uma amostra de uma distribuio simtrica, podemos visualizar o histograma e verificar se a varivel em causa apresenta uma distribuio aproximadamente simtrica. Para efectuar o teste de Wilcoxon no SPSS, deve proceder-se do seguinte modo: (a) Na barra de menus escolher: AnalyseNonparametric tests2 Related samples (b) Seleccionar o par de variveis a comparar; (c) Escolher o teste do sinal, Wilcoxon em Test Type. Para efectuar o teste de Wilcoxon no R deve utilizar-se a funo wilcox.test.Exemplo 1: A fim de testar um medicamento para queimaduras, aproveita-se o facto de

a gravidade das leses provocadas por excesso de exposio solar dos ombros de 10 indivduos serem em geral de idntica gravidade. Um dos ombros tratado com o novo medicamento, e o outro com o medicamento usual (experincia duplamente cega). Regista-se o par (xi , y i ) que representa o nmero de horas at cicatrizao. Os resultados foram os seguintes: xi : yi : 15.4 14.7 19.3 28.9 4.2 7.4 19.3 19.3 45.2 54.2 18.6 27.4 11.2 12.8 18.1 15.4 33.0 36.4

Com base nos resultados apresentados, poder-se- concluir, ao nvel de significncia de 5%, que o novo medicamento (x) melhor que o usual? Vejamos ento o que nos indicam os testes dos sinais bem como o de Wilcoxon para este problema. O teste do sinal conduzido com base nas hipteses: H 0 : p = 0.5H 1 : p 0.5 (ou p < 0.5)

14

Utilizando o software SPSS, o resultado do teste o seguinte:Frequencies N Y-X Negative Differences(a) Positive Differences(b) Ties(c) Total a YX c Y=X 2 6 1 9

Decorre da anlise desta tabela que a cicatrizao mais rpida com o novo medicamento em 6 casos, e mais lenta em 2 casos. Assim, o nmero de casos onde a cicatrizao mais rpida com o novo medicamento claramente superior aos casos onde a cicatrizao mais rpida com o medicamento usual. Tero essas diferenas significado estatstico?Test Statistics(b) Y-X ,289(a) a Binomial distribution used. b Sign Test Exact Sig. (2-tailed)

O nvel de significncia do teste indica que, em aproximadamente 29% dos casos, esperaramos ver uma diferena destas quando a hiptese nula fosse verdadeira. Deve por isso, aceitar-se a hiptese nula que afirma no haver diferena significativa entre os tempos de cicatrizao proporcionados pelos dois medicamentos. Caso tivssemos optado pelo teste unilateral esquerda, o teste do sinal conduz a um p-valor de 0.145 (>0.05). Assim, ao nvel de = 5% , continuaria a no haver razes para rejeitar a hiptese nula com base naquelas amostras. Vejamos agora quais os resultados proporcionados pelo teste de Wilcoxon.Ranks N YX Negative Ranks Positive Ranks Ties Total a YX c Y=X

Esta tabela mostra que a mdia das classificaes para quando os tempos de cicatrizao so menores com o novo medicamento 32; enquanto que para os caso em que os tempos de cicatrizao so maiores igual a 2.Test Statistics(b) Y-X -1,960(a) ,050

Z Asymp. Sig. (2-tailed)

a Based on negative ranks. b Wilcoxon Signed Ranks Test

Pela significncia bilateral verifica-se a diferena na mdia das classificaes suficiente para rejeitar a hiptese nula (para o nvel de significncia de 5%).

Para obter os resultados destes dois testes no R teramos de efectuar os seguintes comandos: R> x y sign.test(x,y)

Exact binomial test data: sum(d > 0) and length(d) - sum(d == 0) number of successes = 2, number of trials = 8, p-value = 0.2891 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.03185403 0.65085579 sample estimates: probability of success 0.25

R> wilcox.test(x,y, paired =TRUE)Wilcoxon signed rank test with continuity correction data: x and y V = 4, p-value = 0.05871 alternative hypothesis: true location shift is not equal to 0

16

Este comando utilize por defeito uma correco de continuidade para obter o valor de prova. Se no queremos esta correco e assim obter os mesmos resultados que os proporcionados pelo SPSS, devemos efectuar: R> wilcox.test(x,y,paired =TRUE,correct=FALSE)O teste de Friedman utilizado para verificar a hiptese nula de que (k 2 ) amostras

emparelhadas so provenientes da mesma populao. Para efectuar o teste de Friedman no SPSS, deve proceder-se do seguinte modo: (a) Na barra de menus escolher: AnalyseNonparametric testsk Related samples (b) Seleccionar as variveis a comparar; (c) Escolher o teste do sinal, Friedman em Test Type.

Para efectuar o teste de Friedman no R, deve utilizar-se a funo friedman.test.

Exerccios: 1: Realizou-se um estudo para investigar o efeito do exerccio fsico no nvel de

colesterol no soro. Onze indivduos participaram no estudo. Antes do exerccio foi avaliado o nvel de colesterol em cada indivduo. Depois de submetidos a um programa de exerccio fsico, avaliaram-se novamente os nveis de colesterol no sangue. Os valores obtidos (em mg/dl) foram os seguintes:Antes: 182 Depois: 198 232 210 191 194 200 210 148 138 249 220 276 219 213 161 241 210 480 313 262 226

Com base nos resultados apresentados, poder-se- concluir, ao nvel de significncia de 5%, que o exerccio baixa o nvel de colesterol no sangue?

17

2: Realizou-se um estudo para investigar o efeito de uma dieta vegetariana no nvel de

colesterol. Os valores obtidos (em mg/dl) foram os seguintes: Antes 195 145 205 159 244 166 250 236 192 224 238 197 169 158 151 197 180 222 168 168 167 161 178 137 Depois 146 155 178 146 208 147 202 215 184 208 206 169 182 127 149 178 161 187 176 145 154 153 137 125

Com base nos resultados apresentados, poder-se- concluir, ao nvel de significncia de 5%, que uma dieta vegetariana reduz o nvel de colesterol no sangue? E para um nvel de significncia de 1%?

3. Mediu-se a capacidade torcica de 7 indivduos seleccionados aleatoriamente. Esse

grupo de indivduos submeteu-se voluntariamente a um treino especial que tinha por objectivo aumentar a capacidade torcica (litros). Os resultados seguintes representam as medies obtidas Antes e Depois do exerccio. Antes: Depois: 3.5 3.4 3.6 3.9 4.1 4.5 2.9 3.1 3.4 3.9 4.2 4.4 3.9 3.8

Com base nos resultados apresentados, poder-se- concluir, ao nvel de significncia de 5%, que o exerccio aumenta a capacidade torcica?

18

2.3 Localizao relativa de duas ou mais populaes: amostras independentes O teste de Mann-Whitney (M-W)

Para utilizarmos este teste necessitamos que a forma das distribuies seja a mesma para os dois grupos, ou seja, que as varincias das populaes sejam iguais para os dois grupos. O objectivo deste teste consiste em avaliar se as medianas de duas populaes contnuas A e B, com a mesma forma, se localizam no mesmo ponto. Simbolicamente estaremos perante um teste de hiptese do gnero: H 0 : A = B (a medida de localizao das duas populaes igual)H 1 : A B ou ( A < B ou A > B )

Admitamos que temos tamanhos amostrais n A e n B , com n A n B . Podemos utilizar os seguintes passos para construir a estatstica de teste: 1. Ordenam-se de forma crescente as n observaes, atribuindo-se um nmero de ordem a cada observao. 2. ET = W (soma dos nmeros de ordem da menor amostra ) 3. Sob a hiptese nula, E (W ) = n B (n + 1) / 2 e var(W ) = n A n B (n + 1) / 12 4. Para valores pequenos podemos recorrer ao uso de tabelas. Quando a hiptese nula verdadeira e para valores de tamanhos suficientemente grandes, a estatstica de teste pode ser aproximadamente,ET = W n B (n + 1) / 2 n A n B (n + 1) / 12

e segue uma distribuio normal reduzida.

19

5. Quando surgem observaes empatadas devemos seguir o procedimento descrito no teste de Wilcoxon. Quando se aproxima a distribuio de W pela normal, o desvio padro da estatstica de teste deve ser corrigido: 3 n A nB ui ui n A n B ( N + 1) i i 12 12n(n 1)

W =

onde u i representa o nmero de empates no i-simo grupo de observaes iguais. Para efectuar o teste de M-W no SPSS, deve proceder-se do seguinte modo: (a) Na barra de menus escolher: AnalyseNonparametric tests2 Independent samples (b) Seleccionar a varivel teste e varivel que distingue os dois grupos; (c) Escolher o teste do Mann-Whitney em Test Type.

Para efectuar o teste de M-W no R, deve utilizar-se a funo wilcox.test. Neste caso, as amostras so independentes (paired=FALSE).

Exemplo: Pretende-se avaliar se as distribuies dos consumos domsticos de energia

elctrica por habitante em duas regies relativamente pobres tm a mesma mediana. Os resultados apresentados referem-se a consumos anuais por habitante (milhares de kwh), para duas amostras aleatrias independentes, uma correspondendo a 10 concelhos de uma regio A, e a outra de outra regio B. Regio A: Regio B: 0.237 0.235 0.423 0.398 0.241 0.237 0.344 0.449 0.741 0.405 0.341 0.482 0.464 0.256 0.908 0.286 0.518 0.326

20

Ranks B 1 2 Total N 10 8 18 Mean Rank 8,20 11,13 Sum of Ranks 82,00 89,00

A

Deste modo podemos observar que a regio A tem consumos anuais por habitante com classificaes mais baixas.Test Statistics(b) A 27,000 82,000 -1,156 ,248 ,274(a)

Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Exact Sig. [2*(1-tailed Sig.)] a Not corrected for ties. b Grouping Variable: B

Pela significncia bilateral verifica-se a diferena na mdia das classificaes no suficientemente elevada para rejeitar a hiptese nula (para o nvel de significncia de 5%). No software estatstico R: R> RegA RegB wilcox.test(RegA,RegB,correct=FALSE)Wilcoxon rank sum test data: RegA and RegB W = 27, p-value = 0.2478 alternative hypothesis: true location shift is not equal to 0

21

Exerccios: 1. Pretende-se avaliar se, na capital de um determinado pas, a remunerao mediana

das secretrias de direco superior, em pelo menos 10 contos/ms, remunerao mediana numa determinada cidade perifrica. Admite-se que as distribuies das remuneraes em ambas as cidades apenas diferem na sua localizao. Para o efeito, foram recolhidas em cada cidade duas amostras aleatrias de 20 vencimentos mensais, tendo-se obtido os seguintes resultados: Periferia: Capital: 126.6 133.7 136.6 142.0 146.4 147.1 147.5 148.3 148.8 152.7 155.1 155.2 159.0 164.5 167.3 173.6 175.4 175.8 179.5 185.4 138.0 147.9 155.7 158.0 170.0 172.0 173.1 173.3 176.8 177.9 178.1 178.4 179.3 179.4 183.7 189.8 191.0 195.7 195.9 221.5

2. Uma empresa de construo civil e imobiliria colocou venda uma srie de andares

de luxo. O seu gerente deseja confirmar se o facto de os seus potenciais clientes verem um andar modelo melhora a sua predisposio para a compra. A 15 clientes potenciais que apenas tiveram acesso a um folheto que descreve o andar, perguntou quanto estariam dispostos a pagar por ele. As respostas, expressas em milhares de contos, foram as seguintes: 63 33 44 47 55 39 60 45 24 31 53 30 36 69 54 A mesma pergunta foi feita a outros 12 potenciais clientes que, para alm de terem visto o folheto, puderam inspeccionar o andar modelo. As respostas em milhares de contos foram as seguintes: 65 45 43 71 52 51 64 35 59 75 67 48 Teste ao nvel de significncia de 5%, se a inspeco do andar modelo conduziu a uma maior valorizao do andar por parte dos potenciais clientes.

22

O teste de Kruskal-Wallis (K-W)

calculado de forma semelhante ao M-W com a diferena de que existem mais grupos. Os dados tm de provir de amostras independentes de populaes com a mesma forma. Suponhamos que se pretende comparar k populaes baseadas em amostras com

n j observaes na j-sima amostra ( j = 1,..., k ), de modo que a soma destasobservaes n, nmero total de observaes. A metodologia a seguir a seguinte: 1. Ordenar todas as observaes e calcular as suas ordens; 2. Calcular a soma dos ranks, R j , da j-sima amostra; 3. Determina-se a estatstica de teste de K-W:k R 12 j H= n 3(n + 1) n(n + 1) j =1 j2

Sob validade de H 0 e desde que o tamanho das k amostras no sejam muito pequenos, a estatstica H tem uma distribuio aproximada de um Qui-quadrado comk 1 graus de liberdade.

Para efectuar o teste K-W no SPSS. deve proceder-se do seguinte modo: (a) Na barra de menus escolher: AnalyseNonparametric testsk Independent samples (b) Seleccionar a varivel teste e varivel que distingue os dois grupos; (c) Escolher o teste do Kruskal-Wallis em Test Type. Para efectuar o teste K-W no R. deve utilizar-se a funo kruskal.test.

23

Exemplo: Experimentaram-se 4 tipos de tratamento em vinte doentes com cancro do

mesmo tipo e no mesmo estdio de desenvolvimento, e o registo do progresso da doena utilizado para comparar tratamentos. Os doentes so divididos ao acaso em quatro grupos de cinco doentes, a cada grupo administrado um tratamento diferente, e o tempo de sobrevivncia em anos de cada um dos grupos registado. Poderemos concluir no haver diferenas significativas entre os quatro tratamentos, no que respeita ao tempo de sobrevivncia? Tipo de Tratamento A B C D N de anos de sobrevivncia 10.6 9.4 5.6 12.3 6.4 6.1 10.1 5.1 5.0 13.7 8.5 7.7

14.2 12.8 11.5 14.9

2.4 1.6 4.8 5.9

O resultado do teste recorrendo ao SPSS o seguinte:Ranks tipo de tratamento 1 2 3 4 Total Test Statistics(a,b) numero de anos de sobrevivncia Chi-Square df Asymp. Sig. 1,949 3 ,583 N 5 5 5 5 20 Mean Rank 10,60 10,20 8,00 13,20

numero de anos de sobrevivncia

a Kruskal Wallis Test b Grouping Variable: tipo de tratamento

Verifica-se que as mdias das classificaes so muito semelhantes para todos os grupos. Alm disso, o nvel de significncia muito elevado, pelo que se deve aceitar a hiptese nula que afirma que a distribuio igual para todos os grupos.

24

No software estatstico R: R> data G kruskal.test(data,G)

Kruskal-Wallis rank sum test data: data and G Kruskal-Wallis chi-squared = 1.9486, df = 3, p-value = 0.5831

3. Testes de ajustePara o caso de uma amostra, estes testes investigam se uma amostra de observaes segue ou no uma determinada distribuio. Para o caso de duas amostras, o teste de ajuste investiga se as duas amostras podem ser consideradas provenientes de uma distribuio comum. Para o caso de uma amostra a hiptese nula pode especificar apenas a forma distribucional, por exemplo Normal( , ) , ou pode incorporar valores para os parmetros, por exemplo, segue uma Poisson de mdia 2. Alguns testes deste tipo constituem a funo de distribuio cumulativa das observaes e comparam com distribuio cumulativa da hiptese nula. No caso de duas amostras, a estatstica proporciona uma medida para a diferena obtida para cada amostra. Estes testes so conhecidos como testes de Kolmogorov-Smirnov. Outro teste de bondade de ajuste o teste Qui-quadrado. Para este teste, os dados so primeiro agrupados em intervalos e depois calculada a diferena entre os valores observados em cada intervalo e os valores esperados, sob a hiptese nula. A estatstica baseada nestas diferenas segue uma distribuio 2 .

25

3.1 Ajuste de uma amostra a uma distribuio tericaTeste do Qui-quadrado

O teste do Qui-quadrado permite avaliar a aderncia entre uma distribuio amostral constituda por observaes expressas numa qualquer escala e uma distribuio terica. Este teste compara as frequncias dos valores observados com as frequncias dos valores esperados das diferentes categorias de uma varivel aleatria. Condies para que o teste possa ser utilizado: (a) no exitirem mais de 20% de categorias com valores esperados inferiores a 5. (b) todas as categorias com valores esperados superiores ou iguais a 1. Podemos contudo agregar algumas categorias contguas, caso alguma das regras seja violada. A metodologia que se adopta no teste segue os seguintes passos: 1. Formulao da hiptese nula e alternativa:

H 0 : A populao segue uma determinada distribuioH 1 : A populao no segue tal distribuio de probabilidade.

2. As n observaes amostrais so agrupadas em k 2 classes no sobreponveis. 3. Calculam-se as frequncias de observaes (frequncias observadas) amostrais nas diferentes classes. Denotamos essas frequncias por nk . 4. Determinam-se as frequncias esperadas em cada classe supondo verdadeira a hiptese nula. Denotamos essas frequncias por ek , sendo dadas por ek = np k , onde p k representa a probabilidade de a varivel aleatria tomar valores pertencentes k-sima categoria, supondo a hiptese nula verdadeira. 5. A estatstica de teste construda com base numa medida global de ajuste entre as frequncias observadas e as frequncias esperadas:

26

ET = Q = k =1

k

(nk ek )2ek

Supondo a hiptese nula verdadeira, o valor de Q dever ser pequeno. Quando a dimenso da amostra grande, a estatstica Q segue uma distribuio (2k 1) r onde r representa o nmero de parmetros estimados a partir da amostra. 6. A rejeio ou no da hiptese nula ser feita com base na comparao do valor da estatstica de teste e (2k 1) r ( ) , sendo o nvel de significncia do teste.

Para efectuar o teste do Qui-quadrado no SPSS, deve proceder-se do seguinte modo: (a) Na barra de menus escolher: AnalyseNonparametric testsChi-square (b) Seleccionar um ou mais variveis a testar; (c) Especificar as categorias em Expected Range. Se todos os valores da varivel definem uma categoria, seleccionar Get from data. Caso contrrio, seleccionar Use

Specified range e indicar o extremo mximo e mnimo do intervalo.

Para efectuar o teste do Qui-quadrado no R, deve utilizar-se a funo chisq.test.

Observao: caso os dados do problema estejam agrupados e tenhamos as frequncias

absolutas podemos ainda assim resolver o problema no software estatstico SPSS efectuando uma ponderao nos dados:Introduzir duas variveis classes e Freq_obs. Posteriormente, efectuar Data->Weight Cases->Weight Cases by (Frequency variable: Freq_obs). Analyze->Nonparametric tests->Chi-Square Test variable list: classes Expected values: (introduzir os valores esperados supondo H0 verdadeira)

27

Exemplo: No posto de inspeco final de uma fabrica de foges, os aparelhos so

submetidos a um conjunto de verificaes e ensaios. Com base em muitas observaes pde concluir-se que o nmero de defeitos (Y) por aparelho submetido inspeco final seguia uma distribuio de Poisson com o valor esperado de 2 defeitos/fogo. Com o objectivo de melhorar a produtividade, foram introduzidas alteraes no processo de montagem. Os resultados a seguir apresentados referem-se a 100 aparelhos retirados aleatoriamente do ltimo lote, apresentando uma mdia de 2.05. Pretende-se saber se as alteraes introduzidas no processo de fabrico tiveram, ou no, consequncias no nmero de erros de montagem. 2 1 1 4 6 2 2 2 1 3 1 2 3 2 5 1 0 1 0 2 1 3 1 1 1 3 2 0 2 3 Nmero de defeitos por fogo. 5 1 2 1 2 0 1 6 3 1 1 0 2 4 0 1 0 3 1 0 4 4 1 2 0 5 0 0 1 3 2 7 1 1 1 0 2 1 3 2 1 1 1 1 5 0 3 5 3 1 0 3 2 3 0 5 2 0 2 4 4 7 4 1 2 4 1 1 1 6

No software estatstico R: R> Freq p chisq.test(Freq,p=p)Chi-squared test for given probabilities data: Freq X-squared = 10.9661, df = 5, p-value = 0.05206

28

Teste de Kolgomorov-Smirnov (K-S)

Relativamente ao teste Qui-quadrado, este teste apresenta algumas vantagens. Quando a distribuio populacional contnua e se conhecem a forma e os parmetros da sua funo densidade de probabilidade, a distribuio da estatstica de teste definida rigorosamente. Esta vantagem mais clara para amostras pequenas. Por outro lado, este um teste mais potente do que o teste Qui-quadrado. Em contrapartida, exige distribuies populacionais contnuas e completamente especificadas. Este teste tem por base a anlise da proximidade ou ajuste entre a funo distribuio amostral S (x ) e a funo de distribuio populacional sob a hiptese nula,

F0 ( x ) . A estatstica de teste dada por, ET = D = supremo S ( x ) F0 ( x ) .x

No teste de K-S pode seguir-se o seguinte procedimento: 1. Constituir as hipteses:

H 0 : A funo distribuio da populao da qual proveniente a amostra idntica funo distribuio que se assume conhecida; ou F ( x ) = F0 ( x )H 1 : F ( x ) F0 ( x )

2. Calcular a estatstica de teste; 3. Comparar o valor D com o valor crtico (recorrendo ao uso de tabelas), para o nvel de significncia do teste. Em funo do resultado rejeita-se ou no a hiptese nula. Para efectuar o teste K-S no SPSS, deve proceder-se do seguinte modo: (a) Na barra de menus escolher: AnalyseNonparametric tests1 sample K-S (b) Seleccionar uma ou mais variveis a testar; (c) Especificar em Test Distribution a distribuio conhecida.

29

Para efectuar o teste K-S no R, deve utilizar-se a funo ks.test.

Exemplo:

Os enlogos de uma grande adega cooperativa admitem que, em mdia, o lcool provvel (em graus) das uvas anualmente entregues para vinificao pelo conjunto dos seus scios, segue uma distribuio Normal com valor esperado 10 e desvio padro 1. Pretende-se testar a validade desta conjectura a partir dos dados obtidos nos ltimos 20 anos, que se apresentam a seguir: 11.9 10.6 13.3 11.6 12.9 10.4 11.3 13.5 9.1 8.2 11.6 10.0 11.3 10.3 8.4 9.9 11.0 10.3 13.2 9.9 Testar se o valor mdio do lcool provvel segue uma distribuio normal, mas agora com valor esperado e desvio padro iguais s estimativas obtidas pela amostra. Os resultados proporcionados pelo SPSS permitem-nos averiguar se os dados so provenientes de uma distribuio normal com mdia (amostral) de 10,935 e desvio padro (amostral) igual a 1,5346. Para esta situao devemos aceitar a hiptese nula de que os dados seguem a referida distribuio.One-Sample Kolmogorov-Smirnov Test alcool em graus 20 Mean Std. Deviation Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) a Test distribution is Normal. b Calculated from data. Absolute Positive Negative 10,935 1,5346 ,100 ,086 -,100 ,447 ,988

N Normal Parameters(a,b)

30

No software estatstico R: R> Alcool ks.test(Alcool,"pnorm",10,1)One-sample Kolmogorov-Smirnov test data: Alcool D = 0.3532, p-value = 0.01361 alternative hypothesis: two-sided

Observao: cuidado que o que o SPSS testou foi se os dados eram provenientes de

uma distribuio normal cujos parmetros foram estimados a partir dos dados. Os comandos para o R testam se os dados so provenientes de uma distribuio normal de mdia 10 e desvio padro 1. Aproveitamos para referir que caso se deseje testar a normalidade dos dados o teste mais recomendvel o teste de Shapiro Wilks. No software estatstico R este teste pode efectuar-se recorrendo funo shapiro.test. R> shapiro.test(Alcool)Shapiro-Wilk normality test data: Alcool W = 0.9607, p-value = 0.557

Repare-se ainda que podemos obter os mesmo resultados que os do SPSS do seguinte modo: R> ks.test(Alcool,"pnorm",mean(Alcool),sd(Alcool))One-sample Kolmogorov-Smirnov test data: Alcool D = 0.1, p-value = 0.9882 alternative hypothesis: two-sided

31

Exerccios: 1. Pretende-se construir um modelo de simulao das operaes de um determinado

terminal cerealeiro de um porto situado na Europa. Uma das variveis a considerar no modelo corresponde diferena entre a data de chegada dos navios provenientes dos EUA e a respectiva data planeada. Dado que tal diferena influenciada por muitos factores aditivos independentes, h razes para supor que se distribui normalmente. Uma amostra de 50 navios revelou os resultados apresentados na tabela seguinte: 1.8 -11.6 8.2 7.6 1.0 -6.6 -5.8 2.2 -4.2 1.4 -7.4 2.2 -5.6 -6.0 -3.8 4.4 4.0 13.2 5.0 0.4 -9.0 5.0 -0.3 18.8 -1.8 -2.0 20.6 -1.8 0.0 -4.0 2.4 -1.8 -0.6 1.4 -9.2 -2.8 12.4 2.6 -10.0 3.2 -6.0 -8.9 -7.6 3.6 0.2 15.2 -2.4 -3.4 -8.4 -1.8

2. Uma companhia area registou, para um determinado voo, qual o nmero de

passageiros que, tendo efectuado reserva, acabaram por no fazer o check in. Para cem dias escolhidos aleatoriamente, os resultados foram os seguintes: N ausncias N voos 0 21 1 36 2 23 3 13 4 4 5 2 6 1 Teste, ao nvel de significncia de 5%, se a distribuio do nmero de ausncias por voo segue uma distribuio de Poisson.3. Os desvios entre o tempo planeado para uma determinada operao de montagem

numa linha de produo e o tempo efectivamente gasto (segundos). Admita-se que 20 observaes foram recolhidas de forma aleatria e teste ao nvel de significncia de 5%, se os desvios seguem uma distribuio normal. Desvios: {50 53 102 -39 112 64 -122 104 37 32 165 47 22 -46 91 140 -38 109 41 -33} 32

4. Num estudo sobre o desenvolvimento de colnias de bactrias numa soluo de soro

fisiolgico procede-se contagem das clulas da retcula em que no se observa nenhuma bactria, s clulas em que h uma, duas, bactrias, com os seguintes resultados: N bactrias na clula N clulas 0 44 1 98 2 3 107 79 4 43 >4 29

Pretende-se saber se o modelo Poisson (com mdia 2) apropriado.

3.2 Ajuste entre duas amostras independentesTeste do Qui-quadrado

Pode ser considerado uma extenso do teste do Qui-quadrado da qualidade do ajuste de uma amostra a uma distribuio terica. A diferena que agora se pretende comparar duas populaes a partir das quais se obtm amostras independentes. Como no caso anterior, apenas se requer que as amostras sejam aleatrias e que possuam dimenses adequadas. Deste modo, a metodologia em tudo semelhante apresentada atrs. Pode seguir-se o seguinte procedimento: 1. Constituir as hipteses:

H 0 : As populaes A e B so idnticas; FA ( x ) = FB ( x )H 1 : As populaes A e B no so idnticas; FA ( x ) FB ( x )

2. Calcular a estatstica de teste: ET = Q = i =1

k

(nkA ekA )2ekA

+i =1

k

(nkB ekB )2ekB

que segue,

supondo a hiptese nula verdadeira, uma distribuio Qui-quadrado com k-1 graus de liberdade. Repare-se que:n A e n B so os tamanhos amostrais correspondentes s

populaes A e B respectivamente. Agrupados os dados em k classes obtemos 33

frequncias observadas nkA e nkB . Sob o pressuposto que H 0 verdadeira, podemos calcular as frequncias esperadas ekA e ekB . 3. Comparar o valor Q com o valor crtico, para o nvel de significncia do teste. Em funo do resultado rejeita-se ou no a hiptese nula.

Exemplo: Um fabricante de automveis pretende verificar se o modo como se repartem

as vendas da sua marca ao longo da gama idntico nos pases A e B. A tabela seguinte apresenta a composio das vendas nestes mercados ao longo do ltimo ano. Utilize um nvel de significncia de 5%. Gama Baixa Mdia-Baixa Mdia Mdia-Alta Alta Luxo Pas A 1034 892 734 280 80 26 Pas B 2225 2103 1754 685 202 32

No software estatstico R: R> Table Table[,1] Table[,2] chisq.test(Table)

Pearson's Chi-squared test data: Table X-squared = 11.3176, df = 5, p-value = 0.04543

No SPSS, devemos considerar as variveis: gama, Pas e Count; Data->Weight Cases->Weight Cases by (Frequency variable: Count). Analyze-> Descriptive Statistics -> Crosstabs Rows: gama Columns: Pas Statistics: Chi-square 34

35

Os resultados esto apresentados na forma de tabelas em baixo:gama * pais Crosstabulation Count pais gama Baixa Mdia-Baixa Mdia Mdia-Alta Alta Luxo Pas A 1034 892 734 280 80 26 3046 Pas B 2225 2103 1754 685 202 32 7001 Total 3259 2995 2488 965 282 58 10047

Total

Chi-Square Tests Value 11,318a 10,923 2,072 10047 df 5 5 1 Asymp. Sig. (2-sided) ,045 ,053 ,150

Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases

a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 17,58.

36

Teste de Kolgomorov-Smirnov (K-S)

Utiliza-se quando se pretende avaliar se duas amostras aleatrias independentes provm de uma nica populao. Pode seguir-se o seguinte procedimento: 1. Constituir as hipteses:

H 0 : As populaes A e B so idnticas; FA ( x ) = FB ( x )H 1 : As populaes A e B no so idnticas; FA ( x ) FB ( x )

2. Calcular a estatstica de teste: ET = D = supremo S A ( x ) S B ( x )x

3. Comparar o valor D com o valor crtico, para o nvel de significncia do teste. Em funo do resultado rejeita-se ou no a hiptese nula.

Exemplo: Uma grande repartio de finanas foi escolhida para uma experincia piloto

na qual se pretendem testar novos procedimentos. Indicam-se a seguir os valores do tempo dispendido no processamento de uma determinada operao, antes e depois de terem sido introduzidos novos procedimentos. Antes: 4.1 4.4 4.7 4.8 4.9 5.7 7.4 7.6 9.7 10.3 12.4 15.5 Depois: 3.8 5.0 6.3 6.6 6.7 6.9 8.5 8.6 8.9 9.5 9.8 10.2 Ser que os dados sustentam a hiptese de que a distribuio do tempo de processamento se modificou com a introduo dos novos procedimentos?

37

4. Testes de associao e correlaoMuito frequentemente desejvel dispor de um ndice que exprima o grau de associao entre duas variveis. Um desses ndices o coeficiente de correlaoordinal de Spearman. Essencialmente so baseados nos ranks em lugar dos valores

observados. Envolvem a soma de alguma funo da diferena dos ranks entre as amostras para obter uma medida de concordncia dos ranks. Nveis de significncia podem ser calculados para amostras de tamanho pequeno utilizando o teste de Qui-quadrado baseado em tabelas de contingncia.

O teste de correlao ordinal de Spearman

Dadas duas variveis aleatrias X e Y provenientes de uma populao bivariada, considerem-se as suas observaes ordenadas de forma crescente, atribua-se um nmero de ordem e considere-se o par ordenado com os respectivos ranks. Se existe alguma associao entre as duas variveis ser de esperar uma de duas situaes: a diferena d i para cada observao dos nmeros de ordem do par tomar valores baixos ou valores elevados. A estatstica de teste de Spearman baseada no somatrio do quadrado destes valores, mais concretamente: 6. d i2i =1 2 n

RS = 1

n(n 1)

Este coeficiente toma valor 1 quando existe entre o conjunto de observaes uma associao directa perfeita, e -1 no caso de associao inversa perfeita. Quando no existe associao o seu valor aproxima-se de zero. Este coeficiente constitui a estatstica para testar a seguinte hiptese nula:

H 0 : As variveis no esto associadas.H 1 : As variveis esto associadas.

38

Para dimenses de amostras superiores a 30, a estatstica de teste pode ser substituda por: ET =

(1 R )/(n 2)2 S

RS

que sob H 0 segue uma distribuio t-student

com n-2 graus de liberdade. Para efectuar o teste de correlao de Spearman no SPSS, deve proceder-se do seguinte modo: (a) Na barra de menus escolher: AnalyseCorrelateBivariate (b) Escolher o teste em Correlation Coefficients.

Para efectuar o teste de correlao de Spearman no R, deve utilizar-se a funo cor.test.

Exemplo: Apresentam-se em baixo os resultados obtidos por 12 atletas em duas provas:

corridas de 100 metros e salto em comprimento. Ser que os resultados permitem corroborar, ao nvel de significncia de 5%, a hiptese de que os bons velocistas so tambm bons saltadores em comprimento?100 metros salto

12.1 12.4 13.0 11.9 14.2 13.6 12.7 14.2 13.7 13.3 12.8 13.4 6.93 6.76 5.94 7.70 5.61 6.32 7.08 5.30 5.86 6.04 7.13 6.76

Utilizando o programa estatstico SPSS obtemos o seguinte quadro:Correlations CORRIDA Spearman's rho CORRIDA Correlation Coefficient Sig. (2-tailed) N SALTO Correlation Coefficient Sig. (2-tailed) N ** Correlation is significant at the 0.01 level (2-tailed). 1,000 . 12 -,856(**) ,000 12 SALTO -,856(**) ,000 12 1,000 . 12

39

Deste modo, devemos rejeitar a hiptese nula de que no existe associao entre os tempos obtidos na corrida de 100 metros e os valores obtidos para o salto em comprimento. Mais, podemos concluir que existe uma associao inversa, ou seja, existe uma tendncia para que atletas com melhores resultados na corrida obtenham piores resultados no salto, e vice-versa. No software estatstico R: R> Corrida Salto cor.test(Corrida, Salto, method= "spearman")

Spearman's rank correlation rho data: Corrida and Salto S = 530.8561, p-value = 0.0003792 alternative hypothesis: true rho is not equal to 0 sample estimates: rho -0.8561404

Extenso da Correlao de Spearman a m amostras

A extenso da correlao ordinal a m amostras simples. Como se dispe de

m(m 1) pares de amostras, calcular a correlao ordinal de Spearman para cada par, 2 implica ter de calcular longa. Se os mesmos I itens (elementos) so ordenados m vezes, e se a soma das ordens atribudas ao i-simo item Ri , i = 1,2,..., I ento a correlao ordinal entre ospares de ordenaes dado por: m(m 1) 2

m(m 1) coeficientes, o que pode ser uma tarefa maadora e 2

40

rs medio =

m(m 1)I I 12

12 Ri2

(

)

1 4I + 2 m 1 + 3(I + 1) I 1

Uma outra possibilidade que nos permite obter um nvel de concordncia entre os dados proporcionado pelo teste de Kendall, que uma medida de acordo entre ordenaes. Os resultados do teste variam entre 0 (nenhum acordo) e 1 (acordo completo). Para determinar este valor podemos recorrer ao seguinte teste no SPSS, procedendo do seguinte modo: (a) Na barra de menus escolher: AnalyseNonparametric testsk related samples (b) Em Test Type seleccionar Kendalls W.

O teste de Kendall pode ser implementado no software estatstico R recorrendo funo cor.test (method= "kendall").

Teste do Qui-quadrado

Permite verificar a independncia entre duas variveis X e Y, que expressas em qualquer escala, se apresentam agrupadas em classes mutuamente exclusivas e exaustivas. As limitaes do teste Qui-quadrado atrs apresentadas continuam a verificar-se aqui. Pode seguir-se o seguinte procedimento: 1. Constituir as hipteses: H 0 : As variveis so independentes.H 1 : As variveis no so independentes.

41

2. Calcular a estatstica de teste: ET = Q = i =1 j =1

I

J

(n

ij

eij ) eij

2

que segue, supondo a

hiptese nula verdadeira, uma distribuio Qui-quadrado com (I 1)( J 1) graus de liberdade. Repare-se que: Agrupados os dados da varivel X em I categorias e os de

Y em J categorias obtm-se uma matriz I J onde nij representa a frequncia (conjunta) observada para a categoria i de X e j de Y. Sob o pressuposto que H 0 verdadeira, podemos calcular as frequncias esperadas eij : eij = ni n j / nni = nij e n j = nij .j =1 J

com

I

i =1

3. Comparar o valor Q com o valor crtico, para o nvel de significncia do teste. Em funo do resultado rejeita-se ou no a hiptese nula.

Para efectuar o teste de correlao do Qui-quadrado (baseado em tabelas de contingncia) no SPSS, deve proceder-se do seguinte modo: (a) Na barra de menus escolher: AnalyseDescriptive StatisticsCrosstabs (b) Seleccionar as variveis a comparar e coloc-las, uma na lista das linhas outra na lista das colunas. (c) Em statistics escolher a estatstica do Qui-quadrado, Chi-square.

Exemplo: Admita-se que foi conduzida uma experincia no mbito da qual se procurou

testar se existe alguma relao entre a qualidade de secagem de mquinas de lavar roupa de um certo tipo e a velocidade de rotao a que se eleva o tambor da roupa na fase de centrifugao. Os resultados desta experincia, efectuada com base no comportamento de 90 mquinas, esto representadas na seguinte tabela:42

Velocidade de rotao

600 rpm 900 rpm 1200 rpm

Qualidade de secagem Medocre Suficiente Boa Muito boa 12 8 7 3 9 2 10 9 7 8 4 11

Pretende-se testar a hiptese de a qualidade da secagem estar relacionada com a velocidade de centrifugao.

Exerccios:

1. Para testar a atitude de donas de casa relativamente ao novo detergente BMB, foi distribudo um pacote deste detergente a cada uma de 350 donas de casa. As donas de casa foram seleccionadas aleatoriamente a partir de trs cidades (F, P e L) de um pas e a cada uma delas perguntou-se qual a sua opinio (favorvel/indiferente/desvaforvel) sobre o novo detergente. Os nmeros de respostas obtidas apresentam-se na tabela seguinte. F 12 9 2 Cidade P 8 10 9 L 7 7 8

FavorvelAtitude

Indiferente Desfavorvel

Verifique, ao nvel de significncia de 5%, se a cidade de origem das donas de casa afecta a atitude destas relativamente ao novo detergente.2. Na tabela seguinte apresentam-se registos relativos frequncia s aulas verificadas

em 12 turmas prticas de um curso de estatstica e percentagem de sucessos dos alunos nelas matriculados.

43

Presena nas aulas prticas (%) 95.2 94.7 84.6 83.1 79.7 72.6 70.8 70.8 64.1 62.9 49.2 41.8

Sucessos (%) 60.5 72.8 71.3 64.7 66.2 56.5 56.0 60.8 52.4 45.7 33.2 33.2

Teste ao nvel de significncia de 5%, se existe associao entre as variveis em causa.

5. Testes de aleatoriedadeEstes testes tm como objectivo investigar sequncias de observaes e tentar identificar desvios da aleatoriedade. Existem muitas formas das quais uma sequencia se desvia da aleatoriedade. Os testes detectam alguma forma de dependncia entre as observaes na sequncia. O teste das sequencias (ascendentes e descendentes) investiga se as sequencias esto a ocorrer com maior ou menor frequncia do que seria de esperar sob a hiptese de aleatoriedade. Uma sequncia ascendente definida como uma sequncia de observaes na qual cada observao maior do que a anterior. A sequncia ascendente termina quando uma observao menor do que a observao prvia.

Teste das sequncias

O teste das sequncias s pode ser realizado sobre variveis dicotmicas. Podemos contudo, efectuar sempre a converso de uma varivel no dicotmica numa varivel dicotmica.

44

Suponhamos que se est a monitorizar os itens de uma linha de produo, para se verificar se so ou no defeituosos, e que se verificam as observaes seguintes (Nno defeituoso; D defeituoso). NNNNDNNNNDDDDNNDDDDDN Define-se por sequncia um conjunto de observaes idnticas (por exemplo NNNN) que precedido ou seguido por uma observao do outro tipo (por exemplo, D). A definio comporta sequncias constitudas por uma nica observao. Deste modo, o conjunto de observaes atrs indicado inclui 7 sequncias. Se a sequncia no for aleatria, observar-se-o demasiados, ou muito poucas sequncias. Consideremos uma amostra de tamanho n com n A observaes de um tipo, A, en B do outro tipo, B. Seja R, o nmero de sequncias numa amostra de dimenso n.

Pode seguir-se o seguinte procedimento: 1. Constitui as hipteses de teste:

H 0 : A amostra aleatriaH 1 : A amostra no aleatria (Teste bilateral)

ouH 1 : A amostra no aleatria pois as observaes tm tendncia para se

agrupar (Teste unilateral esquerda; poucas sequncias) ouH 1 : A amostra no aleatria pois as observaes tm tendncia para se

misturar (Teste unilateral direita; muitas sequncias) 2. Calcular a estatstica de teste: ET = Z =R R

R

que sob H 0 , segue uma

distribuio normal padro. Para a varivel R tem-se que: 45

R =R =

2n A n B +1 n2n A n B (2n A n B n ) n 2 (n 1)

3. Comparar o valor Z com o valor crtico, para o nvel de significncia do teste. Em funo do resultado rejeita-se ou no a hiptese nula.

Para efectuar o teste das sequncias no SPSS, deve proceder-se do seguinte modo: (a) Na barra de menus escolher: AnalyseNonparametric testsRuns (b) Seleccionar uma ou mais variveis a testar; (c) Seleccionar um ponto de transio que defina as sequncias.

Para o exemplo atrs referido recorremos ao SPSS. Para tal codificamos com 1 os defeituosos e com 0 os no-defeituosos. Obtivemos a seguinte tabela de resultados:Runs Test SEQUENCI 1,48 11 10 21 7 -1,785 ,074

Test Value(a) Cases < Test Value Cases >= Test Value Total Cases Number of Runs Z Asymp. Sig. (2-tailed) a Mean

Assim, podemos confirmar que o nmero de sequncias igual a 7. O nvel de significncia 0.074, pelo que no existem indcios suficientes para rejeitar a hiptese nula de que a amostra aleatria. Nestes casos, em que o valor se aproxima de um valor significativo, podemos contudo aumentar a amostra e voltar a estudar o problema.

46

Teste das sequncias ascendentes e descendentes

Este teste aplica-se a observaes expressas numa escala pelo menos ordinal. Uma sequncia (ascendente ou descendente) consiste numa sucesso de observaes ordenadas de forma crescente ou decrescente. Nestas condies, sempre que a ordenao altera o seu sentido, inicia-se uma nova sequncia. Consideremos o seguinte exemplo referente venda de jornais dirios nos ltimos 15 domingos por um quiosque no centro da cidade. Os valores obtidos foram: {27, 68, 45, 53, 61, 61, 32, 19, 64, 65, 67, 69, 71, 37, 35}. Se substituirmos pelo smbolo + cada observao precedida por uma outra de valor inferior, e pelo smbolo - cada observao precedida por uma outra de valor superior, vem: {., +, -, +, +, 0, -, -, +, +, +, +, +, -, -} Para esta nova representao, cada conjunto de sinais + representa uma sequncia ascendente, e cada conjunto de sinais - uma sequncia descendente. Repare-se que ocorreu uma situao com observaes adjacentes iguais, e para o qual atribumos o valor 0. Quando o nmero de zeros pequeno face ao tamanho amostral, tais zeros so ignorados para o clculo da estatstica, e a dimenso da amostra reduzida em conformidade. Assim, nas 15 observaes existem 6 sequncias: 3 ascendentes e 3 descendentes. Representemos por V o nmero de sequncias obtido no processo. Pode seguir-se o seguinte procedimento: 1. Constitui as hipteses de teste:

H 0 : A amostra aleatriaH 1 : A amostra no aleatria (Teste bilateral)

ou

47

H 1 : A amostra no aleatria, pois existem tendncias nas observaes

amostrais (Teste unilateral esquerda; V pequeno) ouH 1 : A amostra no aleatria, pois as observaes tm tendncia para se

alternar excessivamente (Teste unilateral direita; V grande) 2. Calcular a estatstica de teste: ET = Z =V V

V

que sob H 0 , segue uma distribuio

normal padro (para n maior que 26 aproximao muito precisa). Para a varivel V tem-se que:

V =V =

2n 1 316n 29 90

3. Comparar o valor Z com o valor crtico, para o nvel de significncia do teste. Em funo do resultado rejeita-se ou no a hiptese nula.

O teste de aleatoriedade de Friedman. O teste de Kendall.

Com base na expresso dada para rs medio , podemos definir a estatstica de Friedman. Dadas m ordenaes de I itens, a estatstica de Friedman

(2r ) =

12 Ri2 3m(I + 1) mI (i + 1)

onde Ri a soma das m ordens atribudas ao i-simo item, i = 1,2,..., I. O ndice (r ) chama a ateno para o facto de estarmos a trabalhar com correlao ordinal, e nada tem a ver com o nmero de graus de liberdade.

48

No caso de as ordenaes serem aleatrias, ento a estatstica (2r ) de Friedman, para valores elevados de m e de I, tem distribuio aproximada de um qui-quadrado com I-1 graus de liberdade. Definamos ento as nossas hipteses:

H 0 : existe aleatoriedade na atribuio dos ranksH 1 : no existe aleatoriedade

Se H 0 verdadeira, qualquer dos Ri tem distribuio aproximadamente normal com valor mdio

m(I + 1) m(I 2 1) e varincia . Assim, a varivel aleatria 2 2

Ri m

I +1 2 2 I 1 m 12

tem distribuio aproximadamente normal reduzida, e o seu quadrado tem distribuio aproximadamente de um qui-quadrado com 1 grau de liberdade. Ento, a soma dos quadrados para todos os items teria uma distribuio aproximada de um qui-quadrado com I graus de liberdade, se no fosse a existncia de uma ligao funcional entre os

Ri ' s , Ri =

mI (I + 1) , que reduz o nmero de graus de liberdade a I-1. 2

O teste W de Kendall uma normalizao da estatstica de Friedman. O teste W de Kendall permite-nos obter o coeficiente de concordncia que uma medida de acordo entre ordenaes, tendo como resultados valores que variam entre 0 (nenhum acordo) e 1 (acordo completo). O teste Q de Cochran idntico ao teste de Friedman mas s aplicvel quando todas as respostas so binrias. uma extenso do teste de McNemar situao de k-amostras. O teste Q de Cochran testa a hiptese que vrias variveis dicotmicas tm a mesma mdia. As variveis esto medidas no mesmo indivduo ou em indivduos emparelhados. 49

Para efectuar o teste no SPSS, deve proceder-se do seguinte modo: (a) Na barra de menus escolher: AnalyseNonparametric testsk related smples (b) Em Test Type seleccionar Kendalls W. Para efectuar o teste no R, deve utilizar-se a funo friedman.test.

Exemplo: Na tabela seguinte esto registadas as ordenaes (de pior para melhor)

atribudas pelo jri a 10 propostas de fornecimento de equipamento electrnico para um bloco de micro-cirurgia, no que refere 6 critrios definidos no caderno de encargos:a 4 4 3 4 4 2 b 1 1 2 1 2 3 c 5 5 5 2 7 7 d 6 8 9 7 6 6 regio e 9 10 8 5 10 5 f 8 7 6 9 9 9 g 10 9 10 8 8 8 h 7 6 7 10 5 4 i 3 3 4 6 3 10 j 2 2 1 3 1 1

Preo Fiabilidade Manuteno Adaptao Upgrades Formao

Os resultados proporcionados pelo SPSS so os seguintes:Ranks Mean Rank 3,50 1,67 5,17 7,00 7,83 8,00 8,83 6,50 4,83 1,67

A B C D E F G H I J

Esta tabela proporciona os ranks mdios obtidos por cada juiz.

50

Test Statistics N Kendall's W(a) Chi-Square Df Asymp. Sig. 6 ,727 39,273 9

,000 a Kendall's Coefficient of Concordance

De acordo com esta tabela, obtivemos um coeficiente de concordncia de Kendall igual a 0.727, ou seja, um valor razoavelmente prximo de 1. Para a estatstica de teste obtivemos um valor de 39.27, que com 9 graus de liberdade, nos leva a rejeitar (com significncia inferior a 5%) a hiptese nula de aleatoriaedade na atribuio das classificaes.

Exerccios: 1. Recorrendo ao teste das sequncias, pretende-se verificar a aleatoriedade da amostra

seguinte constituda pelos resultados de 25 lanamentos da moeda E-C. {E, E, C, C, E, C, E, E, C, E, C, C, E, E, E, C, E, E, C, E, E, C, C, E, C}2. Na tabela seguinte representa-se o peso (em toneladas) de uvas num hectare de vinha

localizada numa determinada regio demarcada, nos ltimos 20 anos. Ano: Peso: Ano : Peso: 77 78 79 80 81 82 83 84 85 86 3.56 4.40 5.42 6.51 8.30 5.78 5.22 4.67 7.68 8.34 87 88 89 90 91 92 93 94 95 96 9.89 7.35 5.15 3.80 5.62 7.73 7.93 6.35 8.92 9.77

Teste, ao nvel de significncia de 5%, se existe alguma tendncia na produo de uvas naquela parcela, ao longo dos ltimos 20 anos.

51

EXERCCIOS1. Numa investigao sobre as verbas envolvidas em parapsicologia obtiveram-se os seguintes preos de consultas em vora e em Lisboa (em euros) vora: Lisboa: 25 40 12 30 17 10 30 20 40 25 37 30 50 75 25 25

Com base nestes dados teste a hiptese de homogeneidade dos preos de consultas nas referidas cidades. 2. Procedeu-se avaliao do QI de diversos indivduos antes e depois de vrias audies de sonata para dois pianos de Mozart, com os seguintes resultados: Antes : 123 145 Depois: 132 158 Comentrios? 3. Os doutores Galambos e Cornell mediram a excreo de CPU (coproporfina urinria) de 8 indivduos em perodos de 12 horas (diurno e nocturno), durante vrios dias e obtiveram: Individuo Mdia diria Mdia nocturna 1 35.3 39.0 2 65.9 58.8 3 73.4 70.6 4 70.6 58.7 5 56.3 53.1 6 73.4 72.6 7 39.3 42.2 8 36.9 63.1 143 143 134 142 112 126 143 143 148 142 145 152 138 143 124 145 133 144

Considera que h evidncia de quantidades diferentes de excreo durante os perodo diurno e nocturno? 4. Para determinar o efeito da hemodilise sobre o tamanho do fgado estudaram-se trs populaes: sos, pacientes que efectuam dilise e pacientes que efectuam dilise. Escolheram-se amostras aleatrias de cada populao e depois determinou-se a rea do fgado (em cm2) para cada indivduo, obtendo-se os seguintes resultados: Sos: 206.9 150.0 197.3 173.2 147.2 143.8 192.6 Sem dilise: 194.6 145.6 174.9 187.5 223.4 143.0 170.0 Com dilise: 288.0 269.2 288.3 357.5 229.2 249.0 346.1 216.6 202.6 213.5 Teste ao nvel de significncia de 5%, se o tamanho do fgado igual nas trs populaes. 5. Na sequncia da exploso de uma bomba atmica subterrnea, procedeu-se contagem de tremores de terra em intervalos sucessivos de oito horas. Verifique se existe alguma tendncia para o nmero de tremores de terra. Intervalos de 8 horas N tremores de terra 1 33 2 32 3 30 4 41 5 23 6 17 7 27 8 20 9 15 10 11 12 27 12 17 13 25

52

6. Num estudo, pretende-se saber se as pessoas com alto grau de autoritarismo tm maior tendncia para possuir esteretipos sobre membros de diversos grupos nacionais e tnicos, do que as pessoas com baixo grau de autoritarismo. Deste modo, recolheu-se um grupo de estudantes universitrias seleccionadas aleatoriamente. Cada uma recebeu 20 fotografias e foi solicitada a identificar aquelas cuja nacionalidade reconhecia, casando a fotografia apropriada com o nome do grupo nacional. Acontece que (sem que as estudantes soubessem) todas as fotografias eram de indivduos de nacionalidade mexicana, e como na lista de 20 nacionalidades no inclua a mexicana, o nmero de fotografias que cada uma identificasse constituiria um ndice de sua tendncia estereotipia. O grau de autoritarismo foi considerado como alto ou baixo, e os resultados obtidos apresentam-se a seguir: N fotos identificadas 0-2 3-5 6-8 9-11 12-14 15-17 18-20 Baixo (grau autoritarismo) 11 7 8 3 5 5 5 Alto (grau autoritarismo) 1 3 6 12 12 14 6

Verifique se os dois grupos diferem quanto ao nmero de fotografias que cada um identifica. 7. Esto a ser testados 3 aerossis qumicos para matar moscas. Na tabela abaixo regista-se o nmero de moscas mortas em 18 ensaios. A B C 72 55 64 65 59 74 67 68 61 75 70 58 62 53 51 73 50 69Marca

Que conclui?

53

BIBLIOGRAFIA 1. Guimares R. C. and Cabral J.A.S. (1997), Estatstica, Mcgraw-Hill. 2. Mosteller F. and Rourke R.E.K. (1993), Estatsticas Firmes, Edies Salamandra Lda. 3. Murteira B.J.F. (1990), Probabilidades e Estatstica volumeII, McGraw-Hill. 4. Pereira A. (1999), SPSS guia prtico de utilizao, Edies Slabo. 5. Siegel S. (1956), Nonparametric Statistics for the Behavioural Sciences, McGraw-

Hill.

54

testes não-paramétricos

Documents