ipaee capitulo2

25
U NIVERSIDADE F EDERAL DE S ÃO C ARLOS C ENTRO DE C IÊNCIAS E XATAS E DE T ECNOLOGIA D EPARTAMENTO DE E STATÍSTICA I NTRODUÇÃO AO P LANEJAMENTO E A NÁLISE E STATÍSTICA DE E XPERIMENTOS C APÍTULO # 2 A NÁLISE D ESCRITIVA E E XPLORATÓRIA DE DADOS P ROF . P EDRO F ERREIRA F ILHO P ROF a . E STELA M ARIS P. B ERETA 2 º S EMESTRE DE 2010

Upload: danilo-periotto

Post on 21-Jul-2015

244 views

Category:

Education


2 download

TRANSCRIPT

Page 1: Ipaee capitulo2

UUNN II VV EERR SS II DDAADD EE FF EEDD EERRAA LL DD EE SSÃÃOO CCAARR LLOOSS CC EENN TTRROO DD EE CC II ÊÊNNCC II AA SS EE XXAA TT AASS EE DD EE TT EE CCNNOO LLOOGG II AA

DD EE PP AARR TT AAMMEENN TTOO DD EE EE SS TT AA TT ÍÍ SS TT II CC AA

IINNTTRROODDUUÇÇÃÃOO AAOO PPLLAANNEEJJAAMMEENNTTOO EE AANNÁÁLLIISSEE EESSTTAATTÍÍSSTTIICCAA DDEE EEXXPPEERRIIMMEENNTTOOSS

CCAAPPÍÍ TTUULLOO ## 22

AANNÁÁLLIISSEE DDEESSCCRRIITTIIVVAA EE EEXXPPLLOORRAATTÓÓRRIIAA DDEE

DDAADDOOSS

PPRROOFF .. PPEEDDRROO FFEERRRREE IIRRAA FF II LLHHOO

PPRROOFF aa .. EESSTTEELLAA MMAARRIISS PP .. BBEERREETTAA

22 ºº SS EEMMEE SS TT RR EE DD EE 22001100

Page 2: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 1

22 .. IINNTTRROODDUUÇÇÃÃOO :: AANNÁÁ LL II SS EE DD EE SS CCRR II TT II VV AA EE

EE XX PP LL OORRAA TTÓÓRR II AA DD EE DD AADDOOSS :: Um estudo, ou investigação de uma determinada hipótese, deve do ponto de vista

estatístico, contemplar as etapas de planejamento, coleta, organização, análise descritiva e

exploratória dos dados, inferência estatística e a tomada de decisões (conclusões).

O papel da estatística pode ser considerado como a de uma “mineração de dados”.

Os dados devem ser cuidadosamente coletados (observados), devidamente conhecidos e

utilizados para analisar e interpretar a sua variabilidade de forma a possibilitar uma correta

resposta à hipótese em estudo.

22 .. 11 .. CCOONNCC EE II TTOOSS BBÁÁ SS II CCOOSS EEMM EE SS TT AA TT ÍÍ SS TT II CC AA ::

•••• INFORMAÇÃO NUMÉRICA: Um conjunto de dados estatísticos consiste de uma ou mais medidas, escores ou

valores observados (coletados) de certo número de indivíduos, objetos, ensaios,

experimentos, etc.

Page 3: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 2

•••• ASPECTO BÁSICO DA INFORMAÇÃO: A análise estatística de um conjunto de dados só faz sentido quando existir

“variabilidade” nos valores observados, ou seja, os valores devem apresentar diferenças

nas diferentes unidades de observação utilizadas. A não existência de variabilidade entre os

valores observados torna desnecessária a utilização de qualquer método estatístico.

•••• POPULAÇÃO: Conjunto de indivíduos ou objetos os quais o pesquisador tem interesse, que

apresentam relevância para a investigação da hipótese em estudo. Podemos ainda dizer que

a população é formada por todos os valores possíveis de serem observados numa dada

situação. No caso de estudos experimentais, o alvo é sempre uma dada população. A

resposta para a hipótese de interesse é dada por uma conclusão a respeito da população em

estudo.

Nesse sentido é fundamental, em qualquer situação, definir claramente qual a

população que se tem interesse. Muitas vezes, por incrível que pareça, isso não está

suficientemente claro para os responsáveis pelo estudo (experimento). Conseqüentemente,

corre-se o risco de estender conclusões a situações mais amplas do que aquelas realmente

possíveis a partir do estudo realizado.

Uma população pode ser classificada em duas diferentes situações:

���� População Finita: Todos os elementos da população são conhecidos e

possíveis de serem identificados;

���� População Infinita: Não é possível uma enumeração de todos os

elementos da população;

Uma população pode ser investigada a partir da observação de seus elementos

através de duas diferentes formas: Censo ou Amostra.

•••• CENSO: Denominamos de censo aquelas situações onde a investigação é realizada a partir da

observação de todos os elementos de uma população. Esse tipo de observação somente é

possível em populações finitas.

Page 4: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 3

•••• AMOSTRA: Na grande maioria das vezes (quase sempre!) não é possível observar todos os

elementos de uma população, porém é possível observar-se uma parte desta população. O

conjunto de elementos efetivamente observado é denominado amostra. Podemos então

dizer que uma amostra é todo e qualquer subconjunto da população.

Para que a amostra seja uma representação realista, não tendenciosa, da população,

é necessário que seus elementos sejam escolhidos de forma rigorosamente aleatória. Esta

condição é fundamental na prática, porque as “inferências estatísticas” sempre supõem

que as amostras são representativas da população. Por isso ao realizar um experimento,

devemos sempre tomar o cuidado para coletar os dados de modo que a hipótese de

aleatoriedade, seja se não, rigorosamente, pelo menos aproximadamente obedecida.

Dois conceitos:

� Amostra Representativa: Apresenta características relevantes da população na

mesma proporção que elas ocorrem na própria população.

� Amostra Aleatória: Amostra de N valores ou indivíduos (unidades experimentais)

obtidos de tal forma que todos os possíveis elementos da população tenham a mesma

“chance” de participar na amostra.

•••• INFERÊNCIA ESTATÍSTICA: Embora seja observada “apenas” uma amostra, o objetivo de qualquer estudo é

estabelecer conclusões com respeito à população de interesse. A metodologia utilizada para

se fazer a passagem dos resultados obtidos na amostra para conclusões populacionais é

chamada “inferência estatística”.

A inferência estatística pode ser definida em duas etapas:

� Estimação: Obter informação sobre uma característica populacional;

� Teste de Hipóteses: Utilização da informação amostral para verificar as hipóteses

de interesse no estudo.

•••• ANÁLISE ESTATÍSTICA: O processo de organização, processamento, sumarização e retirada de conclusões

sobre um determinado conjunto de dados (amostra) é chamado de análise estatística. As

hipóteses (questões de interesse) daqueles que realizam o estudo indicam o tipo de dado

que precisa der obtido e conseqüentemente a inferência a ser realizada.

Page 5: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 4

O quadro abaixo resume uma análise estatística de dados.

Figura 2.1. Análise Estatística.

22 .. 22 .. OORRGGAANN II ZZ AA ÇÇ ÃÃOO ,, SSUUMMAARR II ZZ AA ÇÇ ÃÃOO EE RR EE PPRR EE SS EENNTT AA ÇÇ ÃÃOO DD EE

DD AADDOOSS ::

A organização, sumarização e apresentação dos dados observados são essenciais para

um bom julgamento estatístico, dado que permitem que sejam identificadas características

importantes da amostra e ainda mais, indicar modelos que podem ser mais adequados para

verificação da hipótese em estudo.

Page 6: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 5

22 .. 22 .. 11 .. TT II PPOOSS DD EE VV AARR II ÁÁ VV EE II SS ::

As informações obtidas em uma amostra são denominadas, usualmente, de

“variáveis” em estudo. Em cada estudo pode-se observar uma ou mais variáveis em função

das necessidades e objetivos a serem investigados. Assim, por exemplo, pode-se observar

uma única medida num dado experimento, como é possível observar uma série de

características de interesse na aplicação de um questionário.

As variáveis observadas em uma amostra podem ser classificadas em dois tipos:

Variáveis Categóricas (Qualitativas) ou Variáveis Contínuas (Quantitativas):

Variáveis Categóricas: Denominamos variáveis categóricas aquelas medidas

(características) observadas na amostra que apenas identificam a unidade de observação.

Em outras palavras, uma variável categórica identifica um atributo, classe, qualidade,..., da

unidade de observação.

Exemplo: Sexo, Grau de escolaridade, tipo de solo, fornecedor, etc.

As variáveis qualitativas podem ainda ser classificadas como qualitativas nominais

e qualitativas ordinais. As nominais apenas identificam um atributo à unidade

experimental sem qualquer outra propriedade (sexo, por exemplo), enquanto que as ordinais

Page 7: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 6

identificam um atributo que estabelece uma estrutura de ordem nas unidades de observação

(grau de escolaridade, por exemplo).

Variáveis Quantitativas: Denominamos de variáveis quantitativas aquelas medidas

(características) observadas na amostra que estabelecem uma informação resultante de uma

contagem ou de uma mensuração feita na unidade experimental.

As variáveis quantitativas podem também ser classificadas em dois grupos:

Quantitativas discretas ou quantitativas contínuas. As quantitativas discretas podem assumir

um conjunto finito ou enumerável de valores (número de acidentes em uma determinada

região da cidade, por exemplo), por outro lado, as quantitativas contínuas podem assumir

infinitos valores num intervalo de números reais.

Observação:

Uma variável quantitativa pode ser categorizada, porém a recíproca não é possível. É

importante, porém considerar a PERDA DE INFORMAÇÃO que ocorre nesses casos.

Figura 2.2. Classificação das Variáveis.

Para cada tipo de variável existem técnicas apropriadas para organizar e resumir a

informação, embora em muitos casos se verifique que as técnicas usadas em um caso

podem ser adaptadas para outros.

Page 8: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 7

22 .. 22 .. 22 .. AA PPRR EE SS EENNTT AA ÇÇ ÃÃOO DDOOSS DD AADDOOSS ::

A apresentação de informações contidas num conjunto de dados pode ser feita de

várias formas. Para cada tipo de variável existem formas mais adequadas e corretas de

apresentá-las. O objetivo de uma apresentação dos dados é organizar os valores observados

de forma a obter o máximo de informação. Os procedimentos usuais de apresentação de

dados são tabelas e gráficos.

Consideremos o seguinte experimento: Uma indústria química formula um

experimento para verificar se um novo método de fabricação de um produto químico é

superior a um método tradicional de fabricação. Um experimento foi realizado obtendo-se

dados de produção industrial dos métodos A (Tradicional) e B (Novo Método), cujos

resultados estão apresentados na Tabela 2.1:

TABELA 2.1. Dados de Produção Industrial.

Lote Método Produção Lote Método Produção

1 A 89.7 11 B 84.7

2 A 81.4 12 B 86.1

3 A 84.5 13 B 83.2

4 A 84.8 15 B 91.9

5 A 87.3 15 B 86.3

6 A 79.7 16 B 79.3

7 A 85.1 17 B 82.6

8 A 81.7 18 B 89.1

9 A 83.7 19 B 83.7

10 A 84.5 20 B 88.5

O problema apresenta duas variáveis: Método de Produção e Produção Observada. A

variável método de produção é categórica nominal e a variável produção é quantitativa

contínua.

A apresentação usual dos dados observados é feita através de uma tabela

denominada distribuição de freqüências. Nesta forma são apresentados os valores

observados, a freqüência com que cada valor foi observado, o percentual que este número

Page 9: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 8

de freqüência representa em relação ao total de observação, bem como os respectivos

valores acumulados.

Para tabela acima as distribuições de freqüências são dadas por:

TABELA 2.2. Distribuição de Freqüência da Variável Método de Produção Industrial.

Método

Método Freqüência Absoluta

Freqüência Percentual

A 10 50.00

B 10 50.00

TABELA 2.3. Distribuição de Freqüência da Variável Produção Industrial

Produção

Produção Freqüência Absoluta

Freqüência Percentual

Freqüência Acumulada

Percentual Acumulada

79.3 1 5.00 1 5.00

79.7 1 5.00 2 10.00

81.4 1 5.00 3 15.00

81.7 1 5.00 4 20.00

82.6 1 5.00 5 25.00

83.2 1 5.00 6 30.00

83.7 2 10.00 8 40.00

84.5 2 10.00 10 50.00

84.7 1 5.00 11 55.00

84.8 1 5.00 12 60.00

85.1 1 5.00 13 65.00

86.1 1 5.00 14 70.00

86.3 1 5.00 15 75.00

87.3 1 5.00 16 80.00

88.5 1 5.00 17 85.00

Page 10: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 9

Produção

Produção Freqüência Absoluta

Freqüência Percentual

Freqüência Acumulada

Percentual Acumulada

89.1 1 5.00 18 90.00

89.7 1 5.00 19 95.00

91.9 1 5.00 20 100.00

Notação:

fi = freqüência do i-ésimo valor

pi = freqüência percentual do i-ésimo valor ⇒ n

fp i

i =

n = tamanho da amostra (número de unidades observadas)

Fi = freqüência acumulada até o i-ésimo valor, ou seja, número de observações até o i-ésimo

valor ⇒ ∑=

=i

aai fF

1

Pi = freqüência percentual acumulada até o i-ésimo valor, ou seja, percentual de

observações até o i-ésimo valor ⇒ ∑=

=i

aai pP

1

Observação:

Nos casos de variáveis qualitativas nominais a freqüência acumulada e percentual

acumulada não tem sentido de interpretação.

Problema:

No caso das variáveis quantitativas, como no exemplo acima, podemos ter que a

variável assume um grande número de valores todos (ou a grande maioria) com baixas

freqüências, logo a distribuição de freqüências se torna grande sem uma maior contribuição

para a interpretação dos dados.

Nessas situações, recomenda-se a categorização da variável através do

estabelecimento de intervalos de acordo com os objetivos do estudo. No exemplo:

Page 11: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 10

TABELA 2.4. Distribuição de Freqüência da Variável Produção Industrial Categorizada.

Produção Categorizada

Produção Categorizada

Freqüência Absoluta

Freqüência Percentual

Freqüência Acumulada

Percentual Acumulada

Menor que 80 2 10.00 2 10.00

[80,85) 10 50.00 12 60.00

[85,90) 7 35.00 19 95.00

90 ou mais 1 5.00 20 100.00

Sugestão Usual:

Os intervalos gerados pela categorização devem ter o mesmo comprimento e/ou

aproximadamente mesmas freqüências.

Uma segunda forma de apresentação dos dados é através de uma representação

gráfica dos mesmos. Usualmente representa-se graficamente a distribuição de freqüências.

O tipo de gráfico a ser utilizado está associado ao tipo de variável em estudo.

Variáveis qualitativas podem ser representadas por:

•••• Gráfico em Barras

•••• Gráfico de Setores (Gráfico de “Pizza”)

•••• Gráfico em Retângulo

Variáveis quantitativas podem ser representadas por:

•••• Diagrama de Pontos

•••• Histogramas

•••• Polígono de Freqüências

•••• Ramos e Folhas

Page 12: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 11

RR EE PPRR EE SS EENNTT AA ÇÇÃÃOO GGRRÁÁ FF II CC AA –– DDAADDOOSS CC AA TT EEGGÓÓRR II CCOOSS

58.0641.94

0

20

40

60

80

100

Masculino Feminino

Sexo

Sexo

Sexo

Masculino58%

Feminino42%

Masculino Feminino

Sexo

58.06 41.94

0% 20% 40% 60% 80% 100%

Masculino Feminino

32.26

58.06

9.68

0 20 40 60 80 100

Bom

Algum

Nenhum

Computador

Bom32%

Nenhum10%

Algum58%

Bom Algum Nenhum

32.26

58.06

9.68

0%20%40%

60%

80%

100%

Dominio de Computador

Bom Algun Nenhum

Page 13: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 12

RR EE PPRR EE SS EENNTT AA ÇÇ ÃÃOO GGRRÁÁ FF II CC AA –– DD AADDOOSS QQUUAANNTT II TT AA TT II VVOOSS Ramo e Folhas 5 5 22222 10 5 55689 14 6 0014 (8) 6 55555789 9 7 124 6 7 57 4 8 01 2 8 5 1 9 0

Diagrama de Pontos . . : : : :. .. :. . : .. . . . .. . . . . . -----+---------+---------+---------+---------+---------+-Peso 56.0 63.0 70.0 77.0 84.0 91.0

Peso dos AlunosPeso dos AlunosPeso dos AlunosPeso dos Alunos

PESO

No

of o

bs

16.1%

6.5%

3.2% 3.2%3.2%

6.5%

3.2% 3.2%

16.1%

3.2%3.2%3.2% 3.2%3.2% 3.2%3.2% 3.2% 3.2%3.2% 3.2% 3.2%

0123456789

101112131415

<= 5

3(5

3;54

](5

4;55

](5

5;56

](5

6;57

](5

7;58

](5

8;59

](5

9;60

](6

0;61

](6

1;62

](6

2;63

](6

3;64

](6

4;65

](6

5;66

](6

6;67

](6

7;68

](6

8;69

](6

9;70

](7

0;71

](7

1;72

](7

2;73

](7

3;74

](7

4;75

](7

5;76

](7

6;77

](7

7;78

](7

8;79

](7

9;80

](8

0;81

](8

1;82

](8

2;83

](8

3;84

](8

4;85

](8

5;86

](8

6;87

](8

7;88

](8

8;89

]>

89

Peso dos AlunosPeso dos AlunosPeso dos AlunosPeso dos Alunos

PESON

No

of o

bs

29.0%

32.3%

12.9% 12.9%

6.5% 6.5%

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

0 1 2 3 4 5 6 7

Peso dos Alunos Peso dos Alunos Peso dos Alunos Peso dos Alunos

PESON

No

of o

bs

29.0%

61.3%

74.2%

87.1%

93.5%

100.0%

0

3

6

9

12

15

18

21

24

27

30

33

0 1 2 3 4 5 6 7

Page 14: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 13

22 .. 22 .. 33 .. SSUUMMAARR II ZZ AA ÇÇ ÃÃOO DDOOSS DD AADDOOSS ::

A distribuição de freqüências além de apresentar os dados observados, também pode

ser considerada uma sumarização de dados. Porém, na maioria dos casos, é desejado obter

valores que possam representar cada uma das variáveis em estudo. Esses valores devem ser

medidas que, sob algum ponto de vista sejam representativos dos dados observados. As

medidas usualmente utilizadas se referem à locação e dispersão dos dados.

22 .. 22 .. 33 .. 11 .. MM EE DD II DD AA SS DD EE LL OO CC AA ÇÇ ÃÃ OO OO UU TT EE NN DD ÊÊ NN CC II AA CC EE NN TT RR AA LL ::

Medidas relacionadas à “posição” dos dados, ou ainda a valores em torno dos quais os

valores observados tendem a se agrupar. As principais medidas de posição são:

•••• Moda

•••• Mediana

•••• Quartis, Decis, Percentis.

•••• Média

•••• MODA:

Definição: Valor (Classe, intervalo..) que ocorre com maior freqüência.

Vantagem: Pode ser obtida para qualquer tipo de variável, porém, é mais apropriada

para dados qualitativos nominais.

Observações:

1) Podemos encontrar variáveis em um conjunto de dados com mais de uma moda

(bimodal, tri-modal.);

2) Podemos ter variáveis em um conjunto de dados onde a moda não existe.

•••• MEDIANA: Definição: Valor que ocupa a posição central num conjunto de dados ordenados, ou

seja, valor para o qual 50% dos valores observados são inferiores e 50% dos valores

observados são superiores a ele.

Page 15: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 14

Condição: Para obtenção da mediana a variável em estudo deve ser pelo menos

qualitativa ordinal.

Cálculo da Mediana:

1) Dados devem ser ordenados

2) Se o número de observações é:

2.1) Ímpar: Mediana é o valor que está no centro da série, ou seja o valor que ocupa a

posição (n+1)/2.

2.2) Par: Mediana é qualquer valor entre aqueles dois valores que estão no centro da

série, ou seja, qualquer valor entre aqueles que ocupam as posições n/2 e (n/2)+1. Valor

usual: Média dos valores que ocupam a posição (n/2) e (n/2)+1.

•••• QUARTIS, DECIS, PERCENTIS:

Definição: A mediana divide o conjunto de dados em duas partes. Quartis, decis e

percentis seguem o mesmo princípio, porém dividem os dados observados em 4, 10 e

100 partes respectivamente.

Desta forma temos que:

� percentil (50) = mediana ou segundo quartil (Md)

� percentil (25) = primeiro quartil (Q1)

� percentil (75) = terceiro quartil (Q3)

� percentil (10) = primeiro decil

Observação: Mediana, Quartis, Decis, Percentiis também são chamados de

separatrizes.

•••• MÉDIA ARITIMÉTICA:

Definição: A média aritmética simples de um conjunto de dados observados é o

quociente da divisão por n da soma dos valores destas observações.

Seja x1, x2, x3, ...,xn os valores de uma variável observada na amostra. A média x (lê-

se “x barra”) é dada por:

Page 16: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 15

Sendo xi é o símbolo que indica a observação de ordem i = 1,2,....n

Condição: Possível de obtenção apenas para dados quantitativos.

Propriedades: A média aritmética possui propriedades interessantes que podem ser úteis

em determinadas situações:

1) Se x1=x2=x3=......=xn= a então

“a média de uma constante é a própria constante”;

2) Se a todo valor observado é adicionado uma constante “a”, então:

“se adicionamos uma mesma constante a toda observação, a média também fica

adicionada deste valor”.

3) Se a todo valor observado é multiplicado por uma constante “a”, então:

n

x

n

xxxxx

n

ii

n∑

==++++

= 1321 ...

an

ax

n

i ==∑

=1

axn

ax

n

yyaxy

n

ii

n

ii

ii +=+

===⇒+=∑∑

== 11

Page 17: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 16

“se multiplicamos toda observação por uma mesma constante, a média também fica

multiplicada deste valor”.

4) A soma dos desvios em torno da média é zero:

Observação: Outros tipos de médias são conhecidos tais como: média ponderada, média

harmônica, média geométrica, média aparada. Cada uma destas médias tem sua utilizada e

aplicações específicas e podem ser encontradas na grande maioria de textos de Estatística

Básica.

22 .. 22 .. 33 .. 22 .. CC OOMM PP AA RR AA NN DD OO MM EE DD II DD AA SS DD EE LL OO CC AA ÇÇ ÃÃ OO OO UU TT EE NN DD ÊÊ NN CC II AA CC EE NN TT RR AA LL ::

Uma comparação da média, mediana e moda, nas situações onde é possível calcular

todos estes valores, podem nos revelar uma informação sobre o comportamento dos dados,

denominada “assimetria”.

Definição: Uma variável é dita ter comportamento (ou distribuição) assimétrica quando os

seus valores estão mais concentrados em um dos seus extremos (valores altos ou baixos).

As possíveis situações de assimetria e simetria são derivadas do comportamento dos valores

da média, mediana e moda e podem ser representadas da seguinte forma:

xan

ax

n

yyaxy

n

ii

n

ii

ii ====⇒=∑∑

== 11

( ) 01

=−∑=

n

ii xx

Page 18: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 17

Figura 2.3. Assimetria de Uma Variável

22 .. 22 .. 33 .. 33 .. MM EE DD II DD AA SS DD EE DD II SS PP EE RR SS ÃÃ OO ::

Na análise de uma variável de interesse em qualquer estudo, não é suficiente para

descrever de modo satisfatório, observar apenas uma medida de posição. Podemos

facilmente encontrar variáveis que apresentam o mesmo valor para uma medida de locação

(média, por exemplo), porém com dados apresentando comportamentos completamente

diferentes. Esses diferentes comportamentos são conseqüência de dados com diferentes

graus de dispersão.

Objetivo: Verificar o quanto os valores observados estão “dispersos”, ou ainda o quanto

“variam” os dados.

Apresentamos a seguir algumas medidas de dispersão.

•••• AMPLITUDE:

Definição: Diferença entre o maior e o menor valor observado nos dados

observados.

Notação:

Seja X(n) = maior valor observado para a variável na amostra;

Seja X(1) = menor valor observado para a variável na amostra;

Amplitude = A = X(n) – X(1)

Page 19: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 18

Observações:

1) Medida sujeita a influencia da presença de valores extremos.

2) O aumento do número de observações na amostra não produz qualquer mudança

no valor dado pela amplitude.

•••• DIFERENÇA DE QUARTIS:

Definição: Valor dado pela diferença entre os valores que Definem os 50% dos

valores centrais observados.

Notação:

Seja Q(1) = 1º quartil dos dados observados (25% das observações na

amostra);

Seja Q(3) = 3º quartil dos dados observados (75% das observações na

amostra);

Logo Q(3) – Q1) contém 50% das observações e, consequentemente

Diferença de Quartis = DQ = Q(3) – Q(1)

•••• VARIÂNCIA – DESVIO PADRÃO:

Definição: A VARIÂNCIA é uma medida de variabilidade dos dados em torno da

média, ou seja, ela quantifica a variabilidade ou o espalhamento ao redor do valor médio.

É natural procurar uma medida de dispersão que dependa dos desvios de cada

observação em relação à média (xi – x ), e é razoável considerar a soma de todos estes

desvios. Quanto maior forem os desvios, maior será a variabilidade presente nos dados.

Entretanto, pela definição de média, ∑(xi – x ) = 0 para qualquer conjunto de dados.

Uma alternativa, para se obter uma medida de dispersão, é elevar os desvios de cada

observação em relação à média ao quadrado, isto é,

di= (xi - x )2

Assim,

Page 20: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 19

∑∑∑∑ (xi – x )2

É a soma dos quadrados dos desvios em relação à média. Desta forma somamos

somente valores positivos. Torna-se necessário considerar o nº de observações, pois

quanto maior o nº de observações maior será o valor deste somatório. Assim, a variância

amostral é definida por:

1

)(2

2

1

−∑== n

xxi

n

iS

Por que (n-1)?

Quando dividimos por n-1 temos que S2 é um estimador não viciado, importante

propriedade da inferência estatística:

Se a amostra é grande, os valores obtidos dividindo por n ou n-1 são praticamente iguais.

Propriedades da Variância

1) A variância de uma constante é zero, isto é, xi = a, para todo i= 1, 2,..,n então S2=0.

2) Se multiplicarmos cada valor da variável por uma constante a, a variância será a

variância da variável original multiplicada por a2.

Se y = a X então Var(y) = Var (a x)= a2 Var(x).

3) Se somarmos ou subtrairmos de cada valor da variável uma constante a, a variância

não se altera.

Seja y = X + a, então Var(y) = Var (x + a)= Var(x).

4) Se dividirmos cada valor da variável por uma constante a, a variância será a variância

da variável original dividida por a2.

Seja xa

y1= então Var(y) = Var ( x

a

1)=

2

1

aVar(x).

Note que a unidade de medida de S2 é a unidade de medida das observações

elevada ao quadrado. Então, para obter uma medida de variabilidade com a mesma

Page 21: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 20

unidade de medida das observações extraí-se a raiz quadrada. Esta medida é denominada

DESVIO PADRÃO e definida por:

1

)( 2

1

−∑== n

xxi

n

iS

Observações:

1) S mede a dispersão em torno da média e só deve ser calculado quando a média é

tomada como medida de locação.

2) S ≥ 0. Logo, quanto maior a dispersão em torno da média, maior o valor do desvio

padrão, ou maior valor de S.

Além das medidas de dispersão aqui apresentadas, algumas outras são encontradas

na literatura, como por exemplo, as medidas de simetria e de achatamento (também ditas

de curtose). Para as aplicações que serão feitas ao longo desse curso, as medidas aqui

apresentadas são suficientes, outras medidas podem ser encontradas em livros de Estatística

Básica.

22 .. 22 .. 33 .. 44 .. MM EE DD II DD AA SS DD EE DD II SS PP EE RR SS ÃÃ OO RR EE LL AA TT II VV AA ::

Em muitos casos, em particular em situações que desejamos comparar a dispersão de

variáveis com diferentes unidades de medida, é conveniente expressar a dispersão em

termos relativos, ou seja, expressar a variabilidade dos dados tirando a influência da ordem

de grandeza da variável.

•••• COEFICIENTE DE VARIAÇÃO:

Definição: O desvio padrão descreve o desvio padrão relativo à média. É expresso em

termos de valores percentuais.

Page 22: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 21

Notação:

O coeficiente de variação, que é definido por:

100*xSCV =

O coeficiente de variação (CV) é adimensional, isto é, um número puro e

usualmente expresso em porcentagem. Sua utilidade é fornecer uma medida para a

homogeneidade do conjunto de dados. Quanto menor o CV mais homogêneo é o conjunto

de dados.

Pelo fato do CV ser adimensional, é possível comparar a variabilidade de dois

conjuntos de dados muitos distintos. O CV é muito útil na comparação de duas variáveis ou

dois grupos que a princípio não são comparáveis (por exemplo, com ordens de grandeza das

variáveis muito diferentes).

Um valor de CV maior que 50% indica um alto grau de dispersão e conseqüentemente

uma baixa representatividade da média. Um valor de CV menor ou igual a 25% geralmente

indicará que o conjunto de dados é razoavelmente homogêneo. Entretanto, esse padrão

varia de acordo com a aplicação. Uma possível classificação é a seguinte:

CV:

� Baixo - (inferior a 0,10);

� Médio - (de 0,10 a 0,25);

� Alto - (0,25 a 0,35);

� Muito Alto - (≥≥≥≥0,35).

22 .. 22 .. 33 .. 55 .. UUMM AA RR EE PP RR EE SS EE NN TT AA ÇÇ ÃÃ OO GG RR ÁÁ FF II CC AA CC OO NN JJ UU NN TT AA DD EE MM EE DD II DD AA SS DD EE LL OO CC AA ÇÇ ÃÃ OO EE DD EE DD II SS PP EE RR SS ÃÃ OO ::

Como apresentado anteriormente, uma análise de dados deve, minimamente

considerar conjuntamente uma medida de locação e uma medida de dispersão. Nesse

sentido é importante também estabelecer uma representação gráfica conjunta de medidas

de locação e dispersão através da qual seja possível verificar o comportamento da variável

em ambos os aspectos.

Page 23: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 22

•••• ESQUEMA DE CINCO NÚMEROS: Proposta: Identificar 5 valores dentre o conjunto de n observados que possa dar

condições de se ter uma idéia geral do comportamento geral das observações.

Condição: Possível para variáveis quantitativas;

Valores Propostos (Tukey, 1971):

� Mediana

� Valor Maximo (X(n)) e Valor Mínimo (X(1))

� 1º e 3º Quartis

Observação:

Alguns outros autores e softwares propõem o uso de média e desvio padrão no lugar

de mediana e quartis. Tukey justifica o uso de mediana e quartis dado eu as mesmas são

medidas de locação e dispersão que não são influenciadas pela presença de valores

extremos no conjunto de dados e que, portanto permitem uma mais fácil identificação de

presença dos mesmos dentre os valores observados.

•••• DESENHO ESQUEMATICO – BOX PLOT: Proposta: Representação gráfica do esquema de 5 números.

O Box-plot é obtido seguindo-se os passos:

1. Numa reta são marcados o 1º quartil (Q1), a mediana (Q2) e o 3º quartil (Q3).

2. Acima dessa reta constrói-se um retângulo com limites iguais às posições do 1º e 3º

quartis, cortado por um segmento de reta na posição relativa à mediana.

3. A partir dos limites do retângulo, traçam-se linhas até:

a. encontrar um extremo (valor máximo ou mínimo) ou

b. um valor correspondente a 1,5 DQ, se o extremo correspondente estiver a

mais de 1,5 DQ do quartil respectivo.

Os pontos que estão a mais de 1,5 DQ do quartil correspondente até 3DQ são

chamados pontos externos (*) e os que estão a mais de 3DQ, pontos soltos (o).

Page 24: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 23

Figura 2.4. Construíndo o Box - Plot

“Máximo”

Q3

Mediana

Q1

“Mínimo”

25%

50%

75%

ConstruçãoLS=Q3+1,5(Q3-Q1)

LI=Q1-1,5(Q3-Q1)

“Máximo” é o maior valor menor que LS;

“Mínimo” é o menor valor maior que LI.

Figura 2.5. Forma Final do Box - Blot

O Box – Plot é um procedimento que permite identificar em um conjunto de dados:

� Simetria

� Dispersão

� Valores Discrepantes

_Q3

_Q1

_md

linhaauxiliar

⇓⇓⇓⇓

_Q3

_Q1

_md

_Q1-1,5d

_Q3+1,5d

****

**

****

**

_Q3

_Q1

_md

_Q1-1,5d

_Q3+1,5d

altura _Q3

_Q1

d

Q1 = 1º quartil Q1 = 1º quartil mdmd = mediana Q3 = 3º quartil d = diferença = mediana Q3 = 3º quartil d = diferen ça interquartilinterquartil

BoxBox --PlotPlot

Page 25: Ipaee capitulo2

Capítulo 2 – Análise Descritiva e Exploratória de Dados

Introdução ao Planejamento e Análise Estatística de Experimentos – 1o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 24

IMPORTANTE:

O Box–Plot, além das aplicações apresentadas, é um procedimento extremamente

importante na comparação de diferentes grupos (tratamentos) que são observados e, por

exemplo, dentre os quais, deseja-se identificar aquele com melhor desempenho.

Exemplo:

Comparando o total de pontos obtidos pelos alunos ingressos no processo

seletivo 2005 nos diferentes cursos da UFSCar.

Figura 2.6. Total geral de pontos obtidos pelos alunos ingressos no processo seletivo 2005 nos diferentes

cursos da UFSCar.