introdução à estatística · 2014-09-24 · bovinos causas agrupadas de aborto variável nominal...
TRANSCRIPT
Estatística Descritiva CURSO DE EPIDEMIOLOGIA VETERINÁRIA, ACT
Prof. Luís Gustavo Corbellini
EPILAB /FAVET - UFRGS
24/09/2014 1
Roteiro da aula
Estatística descritiva;
◦ Sumarizando os dados;
Distribuição de frequências empíricas
Tabelas e gráficos
Principais medidas-resumo numéricas
24/09/2014 2
24/09/2014 3
Quando a quantidade de dados aumenta, fica difícil obter uma “visão geral” do que está ocorrendo;
O primeiro passo para se obter esta visão geral é organizar os dados para avaliar o quão freqüente os diferentes valores ocorrem;
Será útil condensar as informações reduzindo-as a um tamanho manejável para obter um resumo que auxilie na compreensão e interpretação dos resultados
24/09/2014 4
Estatística descritiva
É um meio de se organizar, resumir e apresentar as observações;
Fornece um resumo das características gerais de um conjunto de dados
1. Tabelas;
2. Gráficos;
3. Medidas-resumo numéricas
Etapa conhecida como Análise Exploratória dos dados
24/09/2014 5
Objetivo da aula
Utilizar as ferramentas (Excel) para análise exploratória dos dados
Discutir métodos básicos de se exibir um conjunto de dados
24/09/2014 6
Distribuição de frequências empírica
1. Distribuição de frequência (frequência absoluta);
2. Distribuição de frequência relativa;
3. Distribuição de frequência acumulada;
A distribuição dos dados observados é chamada de distribuição de frequência empírica
24/09/2014 7
Importante
Antes de realizar a distribuição de frequência, precisamos conhecer o tipo de variável que estamos trabalhando
◦ O tipo de variável é que determinará a forma de resumo mais apropriada;
24/09/2014 8
Variável
Qualitativa (categórica)
Quantitativa (Numérica)
Nominal Positivo, negativo Macho, fêmea
Ordinal Sinais clínicos: Leve, moderado, severo
Discreto No. de animais; No. partos; No. doentes;
Contínuo Peso; Altura; Prod. Leite;
24/09/2014 9
1. Distribuição de frequência
Distribuição de frequência mostra a frequência absoluta de ocorrência das observações em um banco de dados;
24/09/2014 10
Variáveis categóricas
Dermatite No. de cães
Sim 117
Não 180
Total 297
Frequência absoluta de cães com dermatite examinados em uma amostra do HCV – UFRGS em 2007 e 2008.
Sim Não
24/09/2014 11
Variáveis numéricas
Idade (meses) No. de Cães <12 21 12-23 17 24-35 23 36-47 37 48-59 21 60-71 25 72-83 36 84-95 21 96-107 18 108-119 11 120-131 26 132-143 12 144-155 14 156-167 4 168-180 11 Total 297
0
5
10
15
20
25
30
35
40
<12
12
-23
24
-35
36
-47
48
-59
60
-71
72
-83
84
-95
96
-10
7
10
8-1
19
12
0-1
31
13
2-1
43
14
4-1
55
15
6-1
67
16
8-1
80
Nú
mer
o d
e C
ães
Idade (meses)
Frequência absoluta de idade para os 297 cães amostrados no HCV-UFRGS em 2007 e 2008.
24/09/2014 12
EXCEL PARA AS ANÁLISES EXPLORATÓRIAS 1 DISTRIBUIÇÃO DE FREQUÊNCIA
Exercício prático 1 – 30 minutos
24/09/2014 13
Tabela dinâmica – dados categóricos Abra a planilha Febre_Aftosa_RS
1. Marque a primeira linha até a última variável (Latitude); depois, marque todos os dados até a última observação (linha 31);
Dica: após marcar a primeira linha, utilize as teclas Ctrl + Shift + seta para baixo para marcar tudo.
2. Clique na aba inserir e depois tabela dinâmica; na caixa que abrir clique em ok; à direita você verá a lista de campos da tabela (variáveis). Nomeie esta planilha como “dinamica”
3. Nesta lista de campos clique na variável fonte, o que ocorreu?
4. Arraste a variável foco para o campo valores. O que você observa? Se o campo valores estiver marcando soma, clique na aba e depois marque “ContNúm”. Veja que você tem a distribuição de freqüência da fonte de notificação ocorrida no surto de aftosa.
5. Desmarque os campos e repita a operação com a variável diagnóstico.
Crie uma planilha (nomeie de análises) e copie todas as tabelas feitas para esta planilha – demonstração professor
24/09/2014 14
Tabela dinâmica – dados numéricos Na planilha Febre_Aftosa_RS
1. Desmarque todos os campos novamente
2. Marque a variável data e arraste-a para o rótulo de linhas; a tabela posicionará todas as datas;
3. Para observar a frequência de ocorrência de focos pela data, arraste a variável Foco para o campo valores; lembre-se de configurar o campo para “ContNúm”; agora, a frequência absoluta de ocorrência de focos irá aparecer;
4. Clique na aba de ferramentas de tabela dinâmica e depois numa célula dentro da tabela à esquerda (na coluna rótulo de linha); clique com o botão direito e depois clique em agrupar seleção e em dias; o número de dias = 7. O que ocorreu?
24/09/2014 15
2. Frequência relativa
São úteis para comparar conjunto de dados com números desiguais de observações;
A frequência relativa é obtida dividindo-se a frequência de cada categoria (ou classe) pelo número total de observações;
A soma deve ser 1 (ou 100%);
24/09/2014 16
Dermatite Frequência Frequência Relativa (%)
Sim 117 39,4
Não 180 60,6
Total 297 100
Frequência relativa de cães com dermatite examinados em uma amostra do HCV – UFRGS em 2007 e 2008.
24/09/2014 17
Idade (meses) Frequência Frequência Relativa (%) <12 21 7,1 12-23 17 5,7 24-35 23 7,7 36-47 37 12,5 48-59 21 7,1 60-71 25 8,4 72-83 36 12,1 84-95 21 7,1 96-107 18 6,1 108-119 11 3,7 120-131 26 8,8 132-143 12 4,0 144-155 14 4,7 156-167 4 1,3 168-180 11 3,7 Total 297 100,0
Distribuição de frequências de idade para os 297 cães amostrados no HCV-UFRGS em 2007 e 2008.
24/09/2014 18
3. Frequência acumulada
É a porcentagem (ou em termos absolutos) do número total de observações que tem um valor menor ou igual ao limite superior do intervalo;
É calculada pela soma das frequências relativas (ou absoluta) para o intervalo especificado e todas as outras anteriores;
O valor da última classe deve ser 1 (ou 100%);
24/09/2014 19
Idade (meses) Frequência
Frequência Relativa (%)
Frequência Acumulada (%)
<12 21 7,1 7,1 12-23 17 5,7 12,8 24-35 23 7,7 20,5 36-47 37 12,5 33,0 48-59 21 7,1 40,1 60-71 25 8,4 48,5 72-83 36 12,1 60,6 84-95 21 7,1 67,7 96-107 18 6,1 73,7 108-119 11 3,7 77,4 120-131 26 8,8 86,2 132-143 12 4,0 90,2 144-155 14 4,7 94,9 156-167 4 1,3 96,3 168-180 11 3,7 100,0 Total 297 100,0
Distribuição de frequências de idade para os 297 cães amostrados no HCV-UFRGS em 2007 e 2008.
Interpretação: 60,6 % dos cães amostrados têm idade menor ou igual a 83 meses (7 anos).
24/09/2014 20
EXCEL PARA AS ANÁLISES EXPLORATÓRIAS 2 DISTRIBUIÇÃO DE FREQUÊNCIA RELATIVA E ACUMULADA
Exercício prático 2 – 15 minutos
24/09/2014 21
Freqüência relativa e acumulada de dados numéricos
Abra a planilha LagoaPeixe_Censo ◦ Insira uma planilha dinâmica (repita o passo do
exercício anterior)
◦ Vamos trabalhar com a distribuição de freqüência (absoluta, relativa e acumulada) da variável total (que representa o número de aves de cada proprietário situado num raio de 10km da Lagoa do Peixe – RS);
◦ Arraste a variável total para o rótulo de linhas e variável proprietário para o campo valores (certifique-se que esteja em contar valores); agrupe o dados de 10 em 10 aves.
◦ Copie a tabela para uma nova planilha (nomeie esta planilha análise) – demonstração professor
24/09/2014 22
Tabelas, gráficos e medidas resumo
Ferramentas de resumo dos dados;
24/09/2014 23
Tabelas
Meio mais simples de se resumir um conjunto de observações;
O intuito é mostrar uma série de resultados para uma fácil compreensão; ◦ Mais informativas se não excessivamente complexas;
Alguns princípios: 1. Título conciso e auto-explicativo;
2. Claramente rotuladas;
3. Incluir unidades de medida (%, Kg, DO);
4. Ao demonstrar uma medida resumo como média, incluir medidas de precisão (como intervalo de confiança);
5. Não colocar muita informação;
24/09/2014 24
Gráficos
Devem ser concebidos de modo a transmitirem os padrões gerais de um conjunto de observações em uma simples visualização;
Perdem em detalhes mas ganham em entendimento dos dados em relação às tabelas;
Existem vários tipos de gráficos aplicáveis para os diferentes variáveis;
Alguns princípios: ◦ Título conciso e auto-explicativo;
◦ Claramente rotulados (eixos y e x) e unidades de medidas indicadas;
24/09/2014 25
Gráficos para varáveis categóricas (qualitativas)
Cada observação pertence a uma categoria;
Podem ser representadas por números absolutos ou porcentagem de indivíduos em cada categoria;
Tipos:
1. Barras;
2. Composição em setores (pizza);
24/09/2014 26
Resultado de uma investigação de causas de aborto para 136 fetos bovinos abortados analisados entre 2001 e 2003 no Laboratório de Patologia Veterinária da UFRGS.
0
10
20
30
40
50
60
Bacteriano Micótico Não Det. Neospora Outras Viral
Nú
me
ro d
e f
eto
s b
ovi
no
s
Causas agrupadas de aborto
Variável nominal 24/09/2014 27
Resultado de uma investigação de causas de aborto para 136 fetos bovinos abortados analisados entre 2001 e 2003 no Laboratório de Patologia Veterinária da UFRGS.
19.9%
2.9%
35.3%
30.9%
8.8% 2.2%
Bacteriano
Micótico
Não Det.
Neospora
Outras
Viral
Variável nominal 24/09/2014 28
Gráficos para varáveis numéricas (quantitativas)
Principais gráficos utilizados são:
◦ Histograma;
Representa a distribuição de frequência de uma variável numérica;
Similar a um gráfico de barras, porém, as barras são contíguas porque variáveis quantitativas são contínuas;
◦ Gráfico de dispersão;
24/09/2014 29
Histograma
O eixo horizontal (x) exibe os limites verdadeiros dos vários intervalos;
O eixo vertical (y) mostra a frequência ou frequência relativa das observações dentro de cada intervalo; ◦ A frequência de cada intervalo é representada pela
área do da barra;
◦ A área do histograma inteiro é igual 1 (ou 100%);
24/09/2014 30
Distribuição de frequências de idade para os 297 cães amostrados no HCV-UFRGS em 2007 – 2008.
0
5
10
15
20
25
30
35
40
<12
12
-23
24
-35
36
-47
48
-59
60
-71
72
-83
84
-95
96
-10
7
10
8-1
19
12
0-1
31
13
2-1
43
14
4-1
55
15
6-1
67
16
8-1
80
Nú
mer
o d
e C
ães
Idade (meses)
Eixo x
Eixo
y
24/09/2014 31
Gráficos de dispersão
Úteis para examinar a relação entre duas variáveis numéricas ou ordinais;
Cada ponto do gráfico representa um par de valores (cada valor no eixo x tem uma única medida correspondente no eixo y); ◦ Pontos adjacentes podem ser conectados por linhas;
◦ Se a escala ao longo do eixo horizontal representar o tempo, podemos traçar a mudança cronológica na quantidade do eixo vertical em um período de tempo;
24/09/2014 32
Frequência mensal de anticorpos anti-Leptospira spp. em bovinos ao longo de 132 meses de estudos entre 1996 – 2006 no Estado do Rio Grande do Sul.
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
A-95 F-96 D-96 S-97 J-98 M-99 M-00 J-01 N-01 S-02 J-03 A-04 F-05 D-05 O-06 A-07
Fre
qu
ên
cia
Período de tempo em meses (1996 - 2006)
24/09/2014 33
Frequência mensal de anticorpos anti-Leptospira spp. em bovinos ao longo de 132 meses de estudos entre 1996 – 2006 no Estado do Rio Grande do Sul.
R² = 0.1738
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
A-95 F-96 D-96 S-97 J-98 M-99 M-00 J-01 N-01 S-02 J-03 A-04 F-05 D-05 O-06 A-07
Fre
qu
ên
cia
Período de tempo em meses (1996 - 2006)
24/09/2014 34
Correlação dos resultado de testes sorológicos da Fluorescência Polarizada (em milipolarização – mP) para brucelose bovina realizada em dois laboratórios (A e B) para avaliação da reprodutibilidade.
0
50
100
150
200
250
300
350
0 50 100 150 200 250 300 350
Resu
lta
do
s L
ab
ora
tório
B
(m
P)
Resultado Laboratório A (mP)
24/09/2014 35
EXCEL PARA AS ANÁLISES EXPLORATÓRIAS 3 GRÁFICOS
Exercício prático 3 – 30 minutos
24/09/2014 36
Na planilha Febre_Aftosa_RS_2001
Agora vocês vão construir os gráficos pra visualização de variáveis categóricas;
Para a variável fonte (de notificação), vocês farão o gráfico de pizza. No Excel, clique na aba inserir e depois pizza. O layout do gráfico aparecerá sem nada. Agora, clique em selecionar dados. Na caixa aparecerá, a esquerda, entradas de legenda. Clique em adicionar e no valores da série (na caixa que abre, clique no símbolo quadrado que aparece à direita) e marque os valores das observações (não esqueça que para marcar tem de clicar no botão esquerdo) e ok. No rótulo do eixo horizontal, clique em adicionar e, depois editar. Marque o nome das categorias (i.e. proprietário e vigilância) e ok. Clique em ok. Pronto. Se quiseres posicionar a legenda em outro lugar, clique sobre ela com o botão direito e depois, formatar legenda. Nesta caixa você pode formatar a legenda, trocando de posição, mudando estilo, etc. Para colocar os valores da frequência, clique sobre o gráfico e depois clique com o botão direito. Na caixa que abrir, clique em adicionar rótulos de dados.
Faça um gráfico de barras para a variável diagnóstico. O procedimento é o mesmo do anterior, só muda a escolha do tipo de gráfico (obs. Gráfico de barras no Excel corresponde ao gráfico de colunas). Vocês verão que a legenda série aparecerá. Como vocês têm apenas uma série, retire ela. Clique sobre a legenda e depois delete. Agora você deve rotular os eixos e dar nome ao gráfico. Clique sobre o gráfico e na aba layout. Clique na caixa título dos eixos, horizontal principal e título abaixo do eixo. Nomeie apropriadamente. Faça a mesma coisa para o eixo vertical, clicando em título girado. Faça o mesmo procedimento para o título do gráfico.
24/09/2014 37
Agora você vai construir um gráfico de distribuição da variável quantitativa data.
Trata-se de uma variável contínua. Para visualizar a distribuição de frequência você construirá um histograma, plotando no eixo horizontal (x) a data e no eixo vertical (y) o número de focos.
Repita o mesmo procedimento anterior para inserção dos gráficos e dos rótulos e valores da série. Escolha a opção gráfico de colunas.
Como é um histograma, as barras devem ser contíguas. Clique sobre uma barra e depois clique com o botão direito. Agora clique em formatar série de dados. Na opção de série, você vera que tem umas setas. Na segunda de cima para baixo, largura de espaçamento, clique sobre a seta e arraste-a para esquerda. Feche a caixa. Você verá que as barras estão sem espaçamento. As barras estão sem contorno. Clique novamente sobre as barras e depois na aba formatar. No menu, selecione contorno da forma e selecione a cor desejada.
Rotule os eixos e nomeie o gráfico apropriadamente.
24/09/2014 38
Medidas-resumo numéricas
Medidas utilizadas para complementar os resumo dos dados:
1. Medidas de posição
2. Medidas de dispersão
24/09/2014 39
Medidas de posição (medidas de tendência central)
1. Média
2. Mediana
3. Moda
24/09/2014 40
Média
Medida de posição mais usada é a média aritmética;
Soma de todas as observações dividida pelo número total de medidas;
i n
xix
24/09/2014 41
Valores da média são influenciados pelos “outliers”:
◦ “Outliers” excessivamente grandes empurram a média para cima e vice-versa.
A média aritmética é mais apropriada para resumir os dados que tenham distribuição simétrica
◦ A média se desloca para direita (aumenta) se a distribuição tem assimetria positiva e se desloca para esquerda (diminui) se a distribuição tem assimetria negativa.
24/09/2014 42
Mediana
É o valor central de uma série de n observações ordenadas do menor para o maior;
Pode ser usada como medida-resumo para observações ordinais ou numéricas (que não tem distribuição simétrica);
É definida como 50° percentil
◦ Metade dos valores são maiores ou iguais e a outra metade menores ou iguais a mediana;
Não é sensível aos valores extremos;
24/09/2014 43
Para um conjunto de n observações ímpares a mediana é o valor do meio dada por: [(n +1)/2] – ésima medida.
n = 13 observações
◦ 4, 6, 9, 10, 11, 13, 14, 14, 15, 18, 19, 21, 23.
◦ (13 + 1)/2 = 7ª observação.
Se n for par, a mediana é tomada como a média dos dois valores centrais do intervalo.
24/09/2014 44
Moda
É a observação que ocorre mais frequentemente e em um conjunto de dados;
Média, moda e mediana terão valores similares quando a distribuição for simétrica
24/09/2014 45
Medidas de dispersão
1. Amplitude
2. Intervalo interquartil
3. Variância e desvio-padrão
24/09/2014 46
Amplitude
Diferença entre a maior e a menor observação;
Fácil de calcular;
Sensível a valores extremos;
24/09/2014 47
Intervalo interquartil
Usado quando a média e DP não são medidas adequadas
para representar um conjunto de dados (Valores extremos);
Três valores que divide o conjunto ordenado de dados em
quatro partes iguais:
Primeiro quartil (designado por Q1/4) - quartil inferior = é o
valor aos 25% da amostra ordenada = 25º percentil
Segundo quartil (designado por Q2/4) - mediana = é o valor
até ao qual se encontra 50% da amostra ordenada = 50º
percentil
Terceiro quartil (designado por Q3/4) - quartil superior = valor
a partir do qual se encontram 25% dos valores mais elevados =
valor aos 75% da amostra ordenada = 75º percentil
24/09/2014 48
Variância
Quantifica a variabilidade ou o espalhamento ao redor da média das observações;
1
)( 2
2
n
xxs i i
24/09/2014 49
Desvio-Padrão (DP)
Raiz quadrada da variância;
Tem a mesma unidade de medida que a média, em vez da unidade elevada ao quadrado e por isso
◦ Usado mais frequentemente do que a variância.
◦ Em uma comparação entre 02 grupos de dados, o grupo com menor DP tem observações mais homogêneas e o com maior tem mais variabilidade;
2ss 24/09/2014 50
EXCEL PARA AS ANÁLISES EXPLORATÓRIAS 4 RESUMO ESTATÍSTICO – PACOTE DE DADOS
Exercício prático 4 – 15 minutos
24/09/2014 51
Agora você vai aprender a usar a função resumo estatístico do pacote de análise de dados do Excel:
Antes de iniciar, certifique-se que o pacote análise de dados está instalado: ◦ Clique em dados e verifique na barra bem a direita se o ícone análise de
dados está ativo;
Na planilha Lagoa Peixe_Censo vamos trabalhar com a variável total (número total de aves por proprietário): ◦ Clique em dados e depois análise de dados;
◦ Na caixa que abrir, clique em estatística descritiva e depois ok;
◦ No intervalo de entrada, clique no ícone a direita da caixa e marque toda coluna total incluindo o rótulo (nome da coluna); deixe marcado agrupado por colunas e rótulos na primeira linha.
◦ No intervalo de saída clique no ícone a direita e depois em alguma célula da planilha análises.
◦ Marque resumo estatístico e ok;
◦ Observe os resultados;
◦ A variável total tem muita variabilidade? Porque?
24/09/2014 52
EXCEL PARA AS ANÁLISES EXPLORATÓRIAS 5 MEDIDAS DE DISPERSÃO DE UMA SÉRIE DE DADOS
Exercício prático 5 – 15 minutos
24/09/2014 53
Você vai calcular as medidas de dispersão da variável total (Lagoa Peixe_Censo):
◦ Utilize as funções Mínimo(valores), Máximo(valores), calcule a amplitude (= valor máximo – valor mínimo);
◦ Agora utilize as funções VAR (variância) e DESVPAD (desvio padrão);
◦ Para finalizar, vamos calcular Primeiro Quartil: função PERCENTIL (valores; 0,25)
Segundo Quartil: função PERCENTIL (valores; 0,5)
Terceiro Quartil: função PERCENTIL (valores; 0,75)
◦ Agora você tem as principais medidas de dispersão da variável total;
24/09/2014 54