slide 0 estatística - cee.uma.ptcee.uma.pt/edu/estatistica07/teorica/capitulo1.pdf · v mediana o...

72
Ana M. Abreu - 2006/07 Slide 0 Estatística

Upload: lyhanh

Post on 16-Dec-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

Ana M. Abreu - 2006/07

Slide 0

Estatística

Ana M. Abreu - 2006/07

Slide 1Capítulo 1

Estatística Descritiva

I-1 Introdução à organização e ao processamento de dados.

I-2 Amostra e população; cuidados a ter narecolha da amostra.

I-3 Ordenação dos dados. Agrupamento dos dados. Tabela de frequências.

I-4 Medidas de localização e de dispersão.

I-5 Representação gráfica dos dados: gráfico de barras, gráfico de caule-e-folhas, caixa-de-bigodes, histograma.

Ana M. Abreu - 2006/07

Slide 2Introdução

Um objectivo comum dos inquéritos e de outros processos de obtenção de dados é a recolha de informação de uma parte de um grupo, de modo a aprender algo sobre esse mesmo grupo. Por exemplo, podemos perguntar a 10% dos alunos da UMa qual a sua nota de entrada na Universidade e assim ter alguma informação sobre a totalidade dos alunos da UMa.

Ana M. Abreu - 2006/07

Slide 3

v Dados estatísticossão observações (como medidas, respostas de inquéritos,

registos de idade, sexo, naturalidade, ...) que foram recolhidas.

v Estatísticaa informação estatística é constituída por dados, os quais

são organizados, sumariados, apresentados, analizados, interpretados de modo a retirar conclusões baseadas nos dados.

Definições

Ana M. Abreu - 2006/07

Slide 4Definiçõesv Populaçãoa colecção completa de todos os elementos (pessoas, animais, medidas, ...) a serem estudados. A colecção é completa no sentido de incluir todos os indivíduos a serem estudados.

v AmostraUm subconjunto da população escolhido correctamente, de modo a poder ser considerado como representativo da população.

Ana M. Abreu - 2006/07

Slide 5

v Parâmetrouma medida numérica que descreve

alguma característica de uma população.

população

parâmetro

Definições

Ana M. Abreu - 2006/07

Slide 6Definições

v Estatísticauma medida numérica que descreve

alguma característica de uma amostra.

amostra

estatística

Ana M. Abreu - 2006/07

Slide 7Definições

v Dados quantitativos

números que representam contagens ou medidas.

Exemplo: número de palavras por frase.

Ana M. Abreu - 2006/07

Slide 8Definições

v Dados qualitativos

(ou categorizados ou atributos)

podem ser separados em diferentes categorias, que se distinguem por alguma característica não numérica.

Exemplos: sexo dos clientes de um hotel, nacionalidade dos clientes de um hotel.

Ana M. Abreu - 2006/07

Slide 9DefiniçõesOs dados quantitativos podem ser de tipo discreto ou contínuo.

v Dados discretossurgem quando o número de valores possíveis é finito ou contável.

0, 1, 2, 3, . . .

Exemplo: número de palavras por frase.

Ana M. Abreu - 2006/07

Slide 10

v Dados contínuos(ou numéricos) surgem quando o número de valores

possíveis é infinito e corresponde a alguma escala contínua que contempla uma amplitude de valores sem interrupções ou saltos.

Definições

1,5 2,1

Exemplo: As alturas dos alunos da UMa.

Ana M. Abreu - 2006/07

Slide 11

v escala nominalcaracterizada por dados tais como nomes,

etiquetas ou categorias. Os dados não têm

qualquer relação de ordem (do mais pequeno

para o maior).

Exemplo: inquéritos cujas respostas são sim,

não, sem opinião.

DefiniçõesOutra forma de classificar os dados consiste em usar escalas.

Ana M. Abreu - 2006/07

Slide 12

v escala ordinalenvolve dados que podem ser ordenados, mas

as diferenças entre eles ou não podem ser

calculadas ou não fazem sentido.

Exemplo: O nível de escolaridade.

Definições

Ana M. Abreu - 2006/07

Slide 13

v escala intervalarcomo a escala ordinal, mas onde é possível calcular

diferenças. No entanto, não existe um zero natural (que

pudesse corresponder a ausência da característica).

Exemplo: As temperaturas em graus Celsius e em graus

Fahrenheit (ºF=ºC(9/5)+32).

Definições

Ana M. Abreu - 2006/07

Slide 14

v escala absoluta ou de razõeso zero da escala corresponde à anulação da

característica em estudo. São possíveis

comparações quer através de diferenças quer

através de quocientes.

Exemplo: Preço das propinas (0€ representa

ausência de custo).

Definições

Ana M. Abreu - 2006/07

Slide 15Resumo -Escalas para os dados

v Nominal - só categorias.

v Ordinal - categorias com alguma ordem.

v Intervalar - diferenças possíveis mas sem zero natural.

v Absoluta ou de razões - diferenças possíveis e com zero natural.

Ana M. Abreu - 2006/07

Slide 16Recapitulando

Até agora vimos:

v Definições e termos básicos para descrever

os dados

v Parâmetros versus estatísticas

v Tipos de dados (quantitativos e qualitativos)

v Escalas de medidas

Ana M. Abreu - 2006/07

Slide 17Cuidados a ter narecolha da amostra

Ana M. Abreu - 2006/07

Slide 18Pontos fundamentais

v Se uma amostra não é recolhida de forma apropriada, os dados podem ser tão inúteis, tal que, qualquer que seja a tortura a que sejam submetidos, não confessam seja o que for.

v Tipicamente a aleatoriedade tem um papel importante na recolha de dados.

Ana M. Abreu - 2006/07

Slide 19Pontos fundamentais

v Dimensão da amostrausar uma amostra com dimensão

suficiente para conseguir captar as características dos dados e recolhida de forma apropriada, tal como baseada na aleatoriedade.

Ana M. Abreu - 2006/07

Slide 20

v Amostra Aleatóriaos membros da população são seleccionados de tal forma que cada membro

tem igual possibilidade de ser escolhido.

Definições

v Amostra Aleatória Simples (de

dimensão n)

os indivíduos são seleccionados de tal forma

que cada possível amostra de dimensão n tem a mesma possibilidade de ser escolhida.

Ana M. Abreu - 2006/07

Slide 21Amostra AleatóriaSelecção tal que cada um tem igual possibilidade

de ser escolhido.

Ana M. Abreu - 2006/07

Slide 22Amostragem SistemáticaSeleccionar a partir de um ponto inicial e depois

seleccionar a cada K elemento na população.

Ana M. Abreu - 2006/07

Slide 23

Amostragem por conveniênciaUsar os resultados que são fáceis de obter.

Ana M. Abreu - 2006/07

Slide 24Amostragem Estratificadasubdividir a população em, pelo menos, dois

subgrupos distintos que partilham alguma característica e, em seguida, recolher uma amostra

de cada um dos subgrupos (ou estratos).

Ana M. Abreu - 2006/07

Slide 25Amostragem por Clustersdividir a população em secções

(ou clusters); seleccionar aleatoriamente alguns desses clusters; escolher todos os membros dos

clusters seleccionados.

Ana M. Abreu - 2006/07

Slide 26

v Aleatória

v Sistemática

v Por conveniência

v Estratificada

v Por clusters

Métodos de Amostragem

Ana M. Abreu - 2006/07

Slide 27

v Estatística Descritiva

resume ou descreve as características importantes de um conjunto conhecido de dados populacionais.

v Estatística Inferencial

usa dados amostrais para fazer inferências (ou generalizações) sobre uma população.

Generalidades

Ana M. Abreu - 2006/07

Slide 28Características importantes dos dados

1. Localização: Um valor representativo ou médio indica onde se situa o centro dos dados.

2. Variação: Uma medida do quanto os valores da amostra variam entre si.

3. Distribuição: A natureza ou a forma de distribuição dos dados (tal como em forma de sino, uniforme ou assimétrica).

4. Outliers: Valores amostrais que se situam muito afastados da maioria dos restantes valores amostrais.

5. Tempo: Algumas características podem se alterar ao longo do tempo.

Ana M. Abreu - 2006/07

Slide 29Distribuição de Frequência

v Distribuição de Frequência

lista dos valores das observações (ou

individuais ou por grupos de intervalos), juntamente com as correspondentes

frequências ou contagens.

Ana M. Abreu - 2006/07

Slide 30Distribuição de Frequência

Ana M. Abreu - 2006/07

Slide 31Ponto Médio de uma Classe

O ponto médio de uma classe determina-se adicionando os limites da classe (inferior e superior) e dividindo por dois.

PontosMédios

49.5

149.5

249.5

349.5

449.5

Ana M. Abreu - 2006/07

Slide 32Amplitude da Classeé a diferença entre dois limites superiores consecutivos ou dois limites inferiores consecutivos.

Amplitude da Classe

100

100

100

100

100

Ana M. Abreu - 2006/07

Slide 33

Razões para construir distribuições de frequência

1. Conjuntos de dados grandes podem ser resumidos.

2. Pode-se ganhar alguma perspectiva sobre a natureza dos dados.

3. Base para a construção de gráficos.

Ana M. Abreu - 2006/07

Slide 34

Como construir uma tabela de frequências

3. Escolher o limite inferior da primeira classe.4. Usar o limite inferior da primeira classe e a amplitude de classe para listar, numa coluna vertical, todos os limites inferiores.5. Em seguida, listar os correspondentes limites superiores.6. Percorrer os dados, assinalando com um traço vertical a classe onde se encontra cada dado.

1. Decidir o número de classes (habitualmente entre 5 e 20).

Regra de Sturges: k=nº de classes ≈≈≈≈ 1+[log2n]2. Calcular (aproximando por excesso) a

amplitude da classe ≈≈≈≈ (maior valor) – (menor valor)

número de classes

Ana M. Abreu - 2006/07

Slide 35Frequência Relativa

Frequência relativa =frequência da classe

soma de todas as frequências

11/40 = 28%

12/40 = 30%

etc.Frequência total = 40

Ana M. Abreu - 2006/07

Slide 36Frequência acumulada

Frequênciasacumuladas

Ana M. Abreu - 2006/07

Slide 37Recapitulando

Acabamos de ver

v Características importantes dos dados.

v Distribuições de frequências.

v Procedimentos para construir as distribuições de frequência.

v Frequências relativas.

v Frequências acumuladas.

Ana M. Abreu - 2006/07

Slide 38

Medidas de localização e de dispersão

Ana M. Abreu - 2006/07

Slide 39Notação

ΣΣΣΣ denota a soma de um conjunto de valores.

x é a variável usada habitualmente para representar os valores individuais.

n representa o número de valores na amostra, ou seja, a dimensão da amostra.

N representa o número de valores na população.

Ana M. Abreu - 2006/07

Slide 40Notação

µ pronuncia-se ‘mu’ e denota a média de todos os valores da população.

x =n

ΣΣΣΣ x

pronuncia-se ‘x-barra’ e denota a média dos valores da amostra.

x

Nµ =

ΣΣΣΣ x

Ana M. Abreu - 2006/07

Slide 41Definiçõesv Mediana

o valor central quando os dados estão ordenados.

❖ Se a dimensão da amostra é ímpar, a mediana corresponde ao valor que está no centro da amostra.

❖ Se a dimensão da amostra é par, a mediana corresponde à média dos dois valores que estão no centro da amostra.

Ana M. Abreu - 2006/07

Slide 42

5.40 1.10 0.42 0.48 1.10 0.66

0.42 0.48 0.66 0.73 1.10 1.10 5.40

(amostra de dimensão ímpar - valor exacto)

MEDIANA é 0.73

5.40 1.10 0.42 0.73 0.48 1.10

0.42 0.48 0.73 1.10 1.10 5.40

0.73 + 1.10

2

(amostra de dimensão par – os dois valores centrais são distintos)

MEDIANA é 0.915

Ana M. Abreu - 2006/07

Slide 43Definiçõesv Moda

o valor que ocorre com maior frequência.

A moda nem sempre é única. Um conjunto de dados pode ser:

BimodalMultimodal

Não ter Moda

v é a única medida de localização que pode ser usada para os dados em escala nominal.

Ana M. Abreu - 2006/07

Slide 44Exemplos

a. 5.40 1.10 0.42 0.73 0.48 1.10

b. 27 27 27 55 55 55 88 88 99

c. 1 2 3 6 7 8 9 10

ï Moda é 1.10

ï Bimodal - 27 e 55

ï Não existe Moda

Ana M. Abreu - 2006/07

Slide 45Média para dados agrupados

Assuma que, em cada classe, todos os valores são iguais ao ponto médio da classe.

x = ponto médio

f = frequência

Σ Σ Σ Σ f = n

x = f

ΣΣΣΣ (f • x)

ΣΣΣΣ

Ana M. Abreu - 2006/07

Slide 46

PontosMédios

49.5

149.5

249.5

349.5

449.5

x =11111111x49.5+12121212x149.5+14141414x249.5 +1111x349.5+2+2+2+2x449.5

40

= 177

Ana M. Abreu - 2006/07

Slide 47Definiçõesv Simetria

As observações distribuem-se de forma simétrica quando a metade esquerda do histograma correspondente ésensivelmente um espelho da metade direita.

v AssimetriaAs observações distribuem-se de

forma assimétrica se se prolongam mais para um dos lados do que para o outro.

Ana M. Abreu - 2006/07

Slide 48

Ana M. Abreu - 2006/07

Slide 49Definições

A amplitude de um conjunto de dados é a diferença entre o valor mais elevado e o valor mais pequeno.

valormais

elevado

valormais

pequeno-

Ana M. Abreu - 2006/07

Slide 50Definições

O desvio padrão de uma amostra éuma medida da variação dos valores em torno da média.

ΣΣΣΣ (x - x)2

n - 1S =

Ana M. Abreu - 2006/07

Slide 51

• Uma forma mais simples do desvio padrão amostral, para efeitos de cálculo, é a que se segue:

n (n - 1)s =

n (ΣΣΣΣx2) - (ΣΣΣΣx)2

Ana M. Abreu - 2006/07

Slide 52

Desvio padrão amostral -algumas características

v O desvio padrão é uma medida de variação de todos os valores da amostra em torno da média.

v O valor do desvio padrão, s, é positivo.

v O valor do desvio padrão, s, pode aumentar dramaticamente com a inclusão de um ou mais outliers na amostra.

v As unidades do desvio padrão, s, são as mesmas dos elementos da amostra.

Ana M. Abreu - 2006/07

Slide 53

Desvio padrãopopulacional

2ΣΣΣΣ (x - µ)

Nσσσσ =

Esta fórmula é semelhante à anterior, mas neste caso é usada a média populacional e a dimensão da população.

Ana M. Abreu - 2006/07

Slide 54Definições

v Variância populacional ( ): quadrado do desvio padrão populacional .σ

v A variância é uma medida de variação de um conjunto de valores e é igual ao quadrado do desvio padrão.

v Variância amostral (s2): quadrado do desvio padrão amostral s.

2

Ana M. Abreu - 2006/07

Slide 55Variância - Notação

quadrado do desvio padrão

s

σ σ σ σ

2

2

}Notação

Variância amostral

Variância populacional

Ana M. Abreu - 2006/07

Slide 56Definições

O coeficiente de variação (ou CV) de uma amostra, expresso em percentagem, descreve o desvio padrão relativamente à média. É uma medida sem unidades.

•100%s

xCV =

σµ

•100%CV =

PopulaçãoAmostra

Ana M. Abreu - 2006/07

Slide 57

Desvio padrão para dados agrupados

Usar os pontos médios de cada classe

n (n - 1)S =

n [ΣΣΣΣ(f • x 2)] - [ΣΣΣΣ(f • x)]2

Ana M. Abreu - 2006/07

Slide 58Definições

v Q1 (1º Quartil) separa os primeiros 25% da amostra ordenada dos restantes 75%.

v Q2 (2º Quartil) o mesmo do que a mediana; separa os primeiros 50% da amostra ordenada dos restantes 50%.

v Q3 (3º Quartil) separa os primeiros 75% da amostra ordenada dos restantes 25%.

Ana M. Abreu - 2006/07

Slide 59Quartis

Q1, Q2, Q3dividem os valores ordenados em 4 partes iguais

25% 25% 25% 25%

Q3Q2Q1(mínimo) (máximo)

(mediana)

Ana M. Abreu - 2006/07

Slide 60Percentis

Assim como os quartis dividem os dados em 4 partes iguais, existem 99 percentis denotados P1, P2, . . . P99, os quais particionam os dados em 100 grupos.

Percentil do valor x = • 100nº de valores menores que x

nº total de valores

Ana M. Abreu - 2006/07

Slide 61Representação

gráfica dos dados

Ana M. Abreu - 2006/07

Slide 62Histograma

Um gráfico com barras, em que o eixo horizontal representa as classes dos valores da amostra e o eixo vertical a correspondente frequência.

Ana M. Abreu - 2006/07

Slide 63

Histograma com as frequências relativas

Tem a mesma forma e escala horizontal que o anterior, mas no eixo vertical estão indicadas as frequências relativas.

Ana M. Abreu - 2006/07

Slide 64Polígono de frequências

Usa segmentos de recta para ligar os pontos médios das classes.

Ana M. Abreu - 2006/07

Slide 65Ogiva

Semelhante ao anterior mas com as frequênciasacumuladas

Ana M. Abreu - 2006/07

Slide 66Gráfico de barrasForma de representação gráfica para dados

qualitativos

Ana M. Abreu - 2006/07

Slide 67Gráfico de dispersão

Representação de pares de dados (x,y), onde no eixo horizontal marcam-se os valores de x e no eixo vertical os valores de y

Ana M. Abreu - 2006/07

Slide 68Gráfico de caule-e-folhas

Representa os dados, separando cada valor em duas partes: o caule (valor à esquerda do traço vertical) e a folha (algarismo à direita do traço vertical)

Ana M. Abreu - 2006/07

Slide 69Caixa-de-bigodes

Ana M. Abreu - 2006/07

Slide 70Caixa-de-bigodes

Ana M. Abreu - 2006/07

Slide 71Definições

❖A caixa-de-bigodes é um gráfico que consiste numa linha desde o mínimo atéao máximo (se não houver outliers), e numa caixa com extremos nos 1º e 3ºquartis e divisão na mediana.

❖Para um conjunto de dados, o resumo de 5 números é formado pelo mínimo, 1ºquartil, mediana, 3º quartil e máximo.