estatística descritiva - parte 2 (ismt)
DESCRIPTION
Estatística Descritiva - parte 2 (ISMT)TRANSCRIPT
Os quartis são os valores da variável que dividem a distribuição de frequências em quatro partes iguais.
Os decis em dez.
...
...
www.joaoleal.net Professor: João José Leal 57
Os percentis em cem.
...
...0 0,25 0,5 0,75 1,00 cum fi
Q1 Q2 Q3 Xi
Quartis
Conforme se viu anteriormente, a mediana é o
valor que divide a distribuição em duas partes iguais.
www.joaoleal.net Professor: João José Leal 58
valor que divide a distribuição em duas partes iguais.
Os quartis são os valores que dividem a
distribuição em quatro partes iguais.
Tamanho dos sapatos
Xi
N.º de pares vendidos
ni
cum ni fi (%) cum fi (%)
35 30 30 0,65 0,6535,5 40 70 0,87 1,5236 50 120 1,08 2,60
36,5 150 270 3,25 5,8637 300 570 6,51 12,37
Exemplo 11:
www.joaoleal.net Professor: João José Leal 59
37 300 570 6,51 12,37Q1 37,5 600 1170 13,02 25,38
38 950 2120 20,61 46,00Q2 38,5 820 2940 17,79 63,79Q3 39 750 3690 16,27 80,06
39,5 440 4130 9,55 89,6140 250 4380 5,42 95,03
40,5 150 4530 3,25 98,2941 40 4570 0,87 99,15
41,5 39 4609 0,85 100,00
4.609 100,00
Diagrama de Extremos e Quartis
Utiliza-se para representar a mediana, a dispersão
inter-quartil, as observações máximas e mínimas e os
outliers.
www.joaoleal.net Professor: João José Leal 60
55% 65% 55% 70% 72%
Exercícios:
1. As classificações obtidas pelo Vítor no teste de Matemática foram:
1.1 Qual foi a classificação média?
1.2 Qual é a moda?
www.joaoleal.net Professor: João José Leal 61
1.2 Qual é a moda?
1.3 Qual é a mediana?
1.4 O Vítor fez um 6º teste e obteve a classificação de 80%.
a) Qual é a média dos seis testes?
b) Qual é a classificação mediana dos seis testes?
MedidasMedidas dede DispersãoDispersão
As medidas de localização não caracterizam a dispersão ou
a variabilidade dos dados. É então necessário considerar medidas de
estatísticas que descrevam tal dispersão, pois ela desempenha um
www.joaoleal.net Professor: João José Leal 62
estatísticas que descrevam tal dispersão, pois ela desempenha um
papel importante na explicação de um fenómeno ou acontecimento.
A amplitude, a variância e o desvio padrão são
normalmente conhecidos como medidas de dispersão.
Amplitude totalAmplitude total
Num conjunto de dados chama-se amplitude total ou apenas
amplitude à diferença entre o maior e o menor valor da variável.
www.joaoleal.net Professor: João José Leal 63
amplitude à diferença entre o maior e o menor valor da variável.
Se os dados estão agrupados em classes, a amplitude é a
diferença entre o limite superior da última classe e o limite inferior
da primeira classe.
10 16 18 8
Exemplos:
1. As notas do João nas disciplinas de português, Filosofia,Matemática e Inglês foram:O maior destes valores é 18 e o menor é 8. Deste modo, a amplitudedo conjunto de dados é:
A = 18 - 8 = 10
www.joaoleal.net Professor: João José Leal 64
Classes fi
[50, 100[ 25
[100, 150[ 55
[150, 200[ 92
[200, 250[ 71
[250, 300[ 57
Total 300
2. Considerando o exemplo do levantamento da área total dasdivisões de cada uma das casas de uma aldeia e os resultados formaos seguintes:
300 50 250A
Amplitude interquartis é a diferença entre o 3º e o 1º quartis e
representa-se por:
AQx = Q3 – Q1
Esta medida é mais útil do que a amplitude, pois dá-nos informação
www.joaoleal.net Professor: João José Leal 65
Esta medida é mais útil do que a amplitude, pois dá-nos informação
sobre a amplitude do intervalo em que se encontram 50 % das
observações centrais
Propriedades:
www.joaoleal.net Professor: João José Leal 66
A medida de dispersão mais utilizada é o desvio- padrão. No entanto,
para obter o desvio- padrão temos de determinar primeiro a variância.
Variância: Sendo x1, x2, ..., xn os n valores de um variável
VariânciaVariância
www.joaoleal.net Professor: João José Leal 67
x 2
2
2 1
n
ii
x x
n
2
2 1
n
i ii
f x x
n
Variância: Sendo x1, x2, ..., xn os n valores de um variável
quantitativa e a média, chama-se variância, e representa-se por
ao valor dado pela fórmula:
Para dados não classificados:
Para dados classificados:
ExemploExemplo::
Observe o conjunto de dados correspondentes às classificações
obtidas no 9º ano, em cinco testes, por dois irmãos: o José e a Maria.
www.joaoleal.net Professor: João José Leal 68
Vamos calcular, para cada um dos conjuntos de dados, a variância.
Começa-se por calcular a média:
1 2 3 4 53
5x
2 2 2 2 2
2 1 3 2 3 3 3 4 3 5 3
5
José:
2 3 3 3 43
5x
2 2 2 2 2
2 2 3 3 3 3 3 3 3 4 3
5
Maria:
www.joaoleal.net Professor: João José Leal 69
2 2 2 2 2
5
2 1 0 1 22
5
2 2 2 2 2
5
1 0 0 0 10,4
5
xi fi
2 1 2-3 = -1
3 3 3-3 = 0
4 1 4-3 = 1
ix x 2
ix x 2
i if x x
21 1 1 1 1
20 0 3 0 0 21 1 1 1 1
Ou, relativamente às notas da Maria nós tínhamos:
www.joaoleal.net Professor: João José Leal 70
4 1 4-3 = 1
Total 5
1 1 1 1 1 2
2i if x x
2 20,4
5
Assim,
2n
ix x
Desvio-padrão: O desvio-padrão, que se representa por , é igual
à raiz quadrada positiva da variância, ou seja:
• Para dados não classificados:
www.joaoleal.net Professor: João José Leal 71
1
ii
x x
n
2
1
n
i ii
f x x
n
• Para dados classificados:
ExemploExemplo::
Considerando as notas do José e da Maria, o desvio-padrão
seria, respectivamente:
www.joaoleal.net Professor: João José Leal 72
2 1,4 1 . e 0,4 0,6 1 .c d c d
PropriedadesPropriedades dodo desviodesvio--padrãopadrão
•O desvio-padrão é sempre não negativo.
•Quanto maior for o desvio-padrão maior será a dispersão dos dados
www.joaoleal.net Professor: João José Leal 73
•Quanto maior for o desvio-padrão maior será a dispersão dos dados
em relação à média.
•Se o desvio-padrão é igual a zero é porque não existe variabilidade,
isto é, os dados são todos iguais.
DistribuiçõesDistribuições bidimensionaisbidimensionais
No estudo da estatística, até agora desenvolvido,
estudámos variáveis estatísticas isoladamente, isto é, a
www.joaoleal.net Professor: João José Leal 74
estudámos variáveis estatísticas isoladamente, isto é, a
cada observação correspondia um registo e depois eram
trabalhados esses registos. A variável estatística era
unidimensional.
Assim,
Definição de distribuição unidimensional: É aquela em que a
observação é apenas feita atendendo a uma variável.
www.joaoleal.net Professor: João José Leal 75
Porém, o que se pretende estudar da população não é só
essa variável, mas sim averiguar se há alguma relação entre duas
ou mais características da população.
Definição de distribuição bidimensional: Quando a população é
estudada relativamente a duas variáveis.
www.joaoleal.net Professor: João José Leal 76
Nota: Quando se pretende estudar duas características ao mesmo tempo, a
cada observação correspondem dois valores.
Assim, os valores aparecem como pares ordenados (x, y).
Exemplos deste tipo de situações:
Averiguar se há uma relação entre:
1) o peso e a altura dos alunos de uma determinada turma;
www.joaoleal.net Professor: João José Leal 77
1) o peso e a altura dos alunos de uma determinada turma;
2) as alturas dos progenitores e dos seus filhos adultos.
Relação funcional: É quando existe uma relação exacta entre duas
variáveis, isto é, é possível determinar com precisão a relação
existente entre duas variáveis.
Exemplo:
www.joaoleal.net Professor: João José Leal 78
Exemplo:
A área de um quadrado e o comprimento do seu lado.
Estas duas variáveis estão relacionadas, a relação que as liga é bem definida,
invariável e pode ser traduzida pela expressão matemática: A=l2, representando A a
área e l o lado.
Podemos, assim dizer que esta relação permite determinar, com a precisão desejada,
a área de um quadrado a partir do comprimento do seu lado ou vice-versa.
Relação estatística: É quando a relação é menos precisa, mais
vaga, e sujeita a mais variações.
Exemplo:
www.joaoleal.net Professor: João José Leal 79
Exemplo:
As idades dos cônjuges na data do casamento.
A idade do marido, não pode ser determinada com exactidão a partir da idade da
mulher. Pois, o que se pode dizer é que em média quanto mais velho é o marido mais
velha será também a mulher. No entanto, em alguns casos, o marido pode ser mais
novo ou ter a mesma idade da mulher.
Assim, perante dois fenómenos quaisquer, pode-se afirmar
que ou estão ligados através de uma relação funcional ou de uma
relação estatística, ou não estão ligados através de qualquer relação.
www.joaoleal.net Professor: João José Leal 80
relação estatística, ou não estão ligados através de qualquer relação.
No caso da ausência de qualquer relação entre dois
fenómenos, estes dizem-se independentes.
Diagrama de dispersão
Definição: Chama-se diagrama de dispersão a uma nuvem
de pontos obtidos após a representação num sistema de eixos dos
pontos correspondentes aos pares ordenados (x, y) [as duas
www.joaoleal.net Professor: João José Leal 81
variáveis].
x
y
Correlação linear ou Coeficiente de correlação
Quando se observa um diagrama de dispersão, intuitivamente
é-se levado a afirmar que existe ou não existe a possibilidade de
qualquer relação entre as variáveis.
www.joaoleal.net Professor: João José Leal 82
qualquer relação entre as variáveis.
Se os pontos se concentrarem à volta de uma linha recta é
porque existe uma relação entre as variáveis (correlação linear).
Definição de correlação: A correlação é a teoria que estuda a
intensidade da relação ou a dependência entre as duas variáveis
de uma distribuição bidimensional.
Observem-se alguns tipos de correlação:
www.joaoleal.net Professor: João José Leal 83
A intensidade da relação existente entre as
variáveis x e y pode ser quantificada. Para quantificar
essa relação Pearson propôs o coeficiente de
www.joaoleal.net Professor: João José Leal 84
essa relação Pearson propôs o coeficiente de
correlação linear de Pearson.
1
2 2
n
i ii
n n
x x y yr
x x y y
O coeficiente de correlação é um número do intervalo [-1, 1] e
é representado por r ou rxy e definido por:
www.joaoleal.net Professor: João José Leal 85
1 1
i ii i
x x y y
x
y
sendo xi valores das observações de uma das variáveis, yi os
valores das observações correspondentes da outra variável, é a
média das observações de xi e é a média das observações de yi.
Conhecido o valor de r avalia-se a intensidade da correlação
de acordo com a seguinte escala.
www.joaoleal.net Professor: João José Leal 86
Ou graficamente,
www.joaoleal.net Professor: João José Leal 87
www.joaoleal.net Professor: João José Leal 88
Recta de regressão.
Considerem-se os seguintes diagramas de dispersão:
Figura 1: Todos os pontos do diagrama de
dispersão estão sobre uma recta, o que significa
que existe um ajustamento perfeito entre os pontos
www.joaoleal.net Professor: João José Leal 89
que existe um ajustamento perfeito entre os pontos
da recta. Esta situação representa graficamente
uma relação funcional.
Figura 2: Verifica-se que os pontos se situam em
torno de uma recta imaginária que passa através da
nuvem de pontos.
www.joaoleal.net Professor: João José Leal 90
nuvem de pontos.
Figura 3: A linha que se ajusta à nuvem é uma
parábola.
www.joaoleal.net Professor: João José Leal 91
parábola.
Figura 4: As variáveis não estão relacionadas. A
dispersão dos pontos é muito irregular.
www.joaoleal.net Professor: João José Leal 92
y ax b
Notas:
1. A recta de regressão pode ser definida por uma equação ( ).
2. Vantagem do conhecimento da recta de regressão:
Permite determinar uma estimativa do valor de uma das
variáveis conhecido o valor da outra variável.
www.joaoleal.net Professor: João José Leal 93
variáveis conhecido o valor da outra variável.
( , )x y x y3. A recta de regressão contém o ponto , sendo e as
médias das variáveis x e y, respectivamente. Este conhecimento
permite construir a recta com um menor erro.
www.joaoleal.net Professor: João José Leal 94
Medidas de assimetriaMedidas de assimetriaAssimetria
O método mais simples de reconhecer a assimetria de umadistribuição consiste na observação das posições relativas da média,mediana e moda e na comparação dos seus valores.
www.joaoleal.net Professor: João José Leal 95
= Me = Mo Mo < Me < < Me < Mo
simetria assimetria positiva assimetria negativa
x x x
x – Mo = 0 x – Mo > 0 x – Mo < 0
Exercícios:
1. A temperatura média anual e a latitude das capitais dos países da
EU aproximadamente a seguinte:
Capitais Temperatura (ºC)
Latitude (º)
Lisboa 19 39Madrid 19 40
www.joaoleal.net Professor: João José Leal 96
Madrid 19 40Paris 15 49
Londres 14 53Amesterdão 13 54
Bruxelas 14 52Luxemburgo 14 50
Bona 13 52Roma 22 42Atenas 24 37Dublin 13 53
Copenhaga 11 54
1.1 Calcule a média das variáveis temperatura e latitude.
1.2 Desenhe o diagrama de dispersão e a recta de regressão
passando no ponto ,x y Capitais Temperatura (ºC)
Latitude (º)
Lisboa 19 39Madrid 19 40
www.joaoleal.net Professor: João José Leal 97
Madrid 19 40Paris 15 49
Londres 14 53Amesterdão 13 54
Bruxelas 14 52Luxemburgo 14 50
Bona 13 52Roma 22 42Atenas 24 37Dublin 13 53
Copenhaga 11 54