Download - ANALISANDO DADOS PROF:MOISES
ANALISANDO DADOS PROF:MOISES
Vivemos num mundo repleto de dados. Sua capacidade em lidar com eles,
transformando-os em informações importantes, é o que vai diferenciar você das demais pessoas
no mundo contemporâneo. Da leitura crítica das notícias de um jornal até a decisão de fazer um
determinado investimento, passando por situações críticas no seu local de trabalho, a
capacidade de se obter, organizar, representar, descrever e analisar dados requer o
conhecimento de métodos e técnicas que permitam extrair o máximo que eles podem oferecer.
Se entendermos Estatística como a Ciência dos Dados, será de grande valia o domínio que
seu corpo de conhecimento pode nos oferecer. Primeiramente, como ponto de partida, podemos
dividir a Estatística em duas áreas: a Descritiva e a Inferencial.
A Estatística Descritiva postula os métodos e técnicas relacionadas à obtenção,
representação, mensuração, análise e conclusões a partir de um conjunto de dados oriundos de
uma população ou de uma amostra. Quando os dados são oriundos de uma população, podemos
descrevê-la através de medidas estatísticas adequadas vis a vis o nível de mensuração das
características estudadas. Nesse caso dizemos que o conhecimento da população em apreço é,
por extensão, o conhecimento das medidas a ela associadas. Não há erro no processo, a não ser
aqueles devidos à informação quando da obtenção dos dados. A aritmética, através de suas
operações básicas, é suficiente para os cálculos necessários à obtenção das medidas estatísticas.
No entanto, quando os dados são extraídos de uma amostra sua descrição segue as mesmas
técnicas e métodos utilizados para dados populacionais. A análise, entretanto, já passa a ser
feita com base nos métodos inferenciais.
A Estatística Inferencial postula um conjunto de técnicas que permitem utilizar dados
oriundos de uma amostra para generalizações sobre a população. Constitui esse conjunto de
técnicas: a determinação do número de observações (tamanho da amostra); o esquema de
seleção das unidades observacionais; o cálculo das medidas estatísticas; a determinação da
confiança nas estimativas; a significância dos testes estatísticos; a precisão das estimativas;
dentre outras. Essa generalização é feita a partir do processo de estimação das medidas
estatísticas que podem ser calculadas, porém não sem antes se antecipar um grau de certeza de
que a amostra esteja fornecendo os dados que seriam de se esperar caso toda a população fosse
estudada. Nesse caso, o ramo da matemática que será utilizado para se avaliar tal grau de
certeza é a probabilidade. Com ela teremos condições de mensurar a fidedignidade de cada
inferência feita com base na amostra.
Antes de começarmos a estudar os métodos estatísticos que nos permitirão analisar
dados, sejam eles qualitativos ou quantitativos, é importante introduzirmos alguns conceitos
preliminares a fim não apenas de dar nomes aos instrumentos, mas também adequar e eqüalizar
a terminologia a ser utilizada ao longo do curso. Você verá que uma nova linguagem será
desenvolvida ao longo desse curso e o seu domínio é fundamental para um melhor
aproveitamento.
DEFINIÇÕES E CONCEITOS BÁSICOS
1. PopulaçãoÉ o conjunto de todos os elementos (unidades observacionais) que constituem a abrangência do estudo. Exemplos:1.1 Conjunto dos 5507 municípios brasileiros.1.2 Conjunto constituído pelos alunos deste curso.1.3 Conjunto dos discursos do presidente da república desde a sua posse.
2. AmostraÉ um subconjunto da população.Exemplos:2.1 Conjunto dos municípios da Região Nordeste.2.2 Alunos do Estado do Rio de Janeiro.2.3 Discursos proferidos em recintos abertos.
3. Unidade ObservávelÉ a portadora da(s) característica(s), ou propriedade(s), que se deseja investigar.Exemplos:3.1 Cada um dos 5507 municípios brasileiros.3.2 Cada aluno deste curso.3.3 Cada discurso presidencial.
4. VariávelÉ a representação simbólica da característica ou propriedade que se deseja investigar.Exemplos:4.1 Receita tributária municipal arrecadada no ano passado.4.2 Gênero dos alunos.4.3 Emprego da expressão “jamais neste país”.
5. Medidas EstatísticasSão os parâmetros da população, ou amostra, em apreço. Permitem reduzir a totalidade dos dados a apenas um certo número de medidas.
Exemplos:5.1 Receita tributária municipal média.5.2 Percentagem de mulheres.5.3 Freqüência com que a expressão “jamais neste país” foi utilizada em cada discurso.
6. InferênciaÉ o processo de generalizar na população resultados obtidos em uma amostra.Exemplos:6.1 Como a receita tributária municipal média da Região Sudeste é de $150.000.000
podemos concluir que no Brasil esta receita é de $150.000.000, em média.
6.2 Como a turma do Rio de Janeiro tem 40% de mulheres, concluímos que todas as turmas deste curso tem 40% de mulheres.
6.3 Como o presidente utilizou a expressão “jamais neste país” 55 vezes, em média, nos discursos em recintos abertos desde a sua posse, podemos concluir que seus discursos utilizam, em média, 55 vezes esta expressão em seus discursos.
2
MEDIDAS E NÍVEIS DE MENSURAÇÃO
INTRODUÇÃO
Thorndike (1918) já dizia que tudo que existe no universo existe num certo montante, e
que o conhecimento completo daquilo que se deseja investigar requer o conhecimento de sua
quantidade, bem como o de sua qualidade. Compreende-se daí a necessidade de se desenvolver
um referencial teórico capaz de dotar o gerente contemporâneo de um instrumental básico que
norteará sua tarefa de conhecer, em sua plenitude, o objeto de sua investigação através da
medida de sua quantidade e qualidade.
Para melhor se entender a finalidade da teoria das medidas vou adaptar dois exemplos
fornecidos por Lord & Novick (1968, p. 16). Suponha que se deseje medir a altura de uma pessoa.
A fim de se obter o valor numérico desta (ou de qualquer outra) característica, define-se um
procedimento de três etapas. Primeiro precisamos definir o objeto portador da característica: a
unidade observável. Segundo, precisamos definir a característica, ou propriedade, a ser medida:
no caso a altura da pessoa, definida como a distância entre a planta do pé e o alto da cabeça do
indivíduo. Finalmente, precisamos identificar a regra que vai associar o valor numérico à
propriedade da unidade observável, no caso uma fita métrica, ou outro instrumento de medida
mais preciso.
Considere agora um segundo exemplo. Suponha que a característica a ser medida seja a
proficiência matemática de uma pessoa. A regra poderia ser definida como a aplicação de um
teste constituído por algumas questões de matemática. Uma possível medida de proficiência
poderia ser expressa pelo número de questões corretas respondidas. Outra poderia ser a
porcentagem de respostas corretas.
Notamos, então, que ao contrário das duas primeiras etapas, fixas para cada processo de
mensuração de uma certa característica, a terceira etapa, que estabelece a unidade de medida a
ser empregada, não é unicamente determinada.
Não existe até hoje uma definição formal de medida que seja universalmente aceita entre
os pesquisadores da área. Weitzenhoffer (1951) descreve medida como “... uma operação
realizada no mundo físico por um observador”. Para Stevens (1946), medida é “o ato de assinalar
números a objetos ou eventos de acordo com regras”. Torgerson (1958) e Lord & Novick (1968)
aprimoraram a definição fornecida por Stevens (1946) observando que as medidas devem ser
aplicadas às propriedades dos objetos, ao invés dos objetos em si. Nos exemplos acima, as
medidas definidas na etapa três referiam-se às propriedades (características) definidas na etapa
anterior, ou seja, não era o sujeito o objeto da média, mas a sua altura e a sua proficiência.
Há que se distinguir entre uma medida física e uma medida social ou comportamental. No
primeiro caso, o objeto a ser investigado pode ser medido infinitas vezes obtendo-se resultados
congruentes, enquanto no segundo, fatores externos influenciam o resultado da medida tornando-
a mais ou menos fidedigna em função da sua consistência. Nos exemplos acima, a altura de um
3
sujeito pode ser medida tantas vezes quanto se queira chegando-se a um resultado único. No
segundo exemplo muito provavelmente chegaremos a resultados diferentes na medida em que
mudamos as questões do instrumento de avaliação, o que nos levará a mensurações diferentes do
nível de proficiência de cada unidade observável.
Finalmente, em geral uma medida física pode ser diretamente observada (altura, peso,
distância, etc.), enquanto uma medida em ciências sociais é fruto de uma construção (composição)
de conceitos latentes (não observacionais), feita através de fatores (ou indicadores) diretamente
observáveis. Por exemplo, a altura de um sujeito é imediatamente conhecida terminado o processo
de mensuração, enquanto a verdadeira proficiência matemática de um sujeito é estimada através
de um índice construído em função dos resultados observados do sujeito em cada questão do
exame (certo/errado).
Conseqüentemente, uma medida comportamental está sempre associada a um erro de
medida, de modo que a verdadeira e desconhecida medida de um sujeito, tomada por um índice
constituído de variáveis observacionais, será a soma de dois componentes: o valor do índice
observado e um erro de medida. A este índice teórico chamamos conceito ou construção. No caso
da proficiência, cada unidade observável tem a sua própria medida de proficiência, ξ, e o que o
exame faz é tentar estimá-la, através da nota, X, obtida no exame. Esta nota, no entanto, deve ser
considerada como uma aproximação desta proficiência face ao possível erro de medida, ε,
associado à essa nota (ou você acha que a sua nota reflete sempre o seu nível de conhecimento?).
Sendo assim, podemos concluir que
.ε+=ξ X
4
1. Níveis de Mensuração
Como visto anteriormente, a associação de números a propriedade(s) de indivíduos deve
seguir alguma regra sistemática preestabelecida e representativa do fenômeno estudado. Ao
desenvolvimento de tais regras dá-se o nome de escala métrica. Conseqüentemente, medir as
propriedades de um indivíduo, ou unidade, é em última forma estabelecer seu posicionamento
relativo na escala métrica definida. Por exemplo, o nível de desenvolvimento econômico de um
país pode ser obtido através de um índice, geralmente consagrado ou preestabelecido por
agências internacionais. A distribuição dos países de acordo com tal objeto permite não apenas
comparações, mas também a ordenação para fins de classificação e transformações de seus
valores para outra escala métrica equivalente. Como outro exemplo, suponha que um teste com
dez itens, do tipo certo ou errado, seja administrado a uma grande amostra de pessoas. Caso o
interesse seja medir a proficiência das pessoas, uma possível escala métrica poderia ser definida
como o número de itens respondidos corretamente, o que levaria a escala a receber valores
inteiros entre zero e dez. Porém, como a etapa três, das regras descritas acima, não é única, a
escala métrica também não é unicamente determinada, sendo passível de transformação
matemática desde que não altere a ordenação dos indivíduos. Possíveis transformações seriam,
por exemplo, elevar a nota, expressa pelo total de pontos, ao quadrado, extrair a sua raiz
quadrada, ou ainda calcular o logaritmo da razão entre o número de itens respondidos
corretamente e o número de itens respondidos incorretamente. No primeiro caso a escala varia
entre zero e 100, no segundo entre zero e 10 , e no último caso a escala seria constituída de
valores obtidos no conjunto dos números reais (entre -∞ e +∞).
Uma escala fica perfeitamente determinada quando fixamos uma origem e uma unidade.
Na matemática, geralmente a origem é fixada em zero por uma questão de conveniência. Da
mesma forma a unidade é geralmente unitária. Na estatística, também por questão de
conveniência, a origem de uma escala pode ser centrada na média e a unidade estabelecida como
desvio em relação à media.
A classificação das escalas métricas não é única. Diferentes autores classificam os
fenômenos de modo diferente. Stevens (1946) define quatro níveis de mensuração: nominal,
ordinal, intervalar e de razão. Torgerson (1958) não considera as variáveis nominais como
mensuração pela ausência de uma origem e unidade, mas distingue dois níveis ordinais. Coombs
(1950), por sua vez, define um nível de mensuração intermediário entre o ordinal e o intervalar.
Neste ponto, o aluno é encorajado a ler as citações acima e criar a sua opinião própria a respeito
da taxonomia que melhor lhe convier. No entanto, para efeitos deste curso, será adotada a
classificação proposta por Stevens, embora se reconheça que algumas limitações existam.
5
Variáveis nominais e ordinais são também conhecidas como qualitativas enquanto as variáveis
intervalares e de razão são denominadas de quantitativas, ou de escala.
1.1 Escala Nominal
A escala de medidas com o nível mais baixo de mensuração é obtida quando as variáveis
são utilizadas simplesmente para classificar os sujeitos (objetos). Nesse caso os “valores”
assumidos pela variável são meramente rótulos, isto é, os números associados às diferentes
categorias mutuamente exclusivas e exaustivas assumidas pela variável não possuem qualquer tipo
de tratamento matemático. Qualquer conjunto de números pode ser utilizado para substituir os
“valores” originais, desde que se mantenha a relação unívoca entre os valores originais e os
substitutos. A tal transformação chamamos transformação isomórfica. Por exemplo, suponha que
a cada pessoa do gênero masculino se associe o número 1 e caso a pessoa seja do gênero
feminino se associe o número 0. O conjunto original {0,1} pode ser transformado para o conjunto
{-1,10}, sem qualquer perda de sentido na informação, já que esses algarismos funcionam como
rótulos das respectivas categorias.
Na escala nominal de mensuração, não existe uma medida no sentido que vem sendo
adotado até o presente. Por isso Torgerson (1958) não a considera como nível de mensuração.
Não há nesse nível de mensuração qualquer propriedade relativa à ordenação dos “valores”, nem
origem, bem como não faz sentido se tentar definir qualquer unidade de distância entre as
possíveis categorias da variável.
Nas ciências sociais, no entanto, esse tipo de unidade de mensuração é muito utilizado,
principalmente para “medir” itens que denotam atributos individuais, tais como estado civil,
naturalidade, tipo de formação universitária, nacionalidade, etc. Pela natureza e limitações
impostas por este nível de mensuração, as estatísticas descritivas aplicáveis às variáveis nominais
são restritas àquelas que se baseiam nas freqüências das observações como, por exemplo,
proporção e moda. Às variáveis definidas nesse nível de mensuração dá-se o nome de variáveis
categóricas (ou categorizadas).
Considere, como exemplo, a variável Estado Civil e suponha que uma amostra de 500
unidades apresentou a seguinte distribuição de freqüência nas cinco classes consideradas.
Tabela 1 – Distribuição das unidades amostrais por classe de Estado Civil
Classes Freq. Perc. (%)
SOLTEIRO 125 25,0
CASADO 175 35,0
DIVORCIADO 50 10,0
VIÚVO 75 15,0
OUTRO 75 15,0
6
TOTAL 500 1,00
1.2 Escala Ordinal
Caso as categorias de uma variável nominal possam ser ordenadas, isto é, permitam uma
relação do tipo maior do que (>) ou menor do que (<) entre pares de possíveis categorias
mutuamente exclusivas e além disso cada categoria seja associada a um e apenas um número do
conjunto dos números reais, então o nível de mensuração ordinal é obtido.
Qualquer conjunto numérico pode ser utilizado para substituir o conjunto original de
valores associados a cada categoria, desde que a ordem original das categorias seja mantida. A
tal transformação chamamos transformação monotônica. A hierarquia do exército é um bom
exemplo de uma variável com nível ordinal de mensuração. Considere apenas as categorias
Soldado, Cabo e Sargento. Note que, em termos de patente, Soldado < Cabo < Sargento. Embora
Cabo seja uma patente menor do que a de Sargento e maior do que Soldado, não se pode afirmar
que Cabo esteja mais próximo de Soldado do que de Sargento. Em outras palavras, não se pode
medir distâncias entre as categorias de uma escala ordinal. Uma condição necessária para que esta
escala seja ordinal é que, se a < b e b < c, então a < c.
Como no nível de mensuração nominal, esta escala não possui origem nem unidade. Além
disso, a ordenação dos indivíduos só pode ser feita através de uma variável apenas. Não é possível
a ordenação das unidades de acordo com duas ou mais variáveis simultaneamente. Ordenamos os
indivíduos, por exemplo, pelo grau de satisfação com um certo produto, porém jamais podemos
ordená-los pela satisfação com dois produtos simultaneamente.
Considere uma amostra de 200 freqüentadores de um restaurante classificados pelo nível
de instrução mais elevado, conforme apresentada na tabela abaixo:
Tabela 2 – Distribuição dos Freqüentadores do Restaurante, Classificados pelo Nível de Instrução mais Elevado
NÍVEL Freq Perc. (%)
Freqüência Acumulada
Percentagem Acumulada (%)
Sem Formação 4 2 4 2Fundamental 18 9 22 11Médio 42 21 64 32Superior 86 43 150 75Pós Graduação 50 25 200 100Total (n) 200 100 -- --
Cada categoria, ou classe de nível instrução completa, obteve na amostra os quantitativos
apresentados na coluna das freqüências, sendo que o percentual de cada classe é mostrado na
coluna 3. Como a variável tem nível de mensuração ordinal, faz sentido calcular a freqüência
acumulada até cada uma das classes. São apresentadas as freqüências acumuladas absolutas e
relativas nas colunas 4 e 5, respectivamente.
7
1.3 Escala Intervalar
Quando os fenômenos são representados por variáveis que assumem valores num
contínuo, como o conjunto dos números racionais, dizemos que essas variáveis são quantitativas e
a descrição dos dados se torna mais informativa. Uma possível classificação para essas variáveis
pode ser feita em função do tipo de valores que a elas podem assumir: discretas, caso assumam
valores específicos, pontuais; ou contínuas, caso assumam valores em intervalos.
Independentemente do tipo da variável, discreta ou contínua, quando a origem da sua escala não
é fixa, e o valor nulo não representa a ausência do atributo sendo medido, dizemos que a variável
quantitativa tem escala intervalar de valores. Esta escala incorpora todas as propriedades das
escalas ordinal e nominal e além disso, ela especifica uma correspondência 1-1 entre os elementos
do domínio observáel e o conjunto dos números reais, permitindo assim que a distância entre as
observações tenha significado lógico.
Nessa escala, como a origem (zero) e a unidade de medida são indeterminadas, podemos
proceder a uma mudança da escala, isto é, mudar a origem e a unidade, através de uma
transformação linear do tipo Y = aX + b cujos valores de a e de b são conhecidos. Por exemplo,
considere as escalas de mensuração de temperaturas Fahrenheit (F) e Centígrados (C). A
transformação da primeira para a segunda escala é feita através da relação
9160F5C −
= ,
onde C e F representam as medidas em suas respectivas escalas. Nessa transformação a=5/9 e
b=-160/9.
Note que uma temperatura de 0o C não representa ausência de calor, ou seja, nessa
escala não existe um zero absoluto (ou zero natural). Ademais, o valor zero na escala Centígrado
tem como valor correspondente a medida 32 na escala Fahrenheit, e se somarmos 32 a qualquer
medida na escala Fahrenheit, obviamente o resultado NÃO será a própria medida. Logo o valor
zero NÃO pode ser considerado uma medida fixa. Escolhemos o ponto de congelamento da água
nas condições normais de temperatura e pressão como origem, assim como poderíamos ter
escolhido o ponto de ebulição, sem qualquer perda de informação ou prejuízo nas análises.
No campo das ciências físicas, pesquisadores investigaram a temperatura que denotasse a
ausência total de calor e encontraram o valor de -273,16o C. Uma transformação desta medida
ficou sendo então a origem, ou o valor nulo, da escala Kevin de temperatura.
A falta de uma unidade unitária de medida não nos permite estabelecer relações de
proporcionalidade entre as observações. Por exemplo, suponha que três alunos tenham obtido,
através de um teste, suas medidas indicadoras de inteligência (QI): 150, 125 e 75. Se for verdade
8
que o segundo aluno tem sua medida de inteligência mais próxima da do primeiro aluno do que da
medida do terceiro, não é verdade que o primeiro seja duas vezes mais inteligente do que o
terceiro.
Qualquer estatística descritiva pode ser aplicada a variáveis expressas por esse nível de
mensuração: medidas de posição (médias, separatrizes e moda); de variação (absolutas e
relativas); e de forma.
1.4 Escala de Razão
Esta escala representa o nível mais rico de mensuração que se pode obter na busca do
conhecimento de um objeto. Além de incorporar todas as propriedades da escala intervalar, esta
escala ainda permite que se estabeleçam relações de razão e proporção entre os valores
observados de suas variáveis. Isso é possível pela existência de uma origem fixa, ou zero absoluto
(natural) e pela existência de uma unidade unitária de medida. A denominação dessa escala
resulta do fato que, uma vez fixada sua origem, qualquer medida na escala pode ser expressa
através de uma razão.
A única transformação válida e admissível para esta escala é a transformação de razão do
tipo Y = cX, onde o coeficiente c é conhecido e denominado coeficiente de proporcionalidade entre
X e Y.
Grande parte das medidas físicas (comprimento, peso, etc.), e demográficas (idade, taxas
de crescimento, natalidade, mortalidade, etc.), são representadas através de variáveis com níveis
de mensuração expressos na escala de razão. Por exemplo, a escala de comprimento expressa em
centímetros (cm), é uma escala de razão. Uma medida igual a 0 cm significa a total inexistência do
objeto. Além disso, um objeto com 6 cm é duas vezes maior do que um com 3 cm. Uma medida
em polegadas pode ser obtida através da transformação da mesma medida em centímetros
usando a relação Y = 2,54 X, onde Y é a medida expressa em polegadas, X em centímetros e 2,54
é o coeficiente de proporcionalidade entre as duas medidas. Note que quando uma delas é nula a
outra também será, fixando a origem comum para as suas escalas e variando apenas a unidade de
medida. As estatísticas descritivas para esta escala são as mesmas aplicadas à escala intervalar.
Concluímos, então que a diferença entre as variáveis intervalares e de razão é,
basicamente, a existência, ou não, de uma origem fixa, ou zero absoluto. Essa diferença é
justificável apenas nos procedimentos de mudança de escalas, na utilização da transformação mais
apropriada.
Finalmente, notamos que uma variável quantitativa pode ser transformada numa
qualitativa, mas o reverso não é verdadeiro. Por exemplo, podemos transformar a variável salário,
numa outra, ordinal, tipo faixa salarial. Na primeira, as unidades respondem o valor do seu salário,
enquanto na segunda respondem a faixa de salário estabelecida no questionário. Nessa
9
transformação diminuímos as possibilidades de aplicação dos instrumentos de análise estatística,
por passarmos para um nível de mensuração inferior. Essas técnicas são apresentadas na seção
seguinte.
10
2. Descrevendo Dados Qualitativos
Dados qualitativos são aqueles expressos pelos níveis de mensuração nominal e ordinal.
Posto de outra forma, são aqueles na qual a variável assume “valores” em categorias, classes ou
rótulos. São, portanto, por natureza, dados não numéricos. Apesar de ser considerada de baixo
nível de mensuração, do ponto de vista da aplicação de instrumental estatístico, a variável
qualitativa oferece um vasto espectro de aplicação nas ciências sociais e do comportamento.
Variáveis qualitativas denotam características individuais das unidades sob análise, tais como sexo,
estado civil, naturalidade, raça, grau de instrução, dentre outras, permitindo estratificar as
unidades para serem analisadas de acordo com outras variáveis. Esta segmentação permite que as
generalizações fiquem restritas aos níveis da variável qualitativa. Por exemplo: faixa salarial por
sexo; renda por nível de instrução; instrução por raça; etc.
De acordo com Motta (1999), os dados qualitativos são, geralmente, obtidos através de
pesquisas conhecidas na literatura como “pesquisas qualitativas”. São meios não muito
estruturados tais como: grupo focal; incidente crítico; entrevista em profundidade; dentre outros.
A sistematização dos dados em tabelas de freqüências nem sempre é uma tarefa simples e requer
um profundo conhecimento do objeto de análise.
Obtidos os dados, a tarefa seguinte é representá-los através de uma tabela e de um
gráfico. Posteriormente, poderá ser útil calcular as freqüências, simples ou acumuladas, absolutas
ou relativas. O exemplo a seguir oferece uma orientação de como proceder a uma análise de um
fenômeno qualitativo.
Exemplo: Um grupo industrial está avaliando a possibilidade de oferecer um plano de incentivo a vendas. Quatro programas alternativos foram definidos e propostos a uma amostra de 40 vendedores que manifestaram a sua preferência. O quadro abaixo sumariza as respostas obtidas:
B A D C A C D B D BD D B A D B D A D CD B C D A D B D B CB A D B A B A C D B
Notamos que os dados são classificados como qualitativos, uma vez que a variável considerada, Plano de Incentivo, é expressa através de quatro categorias: A; B; C; e D. Cada elemento da amostra manifestou a sua preferência escolhendo a categoria que melhor se ajustava aos seus interesses. Não há números envolvidos. O nível de mensuração dessa variável é nominal. A classificação dos diferentes planos não altera o sentido da distribuição.
O primeiro passo para analisar a distribuição acima é organizar os dados de acordo com
uma tabela de freqüências. Observamos que 8 vendedores elegeram o plano A, 12 o B, 6 o C e os
restantes 14 vendedores escolheram o plano D, o mais votado. A tabela representativa da
distribuição de freqüência é fornecida abaixo:
11
Tabela 3 – Distribuição de Freqüência da Preferência dos Vendedores pelos Planos de Incentivo
PLANO Votos PercentualA 8 20B 12 30C 6 15D 14 35
TOTAL 40 100
A primeira coluna da tabela apresenta cada uma das categorias dos planos avaliados. A
segunda coluna apresenta as freqüências de votos para cada plano e a terceira a freqüência
relativa, ou percentagem, de votos de cada plano. Como variáveis qualitativas somente são
analisadas à luz de suas freqüências, podemos dizer que o plano mais votado foi o D,
representando 35% do total de votos, ficando o C com menor número de votos, representando
apenas 15% do total da amostra.
O próximo passo é representar os dados obtidos segundo uma forma gráfica. Dados
qualitativos são, geralmente, expressos através de gráficos de barras ou gráficos de setores (ou de
pizza). Ambas as formas podem ser expressas pelas freqüências absolutas ou relativas. Abaixo são
apresentados os dois tipos de gráficos.
Fig. 1 – Gráfico de Barras Fig. 2 – Gráfico de Setores
Plano
DCBA
Cou
nt
16
14
12
10
8
6
4
2
0
35,0%
15,0%
30,0%
20,0%
D
C
B
A
O gráfico de setores é uma representação pictórica de grande efeito visual. Enfatiza,
principalmente, as diferenças das freqüências relativas entre as categorias da variável. A obtenção
dos graus representativos dos setores basta proceder a uma regra de três simples. Como o círculo
tem 360 graus, representando 100% das observações, o percentual de cada setor vai equivaler ao
grau do respectivo setor.
Quando a variável qualitativa é expressa por uma variável com nível de mensuração
ordinal, pode ser de interesse avaliar as freqüências acumuladas, tanto absolutas quanto relativas.
12
Considere o exemplo dos freqüentadores de um restaurante apresentado na página 7.
Tabela 2 – Distribuição dos Freqüentadores do Restaurante, Classificados pelo Nível de Instrução mais Elevado
NÍVEL Freq Perc. (%)
Freqüência Acumulada
Percentagem Acumulada (%)
Sem Formação 4 2 4 2Fundamental 18 9 22 11Médio 42 21 64 32Superior 86 43 150 75Pós Graduação 50 25 200 100Total (n) 200 100 -- --
Com base nos dados da Tabela 2, foram elaborados os gráficos de barras abaixo:
Fig. 3 – Freqüência Absoluta do Nível de Fig. 4 – Distribuição Percentual do Nível de Escolaridade dos Freqüentadores Escolaridade dos Freqüentadores
Nível de Escolaridade
PósGradSuperiorMédioFundamS/ Form
Fre
quên
cia
Abs
olut
a
100
80
60
40
20
0
Nível de Escolaridade
PósGradSuperiorMédioFundamS/ Form
Per
cent
agem
(%
)
50
40
30
20
10
0
Fig. 5 – Freqüência Acumulada do Nível de Fig. 6 – Percentagem Acumulada do Nível Escolaridade dos Freqüentadores de Escolaridade dos Freqüentadores
Nív el de Escolaridade
PósGradSuperior
MédioFundam
S/ Form
Fre
quên
cia
Acu
mul
ada
200
150
100
50
0
Nív el de Escolaridade
PósGradSuperior
MédioFundam
S/ Form
Per
cent
agem
Acu
mul
ada
(%)
100
75
50
25
0
13
Notamos que as figuras 3 e 4 e as figuras 5 e 6 têm a mesma configuração. As
primeiras representam as freqüências absolutas e relativas (percentuais), respectivamente,
enquanto as últimas fornecem as freqüências acumuladas, também absolutas e relativas,
do mesmo fenômeno. Uma possível interpretação da figura 5 pode ser que “150
freqüentadores da amostra possuem nível de escolaridade até o curso superior completo”
ou, utilizando a figura 6, essa mesma conclusão pode ser feita como “75% dos
freqüentadores da amostra possuem nível de escolaridade até o curso superior completo”.
As freqüências nesse exemplo foram acumuladas de modo crescente. Há casos, no
entanto, que a acumulação das freqüências é feita de modo decrescente, levando a
conclusões do tipo: “68% dos freqüentadores da amostra possuem pelo menos
escolaridade superior”. (Avalie a veracidade dessa afirmação)
14
3. Descrevendo Dados Quantitativos
Dados quantitativos são aqueles expressos pelas variáveis com níveis de mensuração
intervalar ou de razão. Ou seja, são aqueles nas quais as variáveis assumem valores numa escala
métrica definida por uma origem e uma unidade. Como esses valores têm significado concreto:
• todas as operações matemáticas envolvendo os valores da distribuição fazem sentido;
• as medidas de posição, variação e forma permitem a simplificação de todos os valores da
distribuição para alguns poucos parâmetros;
• as representações tabulares servem apenas para efeito de simplificação visual da
distribuição;
• as representações gráficas são mais informativas.
3.1 Representação Tabular
Quando o número de observações cresce e os valores são diferenciados entre si, há que se
representá-los de modo resumido. Para dados quantitativos a melhor forma de representação
tabular é através de distribuições de freqüência por classes de valores.
Não há um modo único para se construir uma tabela de freqüência por classe de valores. No
entanto, algumas regras são apresentadas abaixo, visando facilitar esse procedimento.
(3) A escolha do número de classes a ser considerado depende do número de
observações, do menor e do maior valor da série. Embora subjetiva, essa escolha
deve recair para algo entre cinco e dez classes, devendo se evitar classes com baixo
número de observações;
(4) As classes não precisam ter amplitude constante, mas por uma questão de
simplificação da construção da representação gráfica, geralmente consideramos
classes com intervalos constantes. O cálculo da amplitude dos intervalos das classes
pode ser feito dividindo-se a amplitude da distribuição (diferença entre o maior e o
menor valor da série) pelo número de classes;
(5) Como as classes devem ser exaustivas (não pode haver uma observação sem
classe), e mutuamente exclusivas (uma observação tem que ser alocada em uma e
apenas uma classe), é importante decidir os limites das classes que serão incluídas
ou excluídas.
Como pode-se notar, esse procedimento deve ser feito apenas para efeito de representação
dos dados. O cálculo das medidas estatísticas deve ser feito utilizando-se os dados observados.
Quando estes não são disponíveis e apenas a tabela é fornecida, as medidas estatísticas são
calculadas assumindo-se que as freqüências das classes são concentradas no ponto médio de cada
classe. As medidas, nesse caso, são valores aproximados.15
Exemplo: Uma amostra de 40 pessoas selecionadas de uma população forneceu a seguinte distribuição de pesos, em quilogramas:
71 74 65 72 64 41 62 62 58 82 49 83 58 65 68 60 76 86 74 53 78 64 55 89 56 50 71 58 57 75 58 86 64 56 45 73 54 85 70 73
Se estabelecermos cinco classes de pesos, o intervalo de cada classe será igual a:
106,95
4189h ≈=−= .
A tabela contendo a distribuição de freqüência por classe de valores será da forma:
Tabela 4 – Distribuição de Freqüência dos Pesos da Amostra
Classes dePeso (kg) Freqüência
40 –| 50 450 –| 60 1160 –| 70 970 –| 80 1080 –| 90 6
TOTAL 40
De acordo com a notação utilizada, as classes incluem o limite superior, mas não incluem o limite inferior de cada classe.
3.2 Medidas Estatísticas
O conhecimento de uma população ou de uma amostra é, por extensão, o conhecimento dos
parâmetros, ou medidas estatísticas, associados a essa população ou amostra. Assim, a
representação, ou caracterização, de uma série de dados quantitativos através de uns poucos
parâmetros permite um conhecimento razoável desses dados. Geralmente são utilizados três tipos
de medidas estatísticas:
• medidas de posição: média; separatrizes; ou moda. Posicionam a distribuição no eixo da
escala da variável estudada;
• medidas de variação: amplitude; desvio médio; desvio padrão e coeficiente de variação.
Informam o grau de homogeneidade da distribuição;
• medida de forma: assimetria Verifica a adequação de outros parâmetros.
Há que se fazer uma distinção entre a notação utilizada para as medidas estatísticas relativas
a uma população e uma amostra. Por convenção, parâmetros populacionais são representados por
16
letras gregas enquanto os parâmetros estimados de uma amostra são representados por letras
latinas. Assim, a média de uma população, é representada por µ, e a de uma amostra por X .
3.2.1 Medidas de Posição (Tendência Central)
Representar os valores de uma série de observações a respeito de uma variável não é uma
tarefa das mais simples. O maior problema prático é decorrente da aplicação do parâmetro certo
para a distribuição inadequada. Por exemplo, a renda per capta de um país mede a riqueza
produzida pelo país, num período, dividida pelo número de habitantes dessa população nesse
período, fornecendo uma idéia da riqueza média dessa população. No entanto, o grau de
concentração dessa riqueza não é informado, podendo se ter uma idéia errada da riqueza
individual para os países com elevada concentração dessa renda.
O objetivo das medidas de posição é o de fixar a distribuição dos valores no eixo da variável
em termos do seu valor central, posicional e de maior freqüência.
Abaixo são apresentadas as três principais medidas de posição, com suas aplicações,
vantagens e desvantagens.
3.2.1.1 Média Aritmética
Uma das medidas estatísticas mais utilizadas na representação de uma distribuição de dados
é a média aritmética, na sua forma simples, ou ponderada. No primeiro caso divide-se a soma de
todos os valores da série pelo número de observações, enquanto no segundo, mais utilizado em
distribuições de freqüências, os valores são ponderados pelas freqüências com que ocorrem e
depois divide-se pelo total das freqüências. Ou seja:
N
XN
1ii∑
==µpara dados populacionais, e
n
XX
n
1ii∑
==para dados amostrais.
A média representa o centro da distribuição de valores e é expressa na mesma unidade das
observações (R$, cm, etc...). Pela sua simplicidade e facilidade de cálculo e de interpretação, a
média é a medida estatística mais utilizada para representar uma distribuição de valores. Muitas
vezes, no entanto, sua utilização é precária, senão vejamos.
A principal vantagem da média é a facilidade de seu cálculo, tanto para grupos quanto para
subgrupos, ou estratos. Como a média é influenciada por valores extremos da distribuição, ela só
17
deve ser utilizada em distribuições simétricas, ou levemente assimétricas, e em distribuições não
heterogêneas. Sua aplicação nos dois casos acima é precária e de pouca utilidade prática, pois
perde sentido prático e capacidade de representar a distribuição que a originou.
Também nos casos de séries em que o fenômeno tem uma evolução não linear, como as
séries de valores financeiros no tempo, de acordo com uma capitalização composta, a média mais
recomendada seria a geométrica. Finalmente, não se recomenda a aplicação da média aritmética
nas séries cujos valores representem relações recíprocas, como por exemplo velocidades,
expressas através da relação entre o espaço e o tempo. Nesse último caso recomenda-se a
utilização da média harmônica.
3.2.1.2 Mediana
O que fazer quando a média aritmética não puder ser utilizada face ao alto grau de
heterogeneidade da distribuição, ou por sua assimetria? Pense nas taxas de retorno de portfolios
diferentes, ou dos valores obtidos em uma pesquisa de salários para um particular cargo. Ainda
assim podemos representar uma distribuição através de uma medida menos sensível a valores
extremos. É o caso da mediana, medida que divide a distribuição de valores em duas partes iguais:
50% acima e 50% abaixo do seu valor. Como a média, a mediana é expressa na mesma unidade
das observações (R$, cm, etc...). Ao contrário da média, no entanto, o seu tratamento algébrico
não é tão amigável. Como definida, essa medida não é influenciada pelos valores observados, mas
pela freqüência com que ocorrem na série.
Ordenada a série dos valores, crescente ou decrescentemente, determina-se a posição da
mediana dividindo-se o número de observações por 2. O valor mediano será aquele relativo à
posição encontrada. Caso a série tenha número par de observações, a mediana será a média dos 2
termos centrais.
3.2.1.3 Moda
É o valor, ou classe de valores, de maior freqüência na série de valores. Sua importância é
ressaltar o valor, ou classe, dominante da distribuição. Como é função da freqüência, sua aplicação
não depende do nível de mensuração da variável, sendo aplicada tanto a fenômenos qualitativos
quanto quantitativos.
Uma distribuição pode ser amodal, quando não existir um valor dominante, ou bimodal,
trimodal etc, na medida em que a distribuição apresente duas, três e etc modas.
Não há cálculo envolvido na determinação da moda, porém sua aplicação é mais restrita do
que os parâmetros anteriores. Como a mediana, seu valor não é influenciado pela existência de
valores extremos na distribuição.
18
3.2.1.4 Exemplos de Aplicação
Considere a distribuição das idades apresentada no item 3.1.
• A média da amostra é dada por:
.6040
7365747140
40
1 =++++==∑
= iiX
X
• Ordenando os valores de modo crescente, e considerando que a série tem número par de
observações, a mediana será a média dos termos centrais (20o. e 21o.), ou seja:
Md = .5,642
6564 =+
• A idade de maior freqüência, ou modal, é 58 anos. Quatro pessoas na amostra têm essa
idade (Mo = 58), o que faz dela o valor dominante da série.
Os valores das medidas estatísticas permitem antecipar a forma da distribuição, do ponto de
vista da sua assimetria. De um modo geral, quando X > Md > Mo , dizemos que a distribuição é
assimétrica à direita (ou positivamente assimétrica). Quando X < Md < Mo , a distribuição é dita
assimétrica à esquerda (ou negativamente assimétrica).
3.2.2 Medidas de Variação
As medidas de posição se propõem a representar uma distribuição de valores, como já
mencionado. Permitem, também, a comparação de distribuições do mesmo fenômeno em locais ou
períodos diferentes como, por exemplo, a comparação entre as expectativas de vida das
populações dos países nos cinco continentes. Além disso, a média aritmética é uma medida de
representação quando a distribuição for simétrica e não heterogênea. Mas o que entendemos por
distribuição heterogênea? Quando uma distribuição é dita heterogênea? Essas e outras questões
são respondidas à luz das medidas de variação.
As medidas de variação constituem importante instrumento para avaliar: a amplitude com
que as observações variam; e como os valores estão distribuídos em torno de algum valor-critério.
Podem ser de caráter absoluto ou relativo (percentual), como apresentadas a seguir.
19
3.2.2.1 Medidas Absolutas de Variação
As medidas absolutas de variação são expressas na mesma unidade da variável, ou alguma
função dela. As principais são:
3.2.2.1.1 Amplitude da Distribuição
A amplitude da distribuição é a diferença entre o maior e o menor valor da distribuição:
,xXH −=
onde X é o maior e x o menor valor observado na distribuição.
Apesar de fornecer uma idéia do espectro de variação dos dados, essa medida é pobre
pois só considera dois de seus valores, deixando de informar como os demais valores estão
distribuídos. Com essa medida, podemos avaliar apenas qual extremo está influindo mais na
média, por exemplo.
3.2.2.1.2 Desvio Médio
Para suprir as deficiências da Amplitude da Distribuição é necessário se definir uma medida
de variação que não só incorpore todas as observações mas também meça como essas
observações estão dispostas em relação a um valor-critério. Estabeleceu-se como valor-critério a
média da distribuição. Como a soma dos afastamentos das observações em relação à média é nula
(a média é o valor central da distribuição), tomou-se a média dos valores absolutos dos desvios
das observações em relação à média da distribuição, ou seja:
N
XN
1ii∑
=
µ−=∆
para a população, e
n
XXDM
n
1ii∑
=
−=
para a amostra.
3.2.2.1.3 Variância
Embora o desvio médio seja um parâmetro melhor do que a Amplitude da Distribuição,
ainda não é uma medida ideal, pois não discrimina pequenos dos grandes afastamentos em
relação à média. Se para eliminar o problema dos sinais, ao invés de considerarmos os valores
absolutos elevarmos os afastamentos ao quadrado, estaremos não apenas eliminando o problema
dos sinais como também potencializando os afastamentos, enfatizando os grandes desvios em
20
relação às observações mais próximas da média. Como resultado definimos a medida de variação,
denominada variância, como:
( )
N
X2N
1ii
2∑
=
µ−=σ
para a população, e
( )1n
XXs
2n
1ii
2
−
−=
∑= para a amostra.
A razão de termos (n – 1) no denominador da variância da amostra ficará mais clara mais
à frente, quando desenvolvermos os instrumentos para a estimação de parâmetros de uma
população com base em dados amostrais.
Embora a variância represente um passo à frente em relação às medidas de variação
anteriormente apresentadas, ela padece de um problema complicado: sua unidade de medida é
expressa pela unidade de medida do fenômeno, elevada ao quadrado. Avaliar uma medida
quadrática não é uma tarefa das mais simples, certo?
3.2.2.1.4 Desvio Padrão
Para manter as mesmas propriedades da variância e restituir a unidade de medida do
fenômeno, expresso pela variável X, devemos extrair a raiz quadrada da variância. Definimos,
então a medida de dispersão dos dados em relação à média da distribuição como o Desvio Padrão:
( )
N
XN
1i
2i∑
=
µ−=σ
para a população, e
( )1
2
1
−
−=
∑=
n
XXs
n
ii para a amostra.
O único problema do desvio padrão é a dificuldade de se avaliar a sua ordem de grandeza,
ou seja, julgar se um valor do desvio padrão calculado para uma distribuição é elevado ou baixo,
face à sua natureza absoluta. A alternativa é trabalhar com medidas relativas de variação.
3.2.2.2 Medida Relativa de Variação
Medidas absolutas, via de regra, são problemáticas face à dificuldade de se estabelecer
uma base de comparação que permita concluir sobre a ordem de grandeza da medida obtida. Por
exemplo, até que ponto podemos dizer que 144 anos2 exprime uma grande variação das idades?
Como vimos, a variância é uma medida quadrática, o que torna a sua ordem de grandeza difícil de
21
ser avaliada. Tudo bem, extraímos a sua raiz quadrada. Até que ponto 12 anos pode ser
considerada uma alta dispersão das idades em torno da média? A amostra é heterogênea ou
homogênea em relação à idade média de seus membros? Por que numa distribuição uma
dispersão igual a 12 é baixa e em outra alta? Como comparar dispersões oriundas de distribuições
com médias diferentes?
Como se vê, a medida absoluta de dispersão dos dados tem limitações no tocante às
conclusões. Principalmente na comparação de grupos com médias diferentes. Como o desvio
padrão varia com a ordem de grandeza da média, comparar grupos, quanto à sua variação,
quando as respectivas médias são diferentes não pode ser feita com os desvios padrões. Surge,
então, a medida adimensional, isto é, sem unidade de medida, definida como Coeficiente de
Variação:
µσ=γ para a população, e
XsCV = para a amostra.
O coeficiente de variação mede a percentagem de dispersão dos dados em relação à média,
podendo ser expressa em termos decimais ou percentuais (multiplicando-o por 100). Dizemos que
uma distribuição é homogênea quando a variabilidade relativa, expressa pelo coeficiente de
variação, não ultrapassar a 20 ou 25%. Obviamente a distribuição não deixa de ser homogênea
para valores maiores do que 25%, mas vai perdendo grau de homogeneidade na medida em que o
coeficiente aumenta.
Exemplos de Aplicação
Considere, ainda, a distribuição das idades apresentada no item 3.1. Identificamos o valor da
idade da pessoa mais jovem, 41 anos, e o da pessoa mais “madura”, 89 anos. Com esses valores
podemos dizer que as idades das pessoas da amostra variam entre 41 e 89 anos, isto é, têm uma
AMPLITUDE de variação de 48 anos.
Calculando a média dos desvios absolutos das observações em relação à média da
distribuição, através do DESVIO MÉDIO da amostra, obtemos:
9,940
66XDM
40
1ii
=−
=∑
= anos.
O desvio padrão da amostra, expresso como a raiz quadrada da variância é igual a:
( )94,11
39
66XS
40
1i
2i
=−
=∑
= anos.
22
Note que é difícil tomarmos o desvio padrão para classificarmos a distribuição quanto ao seu
grau de homogeneidade. Como a média da amostra é igual a 66 anos, a variação relativa,
expressa pelo COEFICIENTE DE VARIAÇÃO da amostra é igual a:
18,066
94,11XSCV === , ou 18%.
Como o Coeficiente de Variação é inferior a 20%, podemos concluir que a amostra é
homogênea em relação às idades de seus elementos.
Considere, agora, dois portfolios de aplicações financeiras: um com rentabilidade média
anual de 24%, com dispersão (desvio padrão) de 6%; e outro com rentabilidade anual de 18%,
com dispersão de 5%. Embora o risco do segundo portfolio, expresso pela medida do seu desvio
padrão, seja inferior ao do primeiro portfolio, um investidor mais conservador, avesso a riscos,
deverá optar pelo primeiro portfolio na medida em que o seu coeficiente de variação, 25%, é
inferior ao do segundo portfolio, que apresenta uma variação relativa de 28%.
3.2.3 Medida de Forma (Assimetria)
Sabemos que a média é uma medida estatística de representação de uma distribuição, mas
sua utilização está sujeita a algumas características dessa distribuição. Uma dessas características
é o baixo grau de assimetria da distribuição. Para verificarmos o tipo e o grau da assimetria da
distribuição utilizamos a medida estatística adimensional denominada Coeficiente de Assimetria,
definido como:
3
N
1i
3i
N
)X(
σ
µ−=α
∑= para população, e
3
n
1i
3i
Sn
)XX(CA
∑=
−= para amostra.
Quando esse coeficiente é positivo dizemos que a distribuição tem assimetria positiva, ou à
direita, isto é, há algumas poucas observações mais elevadas à direita da média. Quando assume
valor negativo a assimetria é negativa, ou assimétrica negativa, com algumas observações à
esquerda da média. Quando o valor desse coeficiente se aproxima de zero dizemos que a
distribuição tende à simetria, o que faz com que os valores das medidas de posição se igualem.
No exemplo das idades, o COEFICIENTE DE ASSIMETRIA é igual a 0,08 (ou 8%), indicando
que a distribuição das idades na amostra pode ser considerada simétrica (ou levemente
assimétrica à direita).
23
3.2.4 Outras Medidas Descritivas
Muitas vezes torna-se necessário complementar a informação obtida de uma distribuição
com outras medidas que possam melhor descrevê-la. Podemos, também, estar diante de
problemas que exijam outros tipos de tratamento como por exemplo escolher os 10% dos alunos
mais adiantados, ou os 25% dos melhores candidatos a um cargo. A exemplo da mediana, que
separa metade da distribuição acima e metade abaixo do seu valor, podemos fazer cortes com
base em PERCENTIS, definidas como medidas separatrizes de uma distribuição. Note que, como
definida, a mediana é o percentil de ordem 50 (ou 50o percentil) em uma distribuição ordenada de
valores. Além do percentil, podemos utiliza os QUARTIS, definidos como as separatrizes que
cortam a distribuição em 25% (Q1) e 75% (Q3) dos seus valores à sua direita.
A tabela abaixo fornece um resumo das principais medidas que descrevem a distribuição das
idades das 40 pessoas que compõem a amostra fornecida no item 3.1. Foi utilizado o pacote
estatístico SPSS e os rótulos foram reeditados para melhor entendimento.
Estatisticas DescritivasIdade (anos)
Observações (n) Válidas 40 Missing 0Média 66Mediana 64,5Moda 58Desvio Padrão 11,94Variância 142,46Coef de Assimetria 0,086Amplitude 48Mínimo 41Máximo 89Percentil 10 50,30 25 57,25 50 64,50 75 74,00 90 84,80
Analise as medidas acima e tire conclusões acerca da distribuição.
3.3 Representação Gráfica
As variáveis quantitativas, ao contrário das qualitativas, devido ao fato de possuírem uma
escala com origem (fixa ou não) e unidade, permite representação gráfica com maior grau de
informação sobre a distribuição de seus valores.
A definição da melhor forma de representar a distribuição de uma variável quantitativa
depende do tipo da série estudada (temporal, geográfica ou especificativa). Séries temporais são
representadas por gráficos de linha que permitem a visualização da tendência do fenômeno no
tempo. Séries geográficas são representadas por barras ou blocos que permitem identificar as
24
localizações onde o fenômeno estudado atua com mais intensidade. As demais distribuições podem
ser representadas através de dois tipos principais de gráficos: histogramas e Box Plots.
3.3.1 Histograma
Histograma é um gráfico de barras justapostas contendo as classes de valores na abscissa e
as freqüências, absolutas ou relativas, nas ordenadas, centradas nos pontos médios das classes.
Quando os intervalos de classes da variável não são constantes, a área da barra deve ser
proporcional à freqüência da classe. Nesse caso devemos dividir a freqüência de cada classe pela
amplitude da respectiva classe.
Considere o histograma construído para os dados das idades do exemplo do item 3.1. Note
que pela linha unindo as barras do histograma, também denominada poligonal característica, a
distribuição, embora não simétrica, guarda uma moderada simetria em relação aos valores
centrais. A linha poligonal característica desempenha um papel importante na identificação da
simetria dos dados. No exemplo notamos que ela mostra uma forma levemente assimétrica como
as medidas descritivas já haviam antecipado.
Idade (anos)
9085807570656055504540
Freq
uenc
y
8
6
4
2
0
3.3.2 Box Plot
O diagrama Box Plot é a forma de representar graficamente os dados da distribuição de uma
variável quantitativa em função de seus parâmetros descritivos. O gráfico abaixo representa o Box
Plot para os dados das idades da amostra do item 3.1. Na sua construção são considerados os
quartis e os limites da distribuição, permitindo uma visualização do posicionamento da distribuição
na escala da variável. Para melhor compreensão deste gráfico, note que:
25
dq
• A escala de medida da variável encontra-se na linha vertical do quadro onde está inserido
o gráfico;
• Na caixa retangular vertical do gráfico são fornecidos os quartis Q1, na parte inferior, e Q2
na parte superior da caixa. Entre eles encontra-se a Mediana da distribuição. Alguns Box
Plots apresentam, ainda, a média dentro da caixa. Observe que 50% da distribuição têm
valores dentro da caixa;
• As linhas verticais que saem da caixa terminam nos limites inferior e superior da
distribuição. Entre esses limites encontram-se os valores considerados como típicos da
distribuição. Esses limites são determinados em função da distância entre os dois quartis,
isto é, do desvio interquartílico:
dq = Q2 – Q1.
Observações com afastamento superior a 1,5 desvio interquartílico, para cima ou para
baixo, são consideradas atípicas, aparecendo no gráfico com asteriscos.
• Quanto maior for o valor do desvio interquartílico, maior a variabilidade da distribuição;
• Quanto mais próxima a caixa estiver de um dos extremos, maior a evidência sobre a
assimetria da distribuição;
Os Box Plots são de grande utilidade, também, quando uma variável quantitativa é
analisada à luz das categorias de uma variável qualitativa, como por exemplo, a distribuição de
salários para cada categoria da variável formação educacional, esta medida pelo último nível de
instrução completo das unidades observacionais (s/ formação, nível fundamental, nível médio,
nível superior e pós-graduação).
Idade (anos)
100
90
80
70
60
50
40
30
26
1,5dq
1,5dq
4. Transformações de Variáveis
Antes de qualquer análise é fundamental que se proceda a um exame dos dados relativos
a uma variável, seja ela qualitativa ou quantitativa. Este procedimento é importante como um
primeiro contato do analista com a distribuição, além de servir, também, para avaliar a existência
de possíveis valores atípicos na distribuição. Se a variável for do tipo qualitativa, a concentração de
respostas em torno de umas poucas categorias, a existência de células esparsas, com baixa
freqüência, ou até mesmo o aparecimento de respostas não esperadas, pode indicar algum
problema no levantamento dos dados (questão mal formulada ou resposta inválida). No caso da
variável ser quantitativa, valores muito afastados da distribuição, ou até mesmo distribuições com
assimetria acentuada pode indicar a existência de outliers ou a necessidade de se proceder a uma
transformação na escala da variável.
Como já se sabe, uma escala de valores fica perfeitamente caracterizada quando a origem
e a unidade de medida são conhecidas. Embora originalmente sejam atribuídos os valores zero e
um para caracterizar, respectivamente, a origem e a unidade de uma escala de valores, essa
escolha é arbitrária. Matematicamente justifica-se tal escolha pelo fato de ser o valor nulo o
separador dos números positivos e negativos e a unidade unitária pela simplicidade e
propriedades.
Não obstante, salvo nos casos de fenômenos expressos na escala de razão, onde o zero
representa a ausência do que se está medindo, atribuí-se à média e o desvio padrão como a
origem e a unidade da distribuição. Tal escolha, no entanto, só faz sentido, e é recomendada,
quando as distribuições forem levemente assimétricas e com baixa variabilidade, casos em que a
média pode representar o conjunto de valores observados.
A escolha e a mudança de escalas são artifícios úteis para melhor compreensão de
fenômenos. Suponha que o leitor se encontre nos Estados Unidos da América e necessite medir a
sua temperatura corporal. Adquire um termômetro numa farmácia e ao medir a sua temperatura
observa que a escala do instrumento é expressa em graus Fahrenheit. O que você deve fazer se
souber interpretar temperatura apenas na escala Celsius? Sem problemas. Como as escalas
Fahrenheit e Celsius são relacionadas através da expressão 9
160F5C −= , o leitor poderá fazer a
devida transformação da escala, no caso linear, para poder interpretar o resultado e avaliar o seu
possível estado febril.
Define-se, então, como transformação linear de X para Y a qualquer relação do tipo
Y = aX + b, com a e b constantes conhecidas. A seguir são apresentadas algumas das mais
importantes transformações lineares.
27
Considere as notas de uma turma de dez alunos em três exames, conforme abaixo:
ALUNOEXAME 1 2 3 4 5 6 7 8 9 10
PORTUGUÊS 36 35 45 38 40 42 44 46 34 40MATEMÁTICA 22 23 17 20 21 19 21 17 22 18CIÊNCIAS 10 11 8 9 10 10 11 9 12 10
Calculando-se a média e a dispersão de cada exame obtemos:
EXAME MÉDIA (µ) DESVIO (σ)PORTUGUÊS 40 4MATEMÁTICA 30 3CIÊNCIAS 20 2
Em primeiro lugar, note que as notas de cada exame estão expressas em escalas
diferentes. Como conseqüência, nada se pode comparar o desempenho dos alunos nos três
exames. Tampouco pode-se comparar os desempenhos entre os alunos, o que impede um
ordenamento baseado em suas performances.
4.1 Mudança da Origem
Por uma questão de conveniência, podemos proceder a uma transformação que separe os
escores observados de uma distribuição a partir do seu valor médio. Nesses casos, valores acima
da média serão positivos, enquanto aqueles que estiverem abaixo dela serão negativos. A média,
como valor central de uma distribuição, passa a ser, desse modo, a origem da nova escala dos
escores. No exemplo dos escores nos três exames, essa transformação permite a avaliação dos
alunos com respeito ao desempenho individual tendo a média como base.
Na prática, essa transformação está simplesmente movendo toda a distribuição para a
direita ou esquerda, dependendo do sinal da média, sem alterar a unidade das medidas, expressa
pela mesma unidade de medida da variável. A mudança da origem, de zero para a média é
expressa por:
xi = Xi - X para i = 1, 2, ... , n.
O valor nulo na nova escala verifica-se para os valores da distribuição, na escala primitiva,
iguais à média. O quadro abaixo apresenta os escores dos alunos (do exemplo acima) na nova
escala. Os valores nesse quadro são expressos em afastamentos, em pontos, da média.
ALUNOEXAME 1 2 3 4 5 6 7 8 9 10
PORTUGUÊS -4 -5 5 -2 0 2 4 6 -6 0MATEMÁTICA 2 3 -3 0 1 -1 1 -3 2 -2CIÊNCIAS 0 1 -2 -1 0 0 1 -1 2 0
28
A tabela acima permite separar, para cada exame, os alunos que tiveram desempenho
superior ou inferior às respectivas médias. Como afastamentos em torno da média, a soma dos
novos escores é igual a zero. As unidades não foram alteradas, o que não permite, ainda,
comparar os desempenhos entre os exames. Por exemplo, não podemos avaliar se o aluno 3 teve
um desempenho mais fraco em Matemática ou Ciências. Para isso será necessário colocar as três
distribuições numa unidade comum.
4.2 Mudança da Unidade
A transformação acima desloca as distribuições ao longo do eixo das escalas das variáveis,
centrando as distribuições num ponto comum (zero). Não obstante, essa transformação preserva
as suas unidades originais. Ao dividirmos os escores de cada distribuição pelos respectivos desvios
padrões, estamos unificando também as novas unidades das variáveis. A nova unidade de cada
distribuição fica, então, expressa em termos das unidades de desvios de cada distribuição. Desse
modo, um aluno que fez 44 pontos no exame cuja média tenha sido de 40 pontos e desvio padrão
de 4 pontos, passa a ter 1 unidade de desvio (não mais pontos) acima da média na nova escala.
A nova transformação pode ser expressa através de
σµ−= i
iXZ .
Tanto a mudança da origem como a da unidade pode ser feita separadamente, mas
quando feitas simultaneamente unifica as escalas, que passam a ser expressas como unidades de
desvio. Essa transformação leva todas as variáveis a terem média 0 e desvio padrão 1. Por isso a
transformação é denominada padronização dos escores.
Os escores padronizados para as distribuições das notas dos alunos nos três exames do
exemplo acima são apresentados abaixo.
ALUNOEXAME 1 2 3 4 5 6 7 8 9 10
PORTUGUÊS -1 -1,25 1,25 -0,5 0 0,5 1 1,5 -1,5 0MATEMÁTICA 1 1,5 -1,5 0 0,5 -0,5 0,5 -1,5 1 -1CIÊNCIAS 0 1 -2 -1 0 0 1 -1 2 0
Agora sim, podemos analisar os escores dos alunos em termos comparativos. Note, por
exemplo, que embora o aluno 3 tivesse ficado com 3 pontos abaixo da média em Matemática e 2
pontos abaixo da média em Ciências, o seu desempenho pior foi no exame de Ciências, em que
ficou 2 unidades de desvio abaixo da média, tendo sido o aluno de pior performance nessa
disciplina, dentre os dez alunos que se submeteram ao exame. Isto significa que análises
comparativas devem considerar parâmetros relativos e não absolutos. Significa, também, que só
29
podemos comparar valores quando expressos em escalas comuns como as obtidas através da
padronização dos escores.
4.3 Re-escalonamento dos Escores
Com as escalas expressas na mesma origem e unidades podemos proceder, por uma
questão de conveniência, a novas mudanças de origem e/ou unidade a fim de permitir melhor
representação dos valores. Assim, se quisermos ordenar os alunos em função dos respectivos
desempenhos, uma possibilidade seria eliminar os valores negativos e trabalhar apenas com
escores positivos. Com base na operação inversa estabelecida na padronização dos escores,
podemos fixar uma nova origem e uma nova unidade de medidas para as três distribuições, de
modo que os valores pudessem ser expressos apenas através de escores positivos.
Como sabemos, mais de 99% dos valores em uma distribuição simétrica estão localizados
entre 3 unidades de desvios em torno da média. Se estabelecermos uma nova média de, por
exemplo, 100 pontos e uma nova unidade de 20 pontos, esperamos que praticamente todos os
valores estejam localizados entre 40 e 160 pontos. Então para cada exame k, procedemos ao re-
escalonamento dos escores com base na transformação
100Z.20Y kiki += ,
onde Yki representa a escore do indivíduo i no exame k, Zki é o escore padronizado do indivíduo i
no exame k, 100 e 20 são, respectivamente, a média (origem) e desvio padrão (unidade) do novo
sistema de pontuação dos escores. Abaixo são apresentados os escores dos dez alunos após o re-
escalonamento dos escores padronizados.
ALUNOEXAME 1 2 3 4 5 6 7 8 9 10
PORTUGUÊS 80 75 125 90 100 110 120 130 70 100MATEMÁTICA 120 130 70 100 110 90 110 70 120 80CIÊNCIAS 100 120 60 80 100 100 120 80 140 100
De acordo com esse procedimento, todas as propriedades dos escores padronizados são
aplicadas e os valores re-escalonados podem ser operados aritmeticamente a fim de se estabelecer
um ordenamento final dos indivíduos.
4.4 Combinação Linear (Compósito)
Geralmente, o objetivo de uma transformação é permitir o ordenamento dos indivíduos.
Como não podemos ordenar unidades com base em mais de uma dimensão, utilizamos um
compósito dos valores nas suas diversas dimensões, transformando os dados multidimensionais
em uma distribuição unidimensional. Um processo simples para se proceder a essa transformação
é calcular a média ponderada dos escores dos indivíduos nas diversas dimensões. Assim
procedendo, preservamos a escala comum às diferentes dimensões, obtida através dos métodos
30
até agora expostos, e ordenamos os indivíduos com base na combinação resultante. As
ponderações são, em geral, ad hoc, e representam o grau de importância de cada dimensão no
resultado final. No exemplo dos três exames, podemos pensar as disciplinas Português,
Matemática e Ciências como recebendo pesos 3, 2 e 1, respectivamente. Os resultados encontram-
se no quadro abaixo:
ALUNO 1 2 3 4 5 6 7 8 9 10Escore Final 96,67 100,83 95,83 91,67 103,33 101,67 116,67 101,67 98,33 93,33Classificação 7 5 8 10 2 3,5 1 3,5 6 9
De acordo com o critério estabelecido, chegamos a um resultado que, embora não tenha
qualquer significado próprio, possibilita ordenar os indivíduos com base no desempenho em cada
exame e no grau de importância de cada exame no resultado final.
Note que os indivíduos 5 e 7 têm o mesmo escore final (101,67). Como ficaram
empatados, ocupando a terceira e quarta classificações, recomenda-se diluir o rank de ambos
atribuindo-lhes, por exemplo, a média dos ranks.
Resumindo, a presente seção levou em conta as possíveis transformações, todas lineares, que
podem ser aplicadas a uma determinada variável a fim de possibilitar um maior espectro de
possíveis aplicações, principalmente comparações e ordenações. Essas transformações consistem
no deslocamento e re-formatação da distribuição original que, quando aplicadas simultaneamente
recebem o nome de padronização, cujo objetivo principal é trazer diferentes escalas a uma escala
comum a todas as distribuições. Após o processo de padronização, as variáveis podem receber
tratamentos aritméticos tais como o re-escalonamento e cálculo de médias, consoante o objetivo
da análise a ser desenvolvida.
31