métodos estatísticos e a administração

Universidade regional do noroeste do estado do rio grande do sUl – UnijUí

vice-reitoria de gradUação – vrg

coordenadoria de edUcação a distância – cead

coleção educação a distância

série livro-texto

Ijuí, Rio Grande do Sul, Brasil2009

ruth Marilda Fricke iara denise endruweit Battisti

antonio Édson corrente

MÉtodos estatísticos e a adMinistração

2009, Editora Unijuí Rua do Comércio, 1364 98700-000 - Ijuí - RS - Brasil Fone: (0__55) 3332-0217 Fax: (0__55) 3332-0216 E-mail: [email protected] Http://www.editoraunijui.com.br

Editor: Gilmar Antonio BedinEditor-adjunto: Joel CorsoCapa: Elias Ricardo SchüsslerRevisão: Véra Fischer

Designer Educacional: Vanessa Francieli da FrotaResponsabilidade Editorial, Gráfica e Administrativa: Editora Unijuí da Universidade Regional do Noroeste do Estado do Rio Grande do Sul (Unijuí; Ijuí, RS, Brasil)

Catalogação na Publicação: Biblioteca Universitária Mario Osorio Marques – Unijuí

F897m Fricke, Ruth Marilda. Métodos estatísticos e a administração / Ruth Marilda Fricke,

Iara Denise Endruweit Battisti, Antonio Édson Corrente. – Ijuí : Ed. Unijuí, 2009. – 164 p. - (Coleção educação a distância. Série livro-texto).

ISBN 978-85-7429-840-5 1. Estatística. 2. Administração. 3. Amostragem. 4. Ban-

co de dados. 5. Excel. I. Battisti, Iara Denise Endruweit. II. Corrente, Antonio Édson. III. Título. IV. Série.

CDU : 311 311:658

Sumário

CONHECENDO OS PROFESSORES ...........................................................................................7

APRESENTAçãO ...........................................................................................................................9

UNIDADE 1 – CONCEITOS BÁSICOS ESTATÍSTICA NA ADMINISTRAçãO .....................11

Seção 1.1 – A Estatística e a Administração ...........................................................................11

1.1.1 Um Olhar na Ciência da Administração ...................................................................12

1.1.2 Um Olhar na Ciência da Estatística – Métodos Estatísticos ....................................14

1.1.3 Interligando o Potencial das Duas Ciências .............................................................15

Seção 1.2 – Ajustando a Linguagem por meio dos Conceitos Básicos da Estatística ...........16

1.2.1 Informantes .................................................................................................................17

1.2.2 Informações ................................................................................................................20

Seção 1.3 – Aplicações .............................................................................................................22

Resumo da Unidade 1 .........................................................................................................24

UNIDADE 2 – BANCO DE DADOS, TABELAS E GRÁFICOS:

Sistematização e Apresentação de Dados ..........................................................25

Seção 2.1 – Banco de Dados ...................................................................................................26

Seção 2.2 – Tabelas Simples – Univariadas e Bivariadas – Com Variáveis Qualitativas ......29

Seção 2.3 – Tabelas em Série Numérica e Distribuição de Frequências

com Variáveis Quantitativas ................................................................................36

Seção 2.4 – Representação Gráfica e sua Leitura ...................................................................45



UNIDADE 3 – MEDIDAS QUE DESCREVEM O CONJUNTO DE DADOS ...........................55

Seção 3.1 – Quadro-Resumo das Fórmulas ............................................................................56

Seção 3.2 – Medida de Tendência Central e de Variabilidade

– conceitos e operacionalização ..........................................................................58

3.2.1 Operacionalização de Medidas Descritivas em Série Numérica ............................62

3.2.2 Operacionalização de Medidas Descritivas em Distribuição de Frequências ........70



UNIDADE 4 – INTRODUçãO À AMOSTRAGEM ....................................................................87

Seção 4.1 – Padrões a Seguir no Processo Amostral ..............................................................89

4.1.1 Fatores Intervenientes ...............................................................................................89

4.1.2 Métodos de Cálculo da Amostra ...............................................................................90

Seção 4.2 – Delineamento Amostral: dimensionamento e seleção .......................................93


Resumo da Unidade 4 .......................................................................................................101

UNIDADE 5 – NOçõES DE INFERêNCIA ESTATÍSTICA ....................................................103

Seção 5.1 – Conceitos e Definições .......................................................................................104

Seção 5.2 – Estimativas e sua Projeção .................................................................................104

5.2.1 ESTIMATIVAS ........................................................................................................105

5.2.2 TESTES DE HIPÓTESES PARA GENERALIZAçãO

DE ESTATÍSTICAS AMOSTRAIS ...........................................................................106

Seção 5.3 – Aplicações ...........................................................................................................117


UNIDADE 6 – REGRESSãO LINEAR SIMPLES .....................................................................119

Seção 6.1 – Correlação Entre Variáveis ................................................................................120

Seção 6.2 – Diagrama de Dispersão ......................................................................................121

Seção 6.3 – Coeficiente de Correlação ..................................................................................122

Seção 6.4 – Coeficiente de Determinação ( 2R ) ....................................................................124

Seção 6.5 – Análise de Regressão ..........................................................................................125

Seção 6.6 – Banco de Dados ..................................................................................................127


UNIDADE 7 – FERRAMENTAS DE ANÁLISE ESTATÍSTICA NO EXCEL ...........................129

Seção 7.1 – Elaborando um Banco de Dados no Excel ........................................................131

Seção 7.2 – Utilizando as Técnicas Estatísticas para Analisar os Dados no Excel .............133

Seção 7.3 – Medidas Descritivas para as Variáveis Quantitativas ......................................134

Seção 7.4 – Tabelas Simples para as Variáveis Qualitativas

e para as Variáveis Quantitativas com Pouca Variabilidade ............................136

Seção 7.5 – Tabelas Cruzadas ................................................................................................142

Seção 7.6 – Gráficos de Setores, Colunas e Barras ..............................................................145

Seção 7.7 – Histograma e Polígono de Frequências .............................................................154

Seção 7.8 – Gráfico de Linha .................................................................................................159


REFERêNCIAS ...........................................................................................................................163

EaD

7

MÉtodos estatísticos e a adMinistraçãoConhecendo os Professores

São três os professores contribuindo para este material didá-

tico:

A doutora Ruth Marilda Fricke nasceu em Ijuí (RS) no dia 16 de

março de 1946. Foi professora estadual e é professora de Estatística

desde 1976, na Unijuí (RS) com Graduação em Pedagogia pela Unijuí

(Ijuí – RS-1977), Aperfeiçoamento em Estatística na FDRH (PoA –

RS – 1975), Especialização em Metodologia do Ensino Superior na

Unijuí (Ijuí – RS – 1978), Especialização em Estatística na UPF (Passo

Fundo – RS – 1979), Mestrado em Estatística pela Unicamp (Campi-

nas – SP– 1990), Doutorado em Educação pela Unicamp (Campinas

– SP– 1999). Vem lecionando em diversos cursos da Unijuí desde essa

época atuando como professora titular de Estatística. Sua produção

como pesquisadora centra-se em quatro campos: 1) Educação Esta-

tística e na produção de material didático para o ensino de Estatística

na Educação Básica: Fundamental e Médio; 2) Modelagem Estatís-

tica na Produção de Indicadores de Qualidade de Vida Urbana; 3)

Modelagem Estatística para o Tratamento de Variáveis Qualitativas:

Questões Abertas na Pesquisa de campo, 4) Relações entre formação

e desemprego dos trabalhadores urbanos. Neste material didático é

autora da introdução e das unidades 1 a 5.

A doutora Iara Denise Endruweit Battisti é a autora da Uni-

dade 7 deste material didático. Nasceu em 8 de outubro de 1974

no município de Ijuí (Rio Grande do Sul). Cursou Informática na

Universidade Regional do Noroeste do Estado do Rio Grande do Sul

(Unijuí) de 1992 a 1996, fez Especialização em Estatística e Mode-

lagem Quantitativa na Universidade Federal de Santa Maria (Rio

Grande do Sul) entre 1997 e 1998. De 1999 a 2001 fez Mestrado em

Estatística e Experimentação Agropecuária na Universidade Federal

de Lavras (Minas Gerais). Fez Doutorado em Epidemiologia na Uni-

versidade Federal do Rio Grande do Sul com tese sobre amostragem

complexa e modelos multiníveis entre 2004 e 2008.

Atua como professora de Estatística no magistério superior

desde agosto de 1998 na Unijuí e nos cursos de Especialização desta

universidade. É docente e pesquisadora do Mestrado em Modelagem

Matemática da Unijuí.

Antonio Édson Corrente nasceu em 16 de outubro de 1962 em

Ijuí (RS), e neste material didático é o autor da unidade 6. Possui Gra-

duação em Ciências e Matemática – Licenciatura Curta – pela Univer-

sidade Regional do Noroeste do Estado do Rio Grande do Sul (1988),

Graduação em Matemática – Habilitação Plena – pela Universidade

Regional do Noroeste do Estado do Rio Grande do Sul (1990) e Mes-

trado em Modelagem Matemática pela mesma universidade (1999).

Atualmente é professor assistente na Unijuí. Tem experiência na área

de Matemática, com ênfase em Estatística, lecionando em diferentes

cursos esta disciplina e atualmente atua nos seguintes temas: mode-

lagem estatística, comunicação comunitária, formas de codificação de

dados e elaboração de questionários e análise multivariada.

EaD

9

MÉtodos estatísticos e a adMinistraçãoApresentação

Estamos começando uma relação de conhecimento dos métodos estatísticos relacionados

com a profissão do administrador. Algumas etapas são comuns a todas as áreas, algumas são

mais específicas, no entanto ao longo de todo conhecimento vamos tentar fazer a conexão entre

essas áreas de forma que o próprio estudo gere conhecimento válido para você. Entendemos que

as aplicações técnicas são cada dia mais facilitadas em virtude dos avanços das novas tecnolo-

gias, mas visualizamos que estas só fazem sentido quando pensadas e interpretadas por nós,

seres humanos. Então este aspecto nos leva a dominar o desenvolvimento de todas as etapas e

direciona a metodologia que pretendemos empregar:

•compreensão dos conceitos;

•domínio das técnicas;

•entendimento da pertinência das aplicações;

•capacidade de utilizar a informática como ferramenta que permite a obtenção de resultados

mais ágeis, dinâmicos e corretos, potencializando o tempo da análise;

•a sistematização e avaliação dos conhecimentos adquiridos acompanhará todo o desenvolvimen-

to dos capítulos. Ademais, é proposta uma aplicação que será realizada por meio de pesquisa

de campo numa temática definida na área de Administração e tratada estatisticamente.

Procuraremos partir sempre de uma situação de estudo, real e prática, que desencadeie

a utilização da Estatística pertinente, de forma a potencializar maior compreensão do conteú-

do. Você deve acompanhar este desenvolvimento, refazer os passos que foram desenvolvidos,

realizar as atividades previstas, buscar apoio didático para suas dúvidas ou certezas, plenificar

seu conhecimento fazendo uma resenha do mesmo para que em suas próprias palavras e na sua

compreensão os conceitos trabalhados se solidifiquem.

O objetivo deste material é introduzir o educando nos conhecimentos básicos dos métodos

estatísticos que permitem a sistematização de dados e a sua projeção em pesquisas amostrais de

modo a transformá-los em informações confiáveis contribuindo para melhorar a performance do

profissional da área de Administração.

Para tal desenvolveremos:

1) noções conceituais que permitam estabelecer uma linguagem comum e conhecer a conexão

estreita entre os métodos estatísticos e a Administração;

EaDruth Marilda Fricke – iara denise endruweit Battisti – antonio Édson corrente

10

2) estatísticas descritivas que sistematizam as informações obtidas em forma de tabelas e gráficos

descrevendo os fenômenos em suas ocorrências;

3) medidas descritivas que buscam descrever o padrão dos dados sintetizando-os por meio de

números típicos e a análise do comportamento dos mesmos em relação a estes números típi-

cos.

Uma vez conhecendo o comportamento padrão dos dados e podendo descrevê-los e apre-

sentá-los, passamos a uma segunda fase do tratamento estatístico: o conhecimento dos padrões

populacionais a partir de um estudo por amostragem.

4) noções de amostragem que delimitam as restrições essenciais para obtermos uma amostra

com potencial representativo corretamente definido;

5) noções de inferência que permitem a generalização da amostra para a população, intensifi-

cando o uso de proporções;

6) relações entre variáveis quantitativas que tratam de expor o que estudos descritivos não

visualizam, ou seja, as relações que estão por trás dos fenômenos;

7) estatística no excel por que após o conhecimento detalhado dos métodos estatísticos é im-

portante que os mesmos possam ser obtidos por meio de técnicas informacionais, de modo

que as análises sejam relatadas com uma base mais confiável de resultado. Todos os métodos

estatísticos avaliados da unidade 1 a 6 serão retomados nesta unidade com o software Excel.

Ruth Marilda Fricke

EaD

11

MÉtodos estatísticos e a adMinistraçãoUnidade 1

conceitos BÁsicos estatística na adMinistração

Ruth Marilda Fricke

oBjetivo desta Unidade:

•Conhecer a relação entre a Estatística e a Administração, principalmente, dominando os con-

ceitos básicos que as inter-relacionam.

as seçÕes desta Unidade:

•Seção 1.1 – A Estatística e a Administração.

•Seção 1.2 – Ajustando a linguagem por meio dos conceitos básicos da Estatística.

•Seção 1.3 – Aplicações.

As áreas da Administração e da Estatística fazem parte do mesmo campo de estudos das

Ciências: o das Ciências Aplicadas. Muitos alocam a Estatística no campo das Ciências Exatas,

no entanto, ela é uma ciência não determinística, trata do conhecimento dos fenômenos sociais e/

ou naturais como o retrato de um momento, propiciando uma visão das tendências futuras como

um evento probabilístico, com chances conhecidas/estimadas de ocorrer, portanto não exata, que

trata dos fenômenos sociais e/ou naturais em sua evolução.

Então, a partir desta breve introdução, você consegue estabelecer a diferença entre deter-

minístico e não determinístico? Busque maiores conhecimentos para ampliar seu conhecimento

sobre este assunto.

Vejamos, a seguir, a relação existente entre a Administração e a Estatística.

seção 1.1

a estatística e a administração

Iniciamos com observações sobre cada uma das ciências para depois entender como se

estabelecem os links entre elas.


12

1.1.1 UM olHar na ciÊncia da adMinistração

As áreas preferenciais da Administração são:

•Administração financeira.

•Administração da produção.

•Administração pública.

•Administração de materiais.

•Marketing.

•Gestão de pessoas.

•Gestão sistêmica.

•Administração de sistemas de informação.

•Organização, sistemas e métodos.

•Comércio internacional.

A existência da Administração, segundo a Wikipédia, está relacionada a “normas e funções

elaboradas para disciplinar elementos de produção, que têm como objetivo alcançar um resultado

eficaz e retorno financeiro”. Pode-se afirmar, conforme a Wikipédia, que se trata do gerenciamento

dessa operacionalização mediante o conhecimento e uso de técnicas de Administração:

•Planos: Um conjunto de propostas resultantes de um processo de planejamento econômico,

urbano, regional, etc., que visam a determinado objetivo.

•Pareceres: Avaliação de conjunturas no sentido de emitir um parecer sobre o comportamento

do fenômeno analisado.

•Relatórios: Produzir um relato das ocorrências de uma etapa de trabalho.

•Projetos: Elaboração de linhas de ação e estratégias sobre uma determinada realidade para atin-

gir determinados fins. Tem um tempo finito de execução, e pretende criar um produto, serviço

ou resultado único. Segundo a Wikipédia: pode ser uma demanda de mercado, necessidade

organizacional, solicitação de um cliente, avanço tecnológico ou requisito legal. Apresentam:

objetivos, hipóteses, cronograma, orçamento, responsabilidades.

•Laudos: Relato de técnico ou especialista designado para avaliar determinada situação que

estava dentro de seus conhecimentos.

EaD

13


Segundo John Riegel:

o êxito do desenvolvimento de executivos em uma empresa é resultado, em grande parte, da atuação e

da capacidade dos seus gerentes no seu papel de educadores. Cada superior assume este papel quando

ele procura orientar e facilitar os esforços dos seus subordinados para se desenvolverem (1995).

Atualmente as principais funções administrativas são:

•Planejamento.

•Conhecimento dos problemas.

•Busca e encaminhamento de soluções.

•Definição dos recursos (humanos, financeiros e tecnológicos).

•Liderar as ações na empresa.

•Gerenciar os fenômenos organizacionais que envolvem as transações da empresa.

•Tomadas de decisão.

•Controle dos fatos e fenômenos mediante técnicas de conhecimento, mensuração, acompanha-

mento, avaliação das informações relacionadas ao negócio da empresa.

Essas perspectivas de atuação dependem efetivamente da capacidade do administrador

de encontrar as alternativas mais viáveis e potencialmente bem-sucedidas nas diferentes etapas

do processo decisório. Para tal precisa essencialmente identificar o problema e seu entorno. Isto

é, deve ser capaz de definir o que parece, e o que realmente é, contextualizado no âmbito da

ocorrência dos fatos e fenômenos, com pesquisa, levantamento e sistematização estatística dos

mesmos. Dessa forma começamos a compreender a importância dessa interação entre a Adminis-

tração e os métodos estatísticos. Estes, na sua essencialidade, subsidiam a ação do administrador/

gestor, tanto o público quanto o privado.

Os tipos de decisões envolvendo aspectos quantificáveis que são tomadas em uma orga-

nização:

•Identificação dos custos para poder valorar os produtos, incluindo a produção (matéria-prima,

equipamentos, ferramentaria, maquinaria), recursos humanos, distribuição, logística, armaze-

namento.

•Planejamento das despesas e orçamento das diferentes áreas da organização.

•Análise das margens e da rentabilidade dos produtos.

•Análise dos custos de venda.

•Planejamento do marketing (pesquisa de mercado, aceitação, satisfação do cliente).


14

Segundo Araújo (2004), entende-se como características do gestor suas funções, habilidades

e competências: planejar, organizar, liderar e controlar. O planejamento envolve a determinação no

presente do que se espera para o futuro da organização, incluindo quais as decisões que deverão

ser tomadas para que as metas e propósitos sejam alcançados. As metas organizacionais adaptam

as funções aos recursos da empresa e aos recursos humanos necessários para concretizá-los. O

gestor precisa conduzir o processo de forma a influenciar todas as pessoas a trabalharem em

torno de objetivos comuns, suscitando participação e adesão, gerenciando democraticamente o

processo. O controle integra as ações para o acompanhamento do processo em busca do sucesso

do empreendimento. Estas características dão conta de que somente a união de todos permite

atingir com sucesso os objetivos.

Vamos agora abordar a ciência Estatística, como ela se organiza no tratamento de dados.

1.1.2 UM olHar na ciÊncia da estatística – MÉtodos estatísticos

As áreas preferenciais da Estatística são:

•Estatística descritiva.

•Probabilidade.

•Amostragem.

•Inferência.

•Relações entre variáveis.

•Estatística paramétrica.

•Estatística não paramétrica.

•Estatística Bayesiana.

•Bioestatística.

•Estatística aplicada: medicina, sociedade, gestão pública e privada, indústria, comércio, agri-

cultura, psicologia, saúde...

A teoria da Estatística preocupa-se em construir modelos com base em técnicas estatís-

ticas capazes de descrever, relacionar e fazer projeções a partir das situação reais na empresa.

A criação de modelos, sejam eles descritivos ou inferenciais, pretende subsidiar a resolução de

problemas de tomada de decisão, uma vez que sistematizam os dados obtidos e permitem uma

apresentação mais didática e compreensível.

EaD

15


É por meio de tabelas, gráficos, medidas descritivas, amostragem, inferências, relações

entre variáveis, que se fazem representações da realidade. Com isso pretendemos descrever

os fenômenos como eles ocorrem, simular situações futuras e avaliar a probabilidade de sua

ocorrência. Simplificam, dão visibilidade para os fenômenos e permitem que representemos

a realidade, com condições de projetar as tendências e interferências na realidade de modo a

melhorar nosso poder decisório. Com isso:

•entendemos melhor os fatos reais;

•damos visibilidade a relações existentes entre distintas variáveis que compõem o problema em

estudo, não perceptíveis apenas ao primeiro olhar;

•os métodos estatísticos trabalham o problema como um todo e de forma multivariada, com

múltiplas variáveis ao mesmo tempo;

•conseguem acompanhar a evolução do fenômeno no tempo e no espaço, acompanhando os

resultados parciais, incluindo novos fatores no desenvolver do estudo;

•conduzem a soluções quantitativas, mais compreensíveis e mais argumentativas;

•permitem uso de computadores para processar grandes volumes de dados.

1.1.3 interligando o Potencial das dUas ciÊncias

Um candidato ou candidata a um emprego leva, seguramente, vantagem se tiver em sua

bagagem de conhecimento o domínio dos métodos estatísticos, uma vez que essa habilidade pode

ser de grande interesse para as empresas contratantes. A leitura de um gráfico, de uma tabela,

a interpretação e análise de relações e de tendências permitem uma nova linguagem a serviço

da organização empresarial.

Para fazer essa interligação entre a Administração e os métodos estatísticos apresentamos

diferentes níveis de aprofundamento nessa leitura da realidade dos fatos e fenômenos sociais e/

ou naturais:

a. Estatística Descritiva: nesse âmbito, como o próprio nome diz, pretende-se descrever os fenô-

menos. Trata-se de técnicas estatísticas para sistematização, sintetização e apresentação de

fenômenos de forma compreensível, dando visibilidade ao que realmente aconteceu ou acon-

tece. Como compreender os diferentes estágios do nível de pobreza nos municípios gaúchos,

N = 496, sem uma descrição completa de sua localização, magnitude, permitindo avaliar e

traçar metas em relação aos bolsões de miserabilidade no Estado. Qual o gestor público que

não deseja ter à disposição essa descrição do fenômeno ao traçar planos e metas, definir prio-

ridades?


16

b. Estatística Inferencial: observamos que o termo “inferência” provém do verbo inferir, quer

dizer, que pretendemos olhar um quadro de resultados e projetá-los para um universo maior.

A inferência reúne um conjunto de métodos que permitem fazer essas projeções com garantia

e conhecimento da margem de erro máxima inerente às inferências realizadas com base em

uma amostra. Como podemos projetar o sucesso do lançamento de um novo produto no merca-

do sem antecipar seu potencial de vendas? Para tal busca é impossível represar o lançamento

esperando que se conheça qual a fatia do mercado que se interessaria pela sua aquisição,

portanto é um caso típico para inferir o resultado populacional mediante uma amostra dos

possíveis clientes.

c. Estatística Aplicada: nos dois itens anteriores passamos uma ideia sobre a existência de um

conjunto de métodos e técnicas estatísticas, construindo descrições e inferências dos dados.

Após o uso das mesmas, estando aptos a traçar um perfil descritivo do nosso conjunto de dados,

vamos aplicar algumas técnicas que revelam relações entre variáveis de forma a mostrar o que

está por trás dessas relações descritivas. Podemos descobrir, por exemplo, que as mulheres

compram preferencialmente determinados produtos; podemos conhecer o quanto a idade pode

estar relacionada à quantidade de gastos com multas de trânsito; podemos avaliar os limites

permitidos de diâmetro de uma determinada peça; podemos avaliar a resposta em termos de

volume de vendas com o passar dos meses...

Nós, seres humanos, e até mesmo os animais e as plantas, temos diferentes formas de nos

expressar. Dependendo da situação, empregamos as mesmas palavras para expressar diferentes

ideias. O mesmo se dá nas diversas Ciências. A palavra “população” na Demografia expressa

os habitantes de uma determinada região; já na Estatística sob a idéia de população agregamos

todos os indivíduos, animais, objetos, lugares, períodos ou máquinas, etc., que apresentam ca-

racterísticas comuns predefinidas que constituem o nosso universo de informantes. Na seção a

seguir vamos apresentar os principais conceitos da Estatística.

seção 1.2

ajustando a linguagem por meio dos conceitos Básicos da estatística

Os principais conceitos da Estatística dizem respeito aos informantes e às informações que

formam as bases do tratamento estatístico. Os métodos estatísticos aparecem, então, intimamente

relacionados com esse contexto, pois permitem conhecer e explorar os fenômenos. Dois são os

âmbitos da perspectiva estatística: INFORMANTES E INFORMAÇÕES.

EaD

17


1.2.1 inForMantes

O que queremos dizer com Informantes?

Trata-se da proveniência dos dados, quem os fornece. Nossos informantes podem ser as

empresas, os trabalhadores, os produtos... Eles são a origem das informações. Ao analisar as

empresas posso obter delas uma série de informações que constituirão o objeto da estatística.

Os informantes podem se constituir numa população ou numa amostra.

a. POPULAÇÃO: É o conjunto de todas as unidades que reunimos a partir de características

que as definem e que são o espaço temático de nosso estudo. Segundo o dicionário Aurélio:

“População é o conjunto de habitantes de um território, de um país, de uma região, de uma

cidade, etc.”

Ainda no Dicionário Aurélio (1995, p. 1.115): “Estat. Conjunto, em geral infinito ou com

um grande número de membros, cujas propriedades se investigam por meio das características

dos subconjuntos que lhes pertencem, universo”.

Segundo a Wikipédia Português:

Genericamente, uma população é o conjunto de pessoas ou organismos de uma mesma espécie que

habitam uma determinada área, num espaço de tempo definido. O termo população tem, consoante

a disciplina a que se refere, distintas definições. Em Biologia define-se como um grupo de indivíduos

que acasalam uns com os outros, produzindo descendência. Em Estatística chama-se população ao

conjunto de todos os valores que descrevem o fenômeno que interessa ao investigador (grifo nosso).

Em Sociologia define-se como um conjunto de pessoas adscritas a um determinado espaço, num dado

tempo (p. 1.115).

E assim por diante. Na Geografia, população são os indivíduos que fazem parte de um

mesmo grupo: habitantes de um país, de uma tribo, de uma região, de um Estado, ou ainda mais

específica, economicamente ativa, desocupados, inativos...

Entendemos que na área da Administração, sob o ponto de vista dos métodos estatísticos,

população é um conjunto de instituições, empreendimentos, clientes, negócios, produtos, traba-

lhadores, indicadores, etc. Nesse caso, basta que nosso estudo esteja centrado nessa população,

de forma que como nossos informantes, eles forneçam as informações que estão no entorno de

nossa temática.

Para serem população é necessário que se constituam de um grupo exaustivo de elemen-

tos que são definidos sob as características mencionadas. Um grupo exaustivo quer dizer que é

composto por todas as unidades possíveis que só podem ser avaliadas censitariamente, isto é,


18

por meio de um censo, em que nenhuma das unidades fique de fora. As características tornam

único aquele conjunto de dados, de forma que se distingue logo se uma unidade pertence ou

não àquela população.

Vejamos no Quadro 1 alguns exemplos de população:

Quadro 1: exemplos de população e sua descrição estatística

População Características Tamanho Definição

Trabalhadores

Pessoas com 10 anos ou mais que

são a PEA – região Metropol i tana

de Porto Alegre – março de 2008.

N = 1.875

mil pessoasΩx : x ∈ (1 , 2 , 3 ,

. . . . , 1 .875.000

Empresas

Da construção de I juí registradas

no Cadastro da Prefei tura Muni-

cipal de I juí – 2006.

N = 121Ωx : x ∈ (1 , 2 , 3 ,

. . . . , 121

ProdutosComercial izados pela empresa X

de I juí – março de 2009.2 mil i tens

Ωx : x ∈ (1 , 2 , 3 ,

. . . . , 2000

Fonte: Elaboração da autora.

b) AMOSTRA: entendemos por amostra quando temos um conjunto significativo da população

que apresenta as mesmas características e que a distingue de outros informantes. Nesse caso,

nenhuma características particular pode dominar a amostra e não estar presente em toda a

população. Por exemplo: se nossa população são os cães de nossa cidade, não pode a amostra

constituir-se só de fêmeas, pois nesse caso acrescentaria uma nova característica, que excluiria

uma parte dos cães da cidade.

No Dicionário Aurélio (1995, p. 88), a definição 2 de amostra afirma que é uma

porção, fragmento ou unidade de um produto natural ou fabricado destituído de valor comercial, e

apresentado para demonstrar sua natureza, qualidade ou tipo (...). Em Farm. Amostra grátis de me-

dicamentos que laboratórios farmacêuticos distribuem, como propaganda, para conhecimento dos

médicos. Amostra indeformada Constr. Amostra de solo obtida de tal modo que se podem considerar

como subsistentes nela todas as características que se verificam no local em que foram extraídas.

Reunindo todos os resultados do Dicionário Aurélio (1995, p. 88), que se referem ao conceito

estatístico observamos que amostra é

EaD

19


Subconjunto de uma população por meio do qual se estabelecem ou estimam as propriedades ou ca-

racterísticas dessa população (...) Amostra acidental, obtida por meio de um processo de amostragem

casual; (...) Amostra pequena que tem um número de elementos insuficientes para permitir fazer uma

estimativa não viciada1 dos parâmetros2 da população; (...) Amostra representativa que foi obtida por

um processo isento de vício.

A partir destas explicações podemos constatar que em quase todas as áreas do conheci-

mento a amostra apresenta finalidades que têm suas bases apoiadas no sentido estatístico, isto

é, pretende de forma sintética, rápida, menos custosa e eficiente conhecer, estimar o comporta-

mento da população. Em Estatística, pretendemos obter uma amostra que tenha um potencial

comprovado de fazer essas inferências, de modo que dependemos de um bom delineamento

amostral: dimensionamento formal (por meio de fórmula) do tamanho necessário de unidades

amostrais, seleção aleatória e representatividade das características do perfil que interessa manter,

tais como por sexo (50% de mulheres e 50% de homens se for esta a composição da população),

faixa etária, escolaridade...

Exemplificando: uma auditoria numa empresa identificou telefonemas dados a sua prin-

cipal concorrente, e como foi constatado que algumas das promoções planejadas pela empresa

vazaram antes de serem postas em prática, há necessidade de rapidamente detectar de qual(is)

linha(s) interna(s) partiu (partiram) as chamadas e verificar a demanda e o responsável por elas.

Entendeu-se que inicialmente o processo por amostragem seria o mais rápido de realizar. Na

empresa existem 240 ramais telefônicos, e foram constatadas ligações em 15% deles. Neste caso

definimos como:

•População: Ramais com ligações efetuadas para o principal concorrente

•N = 36 ramais, N: tamanho da população

•Dimensionamento da amostra: n = 20

•Numerados os ramais de U1 a U60, procedemos ao sorteio das unidades amostrais

•Unidades amostrais conforme sorteio:

1Nãoviciadaéumaexpressãoestatísticaquesignificanãotendenciosa,istoé,umresultadoconfiável,quenãosofreuinterferênciasexternas que o deturpassem.

2 Parâmetrossãoosnúmerostípicos,tipomédiaaritmética,obtidosemdadospopulacionais,enquantoqueestatísticassãoestimativasdestesparâmetrosobtidosnumprocessoamostral.


20

Quadro 2: amostras sorteadas3 para a pesquisa e as reservas

RAMAL SORTEADO RESERVAS

Ordem Ramal Ordem Ramal Ordem Ramal Ordem Ramal Ordem Ramal

1 3 6 13 11 21 16 28 21 17

2 5 7 15 12 22 17 29 22 9

3 8 8 16 13 23 18 30 23 24

4 10 9 19 14 25 19 31

5 12 10 20 15 27 20 35


Na seção seguinte vamos conhecer o outro lado do tratamento estatístico. Se por um lado

precisamos dos informantes, por outro necessitamos saber quais as informações sobre a popu-

lação/amostra nos interessam e que são importantes para tirarmos conclusões que respondam

as nossas perguntas/hipóteses.

1.2.2 inForMaçÕes

Por informações entendemos os próprios dados que serão trabalhados estatisticamente

com os métodos estatísticos. O tema a ser investigado, as hipóteses e os objetivos é que definem

quais são as informações de interesse nesse campo. Estas informações são denominadas de

variável aleatória.

variÁvel aleatÓria (va)

Um problema bem estruturado tem suas principais variáveis conhecidas. Por variável

entendemos o conjunto de informações de interesse que estão envolvidas no problema. Essas

informações são aleatórias, isto é, podem ser definidas num conjunto possível de respostas, porém

se combinam ao acaso e não são predeterminadas. Não são informações isoladas, únicas, mas

cada unidade investigada apresenta uma resposta, que mostra diferenças entre elas, isto é, tem

variedade, e apresenta respostas esperadas num grande conjunto de repetições.

Se avaliamos as características físicas do produto principal da empresa podemos encontrar

informações sobre tamanho, espessura, finalidade, valor, custo, cor, formato, tempo de produção,

materiais empregados na sua fabricação, máquinas utilizadas na produção, função dos trabalha-

3 SorteiorealizadocomoauxíliodoExcelpormeiodafunção:Aleatório()*36,quegerou20nºsentreos36ramaisdaPopulaçãoemais3parareservaemcasodeproblemasdeacessoaoramalsorteado.

EaD

21


dores envolvidos na produção, locais e formas de comercialização, durabilidade... Estas, portan-

to, são variáveis envolvidas no produto. Observamos que algumas delas apresentam respostas

quantitativas e outras qualitativas.

Se considerarmos o exemplo utilizado para explicar a questão da amostra, podemos consi-

derar que a metodologia a ser empregada na obtenção dos dados é a de quebra do sigilo telefô-

nico nos ramais sorteados (este procedimento deve ser previamente autorizado). Serão colhidas

algumas informações como: X1: autor da ligação, X2: cargo do autor da ligação, X3: tempo de

serviço na empresa e X4: destinatário da ligação; X5: cargo do destinatário da ligação na empresa

concorrente, X6: data e X7: tempo da ligação; X8: assunto abordado na ligação, X9: abordagem

de assunto relacionado com os pré-lançamentos, X10: nº de ligações realizadas para a empresa

concorrente, X11: nº total de ligações, X12: frequência de realização, X13: relação das datas com

períodos de pré-lançamento de produtos, etc. Algumas respostas são categóricas (qualitativas)

outras são numéricas (quantitativas).

a. Variáveis aleatórias qualitativas: são informações cujas respostas são categóricas que podem

apresentar uma ordem ou não entre as diferentes categorias de respostas. Permitem que se

codifique as diferentes alternativas possíveis, são obtidas por meio de contagem de suas repeti-

ções, chamadas de frequências (fi). Entre as variáveis relacionadas anteriormente encontramos

como variável qualitativa (VA Qualitativa):

Quadro 3: exemplos de variável qualitativa e sua classificação estatística

Variável Categorias Classificação

Corbranca, cinza, verde, azul, ver-

melha...

Variável Aleatória Qualitativa

Não Ordenável

Função dos trabalhadores envol-

vidos na produção

Projetista, operador de máquina,

alimentador de matéria-prima,

carregador, pintor...

Variável Aleatória Qualitativa

Não Ordenável

Durabilidade Mínima, Média, MáximaVariável Aleatória Qualitativa

Ordenável


b) Variáveis aleatórias quantitativas: são variáveis que apresentam valores quantitativos como

respostas. Podem ser somente valores inteiros (VA Quantitativas discretas) ou admitem valores

fracionários (VA Quantitativas contínuas) como respostas. São finitas (N conhecido) ou infinitas

(N desconhecido). Podem ser enumeradas em ordem crescente ou decrescente, apresentam

valores mínimos (Li) e valores máximos (Ls), são obtidas por meio de técnica de mensuração.

Entre as variáveis relacionadas anteriormente encontramos como variável qualitativa (VA

Qualitativa):


22

Quadro 4: exemplos de variável quantitativa e sua classificação estatística

Variável Valores Classif icação

Custo de produção X > R$ 00,00Variável Aleatória Quantitativa

Contínua

Nº de trabalhadores envol-

vidos na produçãoX ∈ (0, 1, 2, 3, . . . . . )

Variável Aleatória Quantitativa

Discreta


Com esse Quadro 4 concluímos a apresentação da base necessária para constituir um tra-

balho estatístico, isto é, seu objeto e seu objetivo, construídos na ótica de buscar os informantes

e por meio deles obter as informações necessárias para conhecer de forma ampla a temática de

nosso interesse. Com as aplicações pretendemos abrir um espaço de uso desse conteúdo de forma

que possa alargar os horizontes do conhecimento estatístico. Lembre-se de que esta adequação

inicial em termos de linguagem, conceitos, identificações, vão permitir que o seu tratamento dos

dados seja adequado e pertinente.

seção 1.3

aplicações

a. Considere o exemplo dos ramais, as variáveis sugeridas, complementando-as e classificando-

as organizando um quadro como os utilizados anteriormente.

b. Organize três estudos definindo:

A temática, população, N, amostra, n, sorteio, variáveis e sua classificação.

No banco de dados (Inep/IBGE/PNAD) a seguir, defina Temática, População, N, Variáveis

e sua classificação:

EaD

23


tabela 1: rendimento médio mensal e número de profissionais por tipo de profissão segundo regiões geográficas e Brasil – 2001

(Em R$ 1,00)

Nº de profissio-nais

Brasil Norte Nordeste Sudeste SulCentro– Oeste

Professor da educação infantil 201.232 422,78 388,89 232,79 522,44 435,87 749,61

Professor de 1a a 4a série 881.623 461,67 443,17 293,18 599,19 552,72 567,38

Professor de 5a a 8a série 521.268 599,85 600,99 372,81 792,82 633,92 593,52

Funções adm. de nível superior em educação

139.575 849,16 753,20 549,60 1.092,85 738,27 834,86

Professor de nível médio 348.831 866,23 826,28 628,08 979,16 804,32 872,20

Suboficial das Forças Armadas 517.038 868,73 817,55 723,52 986,19 747,23 910,93

Professor-pesquisador no E. Superior

6.448 898,80 215,33 1.150,16 946,56 712,65 875,47

Agente administrativo público 316.761 911,82 661,40 679,31 1.072,50 926,14 1.103,37

Administrador de empresas 502.895 1.202,86 986,87 774,85 1.411,18 1.057,85 1.123,93

Técnico de nível superior – público

421.318 1.310,56 1.053,94 794,02 1.586,97 1.308,30 1.876,79

Policial civil 72.743 1.510,64 1.344,46 1.320,40 1.457,90 1.488,02 2.087,23

Oficial das Forças Armadas 89.387 2.091,53 2.129,41 1.674,46 2.250,53 1.949,68 2.321,03

Economista 44.772 2.254,66 1.700,77 2.009,08 2.227,19 1.641,35 3.592,64

Auditor 68.870 2.408,40 3.512,94 1.584,94 2.588,47 1.986,32 3.133,88

Advogado 271.241 2.496,76 3.893,83 2.245,35 2.431,04 2.597,39 2.768,25

Professor de nível superior 136.977 2.565,47 1.800,30 2.252,08 3.086,95 2.122,77 2.190,10

Delegado/Perito 13.973 2.660,52 2.753,91 1.347,25 2.650,73 3.714,45 5.969,61

Médico 257.414 2.973,06 4.429,82 2.576,78 2.801,77 3.260,41 4.110,87

Juiz 10.036 8.320,70 5.905,38 8.038,88 9.018,42 9.750,00 7.331,08

Fonte: Pesquisa Nacional por Amostra de Domicílios (Pnad) – 2001.

Nota: (1) Valor em R$ de setembro de 2001.

Obs. Não estamos enfatizando o processo amostral nestas aplicações da Unidade 1, posto que

esta será tratada mais detalhadamente na Unidade 4.


24

resUMo da Unidade 1

Esta é uma unidade essencial, pois nela conhecemos termos e sig-

nificados que vão acompanhar nossos estudos até o final deste livro

e muito além. Aprendemos que a Estatística basicamente utiliza In-

formantes (População e Amostra) e Informações (Variáveis aleatórias

quantitativas e qualitativas) para descrever (Estatística Descritiva),

projetar (Estatística Inferencial) e estabelecer relações (Estatística

Aplicada). Neste curso vamos trabalhar esses três níveis de conhe-

cimento estatístico.

Referências que consultamos especificamente para esta Unidade e sugerimos aos alunos

que consultem:

• CHIAVENATO, Idalberto. Introdução à Teoria Geral da Administração. 4. ed. São Paulo:

Makron, 1993.

• DRUCKER, Ferdinand P. A profissão de administrador. São Paulo: Pioneira Thompson

Learning, 1998.

• FERREIRA, Aurélio Buarque de Holanda. Dicionário da Língua Portuguesa. Rio de Janeiro:

Nova Fronteira, 1995.

• LACOMBE, F. J. M.; Heilborn, G. L. J. Administração: princípios e tendências. 1. ed. São Paulo:

Saraiva, 2003.

• MONTANA, Patrick J. Administração. 2. ed. São Paulo: Saraiva, 2003.

• ARAÚJO, Luis César G. Teoria geral da Administração: aplicação e resultados nas empresas

brasileiras. São Paulo: Ed. Atlas, 2004.

• RIEGEL, John. Employee interest in company success-how can it be stimulated and maintained?

Address on industrial relations. Bureau of Industrial Relations; University of Michigan; Ann

Arbor, 1955. p. 25.

EaD

25


Banco de dados, taBelas e grÁFicos: sistematização e apresentação de dados

Ruth Marilda Fricke


•Dominar três formas especiais de sistematizar e apresentar dados estatísticos transformando-os

em informações de apoio na área administrativa: bancos de dados, tabelas e gráficos.

seçÕes desta Unidade:

Seção 2.1 – Banco de Dados

Seção 2.2 – Tabelas Simples – Univariadas e Bivariadas – com Variáveis Qualitativas

Seção 2.3 – Tabelas em Série Numérica e Distribuição de frequências com Variáveis Quantitativas

Seção 2.4 – Representação Gráfica e sua Leitura

Seção 2.5 – Aplicações

As áreas da Administração e da Estatística interagem a partir do momento em que ambas

trabalham com informações da realidade. Estas informações são mais bem conhecidas a partir do

tratamento estatístico, que permite uma visão mais global do comportamento dos dados quando

visualizados em sua individualidade, e das relações que elas estabelecem entre si quando ana-

lisadas conjuntamente, em um plano bidimensional ou tridimensional. Esse tratamento, que se

inicia com o banco de dados, é organizado em forma de tabelas e apresentado em forma de grá-

ficos. Com isso a Administração potencializa as tomadas de decisão embasada em informações

estatísticas que conduzem as ideias e sustentam os projetos da área administrativa.

Unidade 2


26

Utilizaremos na apresentação deste conteúdo alguns indicadores calculados a partir de

estatísticas dos municípios gaúchos apresentados pelo IBGE; disponível em: <www.ibge.gov.br/

cidades/default.php>. Acesso em: jun. 2009. Inicialmente precisamos entender que a divisão po-

lítica do RS é realizada em mesorregiões, em número de 7, 35 microrregiões e 496 municípios.

Vamos então iniciar pela utilização do banco de dados, uma espécie de planilha de dados

que apresenta não apenas os dados, mas as variáveis, informa a população, número de registros

e dados pareados1 de todas as unidades (populacionais ou amostrais) que estão sendo apresen-

tadas.

seção 2.1

Banco de dados

Para dar início ao tratamento estatístico necessitamos coletar dados que provêm das per-

guntas que nos fazemos em relação à nossa população dentro da temática que nos interessa.

Assim, se formos estudar a distribuição dos municípios da Microrregião de Três Passos,

suas potencialidades econômicas e capacidade de atender à demanda na região em que está

estabelecida, podemos buscar dados sobre:

1 Pareadossignificaquetodososdadosapresentadosnumamesmalinhareferem-seàmesmaunidadeenãopodemserisoladosnemmisturados,pertencemàquelaunidade.Porexemplo,setemosidade,sexo,escolaridade,datadeadmissãonaempresa,estassãosempreinformaçõesparticularesdosujeitoenãopodemdesconectar-sedele.

EaD

27


Quadro 1: codificação e variável com classificação e categorias do banco de dados

X N Nº de ordem do município

X1 Mun Município

X2 POP População Residente – Variável aleatória quantitativa discreta

X3 PIB_cap PIB per capita – Variável aleatória quantitativa contínua

X4 Cls_PIB

Classificação do PIB per capita – Variável aleatória qualitativa ordenável –[1) Pobre:

<7 mil dólares /ano; 2) Em desenvolvimento: de 7 a 24,99 mil dólares/ano; 3) Rico: >

25 mil dólares/ano ou mais]

X5 N_agFin Nº de agências financeiras no município -– Variável aleatória quantitativa discreta

X6

Valor_

FPM

Valor retorno do Fundo de Participação dos Municípios– Variável aleatória quantita-

tiva contínua

X7 Valor_ITR Valor do Imposto Territorial Rural– Variável aleatória quantitativa contínua

X8 Ind_Res Nº de indústrias por mil hab. – Variável aleatória quantitativa contínua

X9 Cls_ind

Classificação da relação entre indústrias por mil habitantes– Variável aleatória

qualitativa ordenável – [1) Não industrializado < 1 indústria por 1000 hab.; 2) Pouco

industrializado – 2 a 4,9 indústrias por 1000 hab.; 3) Média industrialização 5 a 10,9

indústrias por 1000 hab.; 4) Bem Industrializado – 11 a 19,9 indústrias por 1000 hab.;

5) Industrial – ≥ 20 indústrias por 1000 hab.;]

X10 Área Área territorial do município em km²– Variável aleatória quantitativa contínua

X11 Cls_Área

Classificação da área territorial – Variável aleatória qualitativa ordenável– [1) Peque-

na – < 200 km²; 2) Médio – 200 a 500 km²; 3) Grande 501 a 1000 km²; 4) Extenso – >

1000 km²]

X12 Densidade Densidade demográfica Hab/km² – Variável aleatória quantitativa contínua

X13 Cls_Dens

Classificação da Densidade demográfica– Variável aleatória qualitativa ordenável–

[1) Alta densidade: > 1000 hab./km²; 2) Grande densidade: 501 a 1000 hab./km²; 3)

média densidade: 100 a 500 hab./km²; 4) baixa densidade: < 100 hab./km²]


Nossa população são todos os municípios da Microrregião de Três Passos. Isso se consti-

tui no nosso N, numeradas de 1 a N. Todas as informações que obtivermos às nossas perguntas

constituirão nossas variáveis. As informações referem-se a cada um dos municípios, portanto

constituem informações casadas, relacionadas, e não podem ser misturadas, pois cada uma está

ligada a um município em particular.

Trata-se, portanto, de uma relação de dados obtidos por meio de uma pesquisa, de um

levantamento de dados e contém todas as informações que foram levantadas e as transforma-

ções que foram realizadas para conseguir ampliar a base das mesmas. No banco de dados nº 1,


28

as variáveis básicas são X1, X2, X3, X5, X6, X7, X8, X10. Com estas variáveis foram feitas algumas

transformações que resultaram nas variáveis X4, X9, X11, X12, X13. Assim, o banco de dados vai se

constituindo com as variáveis originais e as que são geradas a partir das mesmas.

As informações dos municípios entrarão nas linhas e as variáveis nas colunas. O total de

municípios é o N = 20, neste caso

Quadro 2: Banco de dados nº 1– Municípios da Microrregião de três Passos

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X1

N Mun POPPIB_cap

Cls_PIB

N_agFin

Valor_FPMValor_ITR

Ind_Res

Clsind AreaClsarea

Den-sida-de

Clsdens

1Barra do Guarita

2.969 6.508 1 0 2.797.615,36 533,7 2 2 65 1 45,7 5

2Boa Vista do Buricá

6.468 10.114 1 2 2.797.615,36 1.902,02 17 4 109 1 59,3 5

3Bom Pro-gresso

2.441 7.338 1 0 2.797.615,36 2.369,08 5 3 89 1 27,4 3

4 Braga 3.826 6.984 1 0 2.797.615,36 4.145,13 3 2 129 1 29,7 3

5Campo Novo

5.581 9.658 1 2 2.810.105,39 15.989,17 7 3 222 2 25,1 3

6 Crissiumal 14.726 9.687 1 3 5.267.727,46 5.417,75 8 3 362 2 40,7 57 Derrubadas 3.378 8.957 1 0 2.410.580,60 4.060,42 1 1 361 2 9,4 1

8Dr Maurício Cardoso

5.494 10.597 1 2 3.512.012,00 7.660,00 6 3 256 2 21,5 3

9Esperança do Sul

3.445 7.821 1 0 2.798.876,06 1.724,62 3 2 148 1 23,3 3

10 Horizontina 18.305 19.805 2 4 5.595.230,83 8.291,42 8 3 229 2 79,9 511 Humaitá 4.923 11.774 1 1 2.797.615,36 2.519,68 8 3 135 1 36,5 412 Miraguaí 4.869 6.473 1 1 2.797.615,36 1.324,74 4 2 130 1 37,5 4

13Nova Can-delária

2.739 12.368 1 0 2.797.615,39 946,85 4 2 98 1 27,9 3

14 Redentora 9.600 5.122 1 1 2.810.105,36 6.674,59 2 2 303 2 31,7 4

15São Marti-nho

5.853 10.212 1 2 2.797.615,36 5.514,40 10 4 172 1 34,0 4

16 Sede Nova 2.968 11.782 1 0 2.797.615,36 4.554,22 7 3 119 1 24,9 3

17Tenente Portela

13.906 7.301 1 2 4.340.091,71 3.703,25 7 3 338 2 41,1 5

18Tiradentes do Sul

6.928 6.765 1 0 2.797.615,36 2.944,97 2 2 234 2 29,6 3

19 Três Passos 23.467 12.755 1 5 9.657.490,50 5.196,27 8 3 268 2 87,6 5

20Vista Gaú-cha

2.713 9.920 1 0 2.797.615,76 922,33 8 3 89 1 30,5 4

Fonte: IBGE/cidades.

O banco de dados é na verdade uma listagem de todas as informações obtidas, sejam elas

originais ou transformações.

Nos casos em que as variáveis forem qualitativas, utilizamos um código para representar as

diversas categorias de resposta, como fizemos com a variável – Classificação do PIB per capita,

na qual utilizamos os seguintes códigos, com as respectivas classificações e faixa de dados:

EaD

29


1) Pobre– < 7 mil dólares/ano.

2) Em desenvolvimento – 7 a 24,99 mil dólares/ano.

3) Rico-> 25 mil dólares/ano.

Se não obtivermos informação podemos assumir um código único para todo o banco de

dados representando a Não Resposta: 99, 999 por exemplo. Essa informação será contabilizada

como um valor não válido e será descontada do total para obtermos um percentual válido sobre

as respostas válidas. É importante obtermos todas as respostas para os questionamentos feitos,

pois o excesso de “Não resposta” pode inviabilizar a análise e a retirada de conclusões, isto é,

nossa base de informações pode não estar realmente “informando”.

Na próxima seção vamos estudar os tipos de tabelas simples – univariadas (uma única

variável na tabela) e bivariadas (duas variáveis tratadas conjuntamente numa única tabela,

apresentando o comportamento interativo das duas). Esse tratamento abrange as variáveis qua-

litativas na maioria dos casos.

seção 2.2

taBelas siMPles – Univariadas e Bivariadas – com variáveis Qualitativas

A tabela univariada apresenta uma única variável e é também chamada de tabela simples.

É utilizada para representar variáveis qualitativas, cujas respostas são nominais, são categorias. A

estatística neste caso está limitada a descrever o que ocorreu em termos de repetições. As partes

da tabela são: título, barra de informações, dados obtidos, barra de totais e fonte das informações.

Nenhuma dessas partes pode faltar para que o trabalho estatístico tenha validade, seja feita uma

leitura das informações obtidas e possam ser compreendidas.

1) Uma tabela deve apresentar um título que apresenta a variável que está sendo apresentada,

população, local e tempo em que os dados foram coletados.

2) Na parte superior da tabela simples existe uma barra de informações, em que constam todos

os tipos de informações que serão apresentadas ou trabalhadas na tabela.

3) No corpo da tabela contabilizamos as repetições das respostas e calculamos o valor percentual.

As repetições são números reais e absolutos, permitem avaliar a importância das diferentes

categorias, no entanto só podemos comparar com outras variáveis se o número de dados for

igual. Nesse caso, se a intenção é fazer comparações temos de utilizar um valor relativo, que

é a porcentagem.


30

• Nº: são as repetições de uma determinada resposta no banco de dados;

• %: é o valor relativo do Nº em relação ao total de respostas, o n º

% *100N

n=

• % válido: é o valor relativo calculado sobre o total de respostas válidas, isto é, n* = n – NR,

não respostas. º

% *100, **

Nn n NR

n= = − , ou seja:

•*100

%.

% if

n=

; *100

%..

%

:. sin

i

válido

f

n NI

NI mis g

=−

;

Na parte inferior, uma barra com os totais, ou seja, as somatórias das colunas do Nº (fi) que

no caso representa o n, Total de dados, (∑ fi = n) e dos percentuais, cuja soma deve ser 100%.

Neste cálculo vários arredondamentos são possíveis de serem utilizados: a) em primeiro

lugar, optamos por trabalhar com duas casas após a vírgula para que os arredondamentos não

possuam efeito muito drástico, capaz de alterar a interpretação do resultado; b) utilizamos, pre-

ferencialmente, os seguintes critérios: se a 3ª casa for um nº no intervalo de 0 a 4, eliminamos

(exemplo % = 5/26*100 = 19,23077 ≅ 19,23); se a 3ª casa for um nº no intervalo de 5 a 9, elimi-

namos e aumentamos um ponto na 2ª casa (exemplo % = 6/26*100 = 23,07692 ≅ 23,08).

• Fonte: informa a proveniência dos dados, potencializando que se busquem mais informações,

que as atualizemos e também referem a credibilidade dos dados.

Estes detalhes podem ser vistos na Tabela 1 a seguir.

Apresentamos um exemplo com base no banco de dados sobre a participação da população

com 100 anos ou mais na população com 60 anos ou mais segundo o local de moradia e sexo nas

UF/BR – 2007. Esta tabela demonstra as duas possibilidades – Presença de todas as Respostas e

presença de dados censurados NI (missing) – ou seja, falta de informação:

*100

%. . . . . .100

6% 23,08%

26

deRaros Mulher Rural com de anos>

= = ; *100

%.. . . . . . 100.

6% 24%

.......26 1

:. sin 1

válido de raros MR c anos

NI mis g

>

= =−

=

EaD

31


tabela 1: Participação de idosos com 100 anos ou mais no grupo de pessoas com 60 anos ou mais, considerando sexo e local de moradia, nas diversas UF/Br – 2007

Participação MR % MR% MR

válidoHR % HR MU % MU HU % HU

Raros (0 a 4/10 mil idosos) 6 23,08 24,00 19 73,08 8 30,77 19 73,08Nº Médio (5 a 14/10 mil idosos) 14 53,85 56,00 7 26,92 17 65,38 7 26,92Grande Nº (15 ou +/10 mil idosos) 5 19,23 20,00 1 3,85Total 25 96,15 100,00 26 100,00 26 100,00 26 100,00NR 1 3,85Total 26 100,00


Obs.: Siglas: MR – Mulheres da área Rural; HR – Homens da área Rural;

MU – Mulheres da área Urbana; HU – Homens da área Urbana;

Categorias da participação: Raros: % < 0,05; Nº Médio: 0,05 a 0,14; Grande Nº: % > 0,14

Na Tabela 1 estamos avaliando a variável Participação de Idosos com 100 anos ou mais no

grupo de Idosos da População com 60 anos ou mais, considerando diferentes informações que

potencializam obter diferentes aspectos que podem ser comparados.

Estamos comparando os Estados segundo sua distribuição de longevidade a partir de di-

ferenças apresentadas por sexo (H ou M) e por localização (R ou U). Nesse caso a variável é a

mesma, as populações apresentam características diferenciadas.

O comentário que vamos apresentar a seguir de cada tratamento específico dos dados é

uma das diversas “leituras” dos resultados estatísticos. Procuramos, especialmente, nesse tipo

de comentário:

•apresentar inicialmente uma idéia geral à qual o tratamento estatístico permitiu chegar, au-

xiliando o leitor a “enxergar” nos resultados o que estes nos revelam, isto é, encaminhando a

leitura na direção que é compatível com os objetivos para os quais os dados foram coletados;

•sustentar as ideias, argumentações com as estatísticas calculadas. Estas são argumentativas

por si próprias e devem convencer o leitor. Por exemplo, não basta dizer “a maioria” dos Esta-

dos, é necessário informar de quanto é essa proporção para que ela convença o leitor sobre a

superioridade em termos de presença dessa categoria;

•evitar referir todos os dados da tabela, apenas os que queremos colocar em destaque;

•procurar apresentar informações que estão subjacentes, retrabalhadas, tipo a soma de dois

dados, o complementar de algum deles.

Comentário 1: Com base nesta tabela constatamos que a maior participação de

pessoas com 100 anos ou mais na população idosa são as mulheres do meio ru-

ral (MR), que apresentam em 76% dos Estados um número médio de idosos,


32

em torno de 5 a 14 idosos com 100 anos ou mais em cada 10 mil idosos (56%), 15 ou mais

idosos com 100 anos ou mais em cada 10 mil idosos (20%). A menor presença é de homens

com mais de 100 anos, tanto no meio urbano como no rural. São raros (menos de 5 idosos com

100 anos ou mais em cada 10 mil idosos) em 73% dos Estados em ambos os casos.

Outro exemplo deste tratamento utilizando múltiplas tabelas para traçar o perfil pode ser

vista na Tabela 2. Nesse caso, diferentes variáveis são consideradas para uma mesma população,

mas ainda tratadas isoladamente. O que muda é a apresentação conjunta.

Vejamos então, na Tabela 2, variáveis da Microrregião de Três Passos, apresentando seu

perfil econômico a partir de 5 delas: Porte dos municípios, Classificação da densidade demográ-

fica, Classificação pelo PIB per capita, Nº de Agências Financeiras e Classificação nº indústrias/

mil hab.

tabela 2: classificação dos municípios segundo potencial econômico da Microrregião de três Passos com 20 municípios 2

N=20 Nº %Porte dos Municípios2

1 – Pequeno Porte I (até 20 mil hab.) 11 55,002 – Pequeno Porte II (20 a 50 mil hab.) 9 45,00

Classificação da densidade demográfica*

1 – (< 10hab. /km²) 1 5,00

3 – (20 a 29 hab./km²) 8 40,00

4 – (30 a 39 hab./km²) 5 25,00

5 – (40 e mais hab./km²) 6 30,00

Classificação pelo PIB per capita

1 – Pobre 19 95%

2 – Em desenvolvimento 1 5%

Nº de Agências Financeiras

0 9 45,00

1 3 15,002 5 25,003 1 5,004 1 5,005 1 5,00

Classificação nº indústrias/mil hab.1) Não industrializado (<1/mil hab.) 1 5,00

2) Pouco industrializado (2 a 4,9/mil hab.) 7 35,003) Média industrialização ( 5 a 10,9 /mil hab.) 10 50,004) Bem Industrializado – (11 a 19,9/mil hab.) 2 10,00


* Todos os municípios apresentam densidade inferior a 100 hab./km2, logo tem baixa densidade demo-

gráfica. A classificação evidencia 5 níveis (1 a 5) sendo 1 o menor e 5 o maior dentro do grupo

2 Fonte:AtlasdeDesenvolvimentoHumano,2002.

EaD

33


Estas variáveis oferecem uma visão geral da Microrregião, não permitindo fazer desta-

ques de municípios individualmente, mas pretende dar uma visão da Microrregião em termos

econômicos.

Comentário 2: Utilizando o banco de dados da Microrregião de Três Passos, buscamos fazer

uma avaliação do potencial econômico da riqueza da região. Constata-se na Tabela 2 que são

20 municípios de pequeno porte (55% de nível I com até 20 mil habitantes e 45% de nível II com

20 a 50 mil habitantes), em sua maioria com baixo rendimento econômico e baixa densidade

demográfica: menos de 100 hab./km2. Apenas três municípios apresentam um destaque em

termos econômicos: Três Passos, Crissiumal e Horizontina. Os demais apresentam populações

pobres, com baixo rendimento e baixo potencial de desenvolvimento. Podemos observar que em

termos de PIB per capita (fatia do PIB por residente nos municípios da Microrregião), 95% dos

municípios podem ser considerados subdesenvolvidos/pobres, uma vez que o PIB per capita/

ano é inferior a US $ 7 mil dólares/ano, o que daria uma base em torno de R$ 1000,00/mês.

Nessa Microrregião 45% dos municípios não dispõem sequer de uma agência financeira, e o

número médio de agências financeiras por município é de 1,25. O número de indústrias para

cada mil habitantes indica que existem apenas dois municípios que apresentam uma maior

industrialização, com 11 a 20 indústrias por mil habitantes. 40% dos municípios são pouquís-

simo ou nada industrializados (menos de 5 indústrias por mil habitantes).

As tabelas bivariadas, por sua vez, apresentam simultaneamente duas ou mais variáveis,

cada variável é uma dimensão. Quando trabalhamos com uma ou até duas dimensões os resul-

tados do tratamento são simples de explicar e compreender, porém se trabalharmos com três ou

mais dimensões torna-se bem mais complexo. Por isso vamos nos restringir a duas dimensões.

Ao sistematizar duas variáveis vamos construir uma tabela bivariada, também chamada

de tabela cruzada, ou tabela de dupla entrada.

Estas variáveis devem ser qualitativas ou então transformadas em qualitativas pela orga-

nização de dados quantitativos em intervalos tipo faixa etária, por exemplo. Uma variável entra

na linha (li) e outra na coluna (cj) da matriz. Nas margens da Tabela teremos os dados de cada

variável em separado, e no interior a frequência conjunta (fi j), em que i representa a informação

da linha e j a informação da coluna. Se estamos tratando de sexo e consumo de determinado

bem, podemos ter os seguintes pares de informações conjuntas: masculino e consome; mascu-

lino e não consome; feminino e consome; feminino e não consome. Resumidamente, temos os

seguintes pares: (M;C); (M;N); (F;C); (F;N). Vamos contar a repetição de cada par para formar

a frequência conjunta. Se tivermos seis homens que consomem este bem, então a primeira fre-

quência conjunta é 6.


34

Nas tabelas cruzadas temos três tipos de frequência relativa:

•de linha (em relação a cada categoria da variável que está na linha), permitindo saber como

essa categoria se distribuiu ante as que estão na coluna;

•de coluna (em relação a cada categoria da variável que está na coluna), permitindo saber como

essa categoria se distribuiu ante as que estão na linha;

•do total (em relação ao total geral), permitindo saber como essa categoria se distribuiu ante o

grupo todo, total geral.

As fórmulas para o cálculo desses percentuais são estas:

, *100,

%. .

% i ji j

i

de linha

f

l=∑

; , *100,

%. .

% i ji j

j

de coluna

f

c=∑

; , *100,

%. .

% i ji j

de total

f

n=

No exemplo:

*1001,1

%. .

6% 20,0%

30

de sexo

= = ; *1001,1

%. .

6% 11,8%

51

de consumo

= = ; , *100,

%. .

% i ji j

de total

f

n=

Para apresentar a tabela bivariada, ou tabela conjunta, estamos utilizando um exemplo do

banco de dados sobre o padrão alimentar de um grupo de alunos. Encontramos inicialmente as

frequências conjuntas e as frequências marginais (estas formam os resultados como se fossem

uma tabela simples). A seguir, empregando as fórmulas apresentadas anteriormente, calculamos

os percentuais, realizando logo a seguir o comentário (leitura) das informações sistematizadas

nessa tabela:

tabela 3: consumo de alimento “light” por sexo

Sexo\consumo Consome Não Consome Total p/sexoMasculino 6 24 30

% sexo 20,0 80,0 100,0% consumo 11,8 58,5 32,6% do total 6,5 26,1 32,6Feminino 45 17 62

% sexo 72,6 27,4 100,0% consumo 88,2 41,5 67,4% do total 48,9 18,5 67,4

Total p/consumo 51 41 92% sexo 55,4 44,6 100,0

% consumo 100,0 100,0 100,0% do total 55,4 44,6 100,0

Fonte: Registro de aula.

EaD

35


Comentário 3: Observa-se que a preocupação com o consumo de alimentos “light”, conside-

rados com menor potencial de prejuízo à saúde, está associado com o sexo do consumidor:

mulheres consomem mais do que homens. Constata-se que é maior entre as mulheres (72,6%

das mulheres) do que entre os homens (apenas 20% dos homens), referindo portanto que

88,2% do consumo é realizado por pessoas do sexo feminino e 58,5% dos que não consomem

são homens.

Para fazer a análise da tabela bivariada realizamos o mesmo tipo de recorte permitido nas

tabelas simples.

•apresentar a idéia síntese da intenção que motivou a tabela;

•um cuidado é o de não rediscutir todos os percentuais;

•não utilizar todos os percentuais referentes a uma frequência conjunta. Escolher o que melhor

expressa a intenção da pesquisa;

•procurar embasar os comentários com as estatísticas mais adequadas, isto é, escolher o que vai

sustentar melhor, convencer melhor o leitor.

Ao fazermos a leitura da tabela temos de nos conscientizar de que o fazemos para terceiros,

que não terão a visão dos dados brutos e nem das diferentes maneiras pelas quais os mesmos

podem ser sistematizados, apresentados ou interpretados. Muitas relações que estão subjacentes

aos dados podem ser ressaltadas nesses comentários pelo autor, encaminhando a compreensão

que o leitor vai ter da temática. Com isso, alertamos para a parcialidade do comentário, não há

neutralidade nele. O autor deve assumir que conduz o leitor à interpretação.

A seguir vamos apresentar outro exemplo: Condições Econômicas dos Municípios da Mi-

crorregião de Três Passos, a partir do banco de dados nº 1.

tabela 4: nº de agências financeiras segundo o porte dos municípios da Microrregião de três Passos em 2007.

Por te dos munic íp iosNº Agênc ias0 1 2 ou mais Tota l por Agênc ias

Pequeno Por te I 7 2 2 11% área 63 ,6 18 ,2 18 ,2 100 ,0% agênc ias 77 ,8 66 ,7 40 ,0 55 ,0% to ta l 35 ,0 10 ,0 10 ,0 55 ,0Pequeno Por te I I 2 1 6 9% área 22 ,2 11 ,1 66 ,8 100 ,0% agênc ias 22 ,2 33 ,3 83 ,3 45 ,0% to ta l 10 ,0 5 ,0 30 ,0 45 ,0Tota l por Por te 9 3 8 20% área 45 ,0 15 ,0 40 ,0 100 ,0% agênc ias 100 ,0 100 ,0 100 ,0 100 ,0% to ta l 45 ,0 15 ,0 40 ,0 100 ,0



36

Comentário 4: O número de agências financeiras no município depende do porte do mesmo.

Na Microrregião de Três Passos observa-se que três municípios apresentam melhores con-

dições econômicas em termos de PIB per capita. O porte do município explica o número de

agências financeiras observado em cada município. Assim, constata-se que 35% deles são

de Pequeno Porte nível I, isto é, com até 20 mil habitantes e não apresentam agência finan-

ceira, enquanto que 30% são de Pequeno Porte nível II, de 20 a 50 mil habitantes, e possuem

5 agências financeiras.

Agora que construímos tabelas simples e cruzadas para sistematizar e apresentar as variáveis

qualitativas, vamos ver como se organizam dados quantitativos. Basicamente a organização de

dados quantitativos é realizada com dois procedimentos distintos: Série Numérica (uma relação

de dados não agrupados) e Distribuição de frequências (os dados agrupados em intervalos).

seção 2.3

tabelas em série numérica e distribuição de Frequências com variáveis Quantitativas

A sistematização dos dados de variáveis quantitativas permite um pouco mais de trata-

mento estatístico. O número de informações com as quais trabalhamos e a apresentação de um

comportamento padronizado ou não vão definir se a sistematização será feita por meio de Série

Numérica (pequenas amostras, n<20), que trabalha com toda a informação individualizada, isto

é, listada uma a uma, ou de Distribuição de frequências (grandes amostras, n≥20), que distribui

as repetições dentro de intervalos, informando, portanto, que naquela faixa de valores existem

fi (frequência, nº), que são as observações.

Na Série Numérica, quando trabalhamos com pequenas amostras de tamanho menor do

que 20, listamos os valores de Xi (variável aleatória) ordenados em ordem crescente, do menor

para o maior. Consideramos a listagem dos dados absolutos nesse caso, pois devido ao pequeno

tamanho da Amostra ou População, o agrupamento dos valores observados em intervalos signi-

ficaria uma perda de informações que inviabilizaria a compreensão do fenômeno. Após fazer a

listagem dos dados ordenados o máximo que podemos obter, nessa fase inicial, são:

•Informações sobre o n, valor mínimo (Li – Limite Inferior), o valor máximo (Ls – Limite Supe-

rior), a amplitude total (At = Ls – Li, Faixa de variação dos dados entre o maior e o menor).

•Referências para um agrupamento qualitativo, formação de categorias que reagrupem os

valores de forma nominal.

EaD

37


•Avaliação da composição do total pelo valor relativo da parte considerada.

1

*100in

ii

xVR

x=

=∑

Empregamos, para exemplificar, os dados referentes aos municípios que estão separados

por Porte, como municípios de Pequeno Porte Nível I e II, da Microrregião de Três Passos. No

caso dos Municípios de Pequeno Porte I ou II, observa-se que:

Quadro 3: informações básicas da Microrregião de três Passos

Municípios de Pequeno Porte I Municípios de Pequeno Porte IInI = 11 nII = 9Li = R$ 533,70 Li = R$ 2.944,97Li = R$ 5.514,40 Li = R$ 15.989,17At = R$ 4.980,70 At = R$ 13.044,20


Apesar do número diferenciado de municípios de Pequeno porte por Nível, n = 11 no

caso do Nível I e n = 9 no Nível II, a variação entre o menor valor do ITR no primeiro caso é

de aproximadamente R$ 5.000,00 (0,5 a 5,5 mil reais), enquanto no segundo caso é de quase 3

vezes mais (2,9 a 15,9 mil reais).

tabela 5: valor do itr (imposto territorial rural) nos municípios de Pequeno Porte nível i e ii

da Microrregião de três Passos – rs – 2007.

Pequeno Porte I Pequeno Porte II

N Município Valor_ITR VR N Município Valor_ITR VR

1 Barra do Guarita 533,70 2,02 1 Tiradentes do Sul 2.944,97 4,91

2 Vista Gaúcha 922,33 3,49 2 Tenente Portela 3.703,25 6,18

3 Nova Candelária 946,85 3,58 3 Derrubadas 4.060,42 6,77

4 Miraguaí 1.324,74 5,01 4 Três Passos 5.196,27 8,67

5 Esperança do Sul 1.724,62 6,52 5 Crissiumal 5.417,75 9,04

6 Boa Vista do Buricá 1.902,02 7,19 6 Redentora 6.674,59 11,14

7 Bom Progresso 2.369,08 8,95 7 Dr Maurício Cardoso 7.660,00 12,78

8 Humaitá 2.519,68 9,52 8 Horizontina 8.291,42 13,83

9 Braga 4.145,13 15,67 9 Campo Novo 15.989,17 26,68

10 Sede Nova 4.554,22 17,21 Total 59.937,84 100,00

11 São Martinho 5.514,40 20,84

Total 26.456,77 100,00



38

Estes dados são apresentados em forma de série numérica pois em ambos os casos, n<20:3

municípios de Pequeno Porte I, nPPI = 11; Municípios de Pequeno Porte I, nPPII = 9. Agrupá-los

e distribuí-los em intervalos é inviável porque ocorre muita perda de informação. Como são

valores quantitativos, procurou-se avaliar a contribuição total em cada grupo de municípios e a

participação de cada um deles nesse montante. Para calcular essa participação utilizamos o VR

= valor relativo, isto é, a parte da cada município dentro do total do grupo.

Comentário 5: O montante arrecadado de ITR nos Municípios de Pequeno Porte nível II é

aproximadamente o dobro do outro grupo, perfazendo quase 60 mil reais. O município que

mais contribui para o primeiro montante (R$ 26.456,77) é São Martinho, que arrecada 20,84%

do valor total. O município que mais contribui para o segundo montante (R$ 59.937,84) é

Campo Novo, que arrecada 26,86% do valor total. Aproximadamente 90,9% dos municípios de

Pequeno Porte I apresentam baixa arrecadação de ITR, enquanto que no grupo de municípios

de Pequeno Porte II, 66,7% dos municípios apresentam arrecadação média.

Com esse resultado poderíamos formar 2 grupos de arrecadações do ITR, apresentados a

seguir mediante tabelas simples, pois criaram-se a partir dessa informação estatística dois grupos:

com baixa e média arrecadação, visualizados na Tabela 6:

tabela 6: classificação dos municípios segundo o porte e valor de itr arrecadado na Microrregião de três Passos

Arrecadação IntervaloPequeno Porte I Pequeno Porte IINº % Nº %

Baixa < R$ 5.000,00 10 90,91 3 33,33Média ≥ R$ 5.000,00 1 9,09 6 66,67Total 11 100,00 9 100,00

Fonte: Elaboração da autora com base nos dados do IBGE/cidades.

Na Distribuição de frequências, quando trabalhamos com grandes amostras de tamanho

maior ou igual a 20, podemos adotar essa técnica de agrupamento de dados, que é uma ferra-

menta poderosa na sistematização dos dados, pois apresenta bastante flexibilidade na escolha

da amplitude parcial e dos limites dos intervalos com pequena perda de informações. As únicas

exigências que se fazem nesse caso são:

a. que o Li seja incluído no 1º intervalo, entendendo-se neste caso que o limite inicial do 1º

intervalo não precisa necessariamente ser o Li, mas este deve estar obrigatoriamente contido

nele;

3 N PPI:númerodemunicípiosdepequenoporteI. N PPII:númerodemunicípiosdePequenoPorteII.

EaD

39


b. que o Ls seja incluído no último intervalo, entendendo-se neste caso que o limite final do último

intervalo não pode ser o Ls, mas tem de estar obrigatoriamente contido nele;

c. que todos intervalos precisam ter frequência maior do que zero, isto é, fi > 0.

Observadas à risca estas exigências, iniciamos o tratamento dos dados para um conjunto de

dados cujo n > 20.

Essa tarefa de sistematização passa pelo levantamento das informações básicas, ordenação

em forma crescente do menor para o maior valor com o Ramo e Folhas, avaliação da ocorrência de

valores soltos, fora do padrão, por meio do Diagrama de Pontos, dimensionamento dos intervalos

mediante a Amplitude Parcial, construção da Distribuição de Frequências (DF):

•Informações básicas dos dados

Para iniciar o processo de agrupar os dados em intervalos precisamos saber o montante

de variação que deve ser distribuído em intervalos, usualmente de tamanho regular. Essas in-

formações podem ser obtidas sem qualquer tratamento prévio: n – número de dados; Li – valor

mínimo da distribuição de valores; Ls – valor máximo do conjunto de observações. De posse destas

informações podemos calcular a faixa de variação dos dados pela diferença entre o mínimo e o

máximo. Este dado é denominado de At = Amplitude total.

Quadro 4: informações básicas necessárias para a construção de uma distribuição de frequências

n = Nº de valoresLi = Menor valorLs = Maior valorAt = Faixa de Variação


•Ordenação dos dados por meio do Ramo e Folhas

Na natureza ou na sociedade quando obtemos os dados eles seguem uma sequência ale-

atória que no mais das vezes não cumpre um ordenamento crescente. A distribuição de frequ-

ências pressupõe a construção de intervalos com padrões regulares e crescentes de forma que

nos primeiros intervalos serão alocados os valores mais baixos e nos últimos serão contados os

valores mais altos. Por isso, precisamos ordenar os dados de forma crescente. Como cada valor

representa uma observação, mesmo repetidas, cada uma deve constar para posterior contagem

da frequência.


40

Esta ordenação pode ser feita usando o programa Excel que classifica os dados por uma

variável ou fazer uma ordenação manual. O modo manual comumente utilizado, o da ordenação

visual, é muito demorado em grandes amostras. Temos uma outra alternativa, que é da organi-

zação em ramos e folhas.

Esta técnica busca nos dados duas faixas de variação: uma para os ramos – de variação

mais demorada, construída a partir da avaliação dos limites Li e Ls computada anteriormente

para o caso. Observamos de quanto a quanto os dados variam e construímos faixas de referên-

cias de maior amplitude; outra para as folhas, que é uma faixa de variação mais rápida dentro

da maior.

Por exemplo, se escolhemos uma variação nas dezenas para os Ramos, nas Folhas a va-

riação será das unidades. Após organizar o Ramo e folhas, alocamos cada observação no Ramo

adequado e registramos a parte da observação que não aparece no ramo. A apresentação do Ramo

e Folhas fica assim, se as informações básicas fossem estas (referentes ao ITR dos municípios de

Pequeno Porte I da Microrregião de Três Passos):

Quadro 5: informações básicas necessárias para a construção de uma distribuição de frequências

Li = R$ 0.533,00

Ls = R$ 15.989,00

Observações:

534 1902 2369 4145 15989 5418 4060 7660 1725 8291

2520 1325 947 6675 5514 4554 3703 2945 5196 922


Usando as informações básicas vamos considerar os valores de Li (R$ 0.533,00) e da Ls

(R$ 15.989,00) estrategicamente colocados um sobre o outro. Observando atentamente, verifi-

camos que o primeiro valor é inferior a mil, logo tem 0 (zero) milhares, e o máximo é superior

a 15 mil. Podemos então considerar o Ramo com a variação mais demorada: de 0 a 15 mil, e as

Folhas que apresentam uma Variação menor, ou seja, mais rápida na centena, dezena, unidade

– 000 a 999. Como verificamos que um grande vazio ocorre isolando o valor máximo, podemos

optar por informar todos os intervalos ou então indicar apenas o vazio, como foi realizado no

quadro a seguir. Os dados são distribuídos pelas linhas em acordo com o valor e a faixa correta,

registrando-se nas Folhas apenas o restante do número que não aparece no Ramo. Neste caso,

registramos centena, dezena e unidade. O passo seguinte é ordenar os valores nas linhas. Este

processo pode ser acompanhado no Quadro 6:

EaD

41


Quadro 6: dados distribuídos pela técnica de ramo e Folhas

RAMO E FOLHAS não ordenado RAMO E FOLHAS ordenado na linha

RAMO FOLHAS RAMO FOLHAS

0 534 725 947 922 0 534 725 922 947

1 902 325 1 325 902

2 369 520 945 2 369 520 945

3 703 3 703

4 145 .060 554 4 .060 145 554

5 418 514 196 5 196 418 514

6 675 6 675

7 660 7 660

8 291 8 291

. .

. .

15 989 15 989


Com essa técnica olhamos os dados apenas uma vez. São distribuídos inicialmente já nas

faixas certas e posteriormente ordenados em cada faixa, de forma rápida.

•Diagrama de Pontos

Outra técnica importante para verificar se a padronização dos dados está garantida, isto

é, se não há nem um valor muito fora do padrão, é o Diagrama de Pontos. Faz-se uma régua

parcial, dando conta da variação dos dados e se desenha um ponto para cada valor, respeitando

a primeira casa das Folhas apenas.

Com isso, será possível verificar se algum dos valores está muito fora do esquema e tam-

bém concluir sobre a forma provável da distribuição dos dados. Vamos enxergar as regiões de

concentração dos valores, e também, conseguimos visualizar as faixas de dispersão em que os

pontos se tornam mais raros, dispersos.

Chamamos os valores fora do padrão de pontos isolados, tecnicamente são os “outliers”.

Estes valores precisam ser reconhecidos, pois atrapalham a distribuição das observações nos

intervalos, constituindo uma quebra da terceira regra que impõe uma exigência de frequência

maior do que zero em todos os intervalos. Se a distância entre o penúltimo ponto e o “outlier” for

muito grande corremos o risco de ter fi = 0. Neste caso, este ponto deve ser descartado, colocado

em uma observação e o padrão será calculado com os pontos restantes. Necessariamente vamos

ter que redimensionar o n, Li ou Ls e o At. Vejamos como fica no exemplo dos Quadros 5 e 6.


42

Quadro 7: diagrama de Pontos dos municípios (em milhares)

o

o o o o

o o o o o o o o o o o o o o o

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15


Neste Diagrama de Pontos observamos perfeitamente que a maioria dos municípios apre-

senta ITR de 0 a 8 mil reais; este é, portanto, o padrão destes municípios, no entanto encontramos

um valor que pode ser considerado um “outlier”: o 15.989. Ele se encontra afastado dos demais e

não poderá ser agrupado, está fora do padrão. Existe um vazio entre ele e o valor imediatamente

anterior de mais de 7.500 reais. O tratamento dos dados deve colocar este valor à parte e informar

que temos um caso de valor fora do padrão, “outlier”, portanto.

Não se trata de perda de informação, mas sim de tratá-la em separado para evitar tenden-

ciosidades nas estatísticas. Os “outliers” tanto podem ser informações corretas que apresentam

uma outra tendência que não a do grupo de dados mais homogêneos, quanto pode ser valor

incorretamente observado.

Excluindo-se este valor as informações básicas modificam e passam a ser:

Quadro 8: informações básicas readequadas ao novo cenário de ocorrência de “outlier”

n = 19Li = R$ 534,00Ls = R$ 8.291,00At = R$ 7.757,00*


* Excluído o valor de R$ 15.989 por estar fora do padrão.

•Amplitude Parcial (hi)

Após o ajuste dos dados, o passo seguinte é calcular o número e o tamanho dos intervalos

que vão dar lugar à Amplitude Parcial (hi). A distribuição em faixas, usualmente, de igual ta-

manho, deve facilitar a leitura e a compreensão das informações. Em alguns casos, como o de

faixas etárias da população, é interessante adotar as faixas comumente utilizadas pelo IBGE,

permitindo uma comparação com resultados censitários. Este também é o caso de faixa de renda,

tamanho de propriedades rurais que impõem o uso de intervalos de tamanho diferenciado em

função da extrema variação de renda e hectares, por isso é interessante utilizar as faixas como

o faz o IBGE.

EaD

43


•O número de intervalos pode variar entre 4 e 10, tendo em vista que agrupar os dados pretende

facilitar a visão do conjunto de dados. Nesse caso o excesso de intervalos acabaria diluindo a

informação de forma a prejudicar a análise. O número de intervalos é dado pela n . Caso o

resultado dessa raiz for superior a 10, é possível adaptar para um resultado mais favorável.

•A amplitude parcial (hi) é o tamanho do intervalo, este resulta da aplicação de uma fórmula,

cuja resposta deve ser olhada apenas como um indicador do entorno de amplitude a ser em-

pregada. O ajuste deve sempre favorecer a visibilidade da informação, por isso nem sempre

o valor encontrado é diretamente utilizado. É necessário fazer uma aproximação do mesmo

de forma a atingir os objetivos de sua utilização. Essa aproximação permanece no entorno do

valor encontrado.

,.ti t s i

Ah A L L

n= = −

•Distribuição de Frequências (DF)

O passo seguinte é a construção da tabela de Distribuição de Frequências (DF). A ideia é

distribuir a frequência dos valores dentro das faixas construídas, mediante contagem delas no

Ramo e Folhas ordenado.

•é usual, tendo em vista a continuidade dos dados numa DF, utilizar um intervalo do tipo [ li

|-------– ls ]. Esta forma indica que valores a partir de li estarão sendo contados no intervalo,

pertencem a ele, no entanto valores iguais a ls serão incluídos no intervalo seguinte;

•decisão sobre o limite inicial do primeiro intervalo, lembrando que qualquer valor pode ser

utilizado, desde que se garanta a contagem de li nesse primeiro intervalo. A seguir, ls= li+ hi

permitirá construir todos os intervalos;

•checagem se o último intervalo contém o último valor. É preciso verificar se ele não é igual ao

limite superior (ls) do último intervalo, pois nesse caso não será contado no mesmo;

•outra checagem fundamental é quanto às frequências (fi) em cada intervalo. Todas elas devem

ser maiores do que zero, fi> 0;


44

•Além do fi, utilizaremos outros recursos para compreender o comportamento do fenômeno:

• fa: frequência absoluta acumulada. A ideia é a de ir acumulando as frequências observadas

de forma a verificar como elas se concentram. No primeiro intervalo, fa= fi; a partir de então

será acrescentada a do segundo intervalo e assim por diante fa2= fa1+ fi2

• fr%: frequência relativa percentual 100*n

x%f i

r =

• fr%ac: frequência relativa percentual acumulada, a primeira repete, a segunda fr%ac2= fr%ac1+

fr%2

Vejamos esta sequência de tratamentos aplicados ao exemplo dos municípios da Micror-região de Três Passos no que se refere ao ITR.

•Informações básicas após o ajuste de “outlier”

Como foi observada a presença de um “outlier”, a sua supressão gera modificações nas informações básicas.

Quadro 9: informações básicas readequadas ao novo cenário de ocorrência de “outlier”

n = 19Li = R$ 534,00Li = R$ 8291,00At = R$ 7.757,00


•Cálculo do tamanho do intervalo:

00,000.257,1779

3589,400,757.7

19

00,757.7 ≅====n

Ah t

i

Como o valor para a raiz de n é 4,3589, faremos aproximadamente 5 intervalos de tamanho 2 mil.

tabela 7: valor (r$ ) do imposto territorial rural (itr) arrecadado nos municípios da Microrregião de três Passos – rs/2007

Valores de Xi fi fa fr% fr%ac

0 |-------- 2.000 6 6 31,58 31,582.000 |-------- 4.000 4 10 21,05 52,634.000 |-------- 6.000 6 16 31,58 84,216.000 |-------- 8.000 2 18 10,53 94,748.000 |-------- 10.000 1 19 5,26 100,00

∑ 19 100,00

Fonte: IBGE/cidades.Obs.: Exceto o município de Campo Novo com valor do ITR= R$15.989,17, representando 26,68% do

imposto arrecadado na microrregião, considerado “outlier”, isto é, valor isolado, pois se encontra fora do padrão dos demais municípios.

EaD

45


Comentário 7: A arrecadação de ITR constitui-se de valores baixos (de 500 a 8,5 mil reais),

caracterizando pequenas propriedades na Microrregião, excetuando-se Campo Novo, que

apresenta um valor mais elevado, acima de R$ 15.000,00. Observa-se que em 84,21% dos

municípios a arrecadação do ITR foi inferior a 6 mil reais. Na faixa de menos de R$ 2.000,00

se concentram 31,58% dos municípios.

Na sequência de nossos estudos vamos verificar como a utilização de gráficos facilita a

leitura dos dados que foram sistematizados em tabelas. A diferença entre usar tabela ou gráfico

está na agilidade da informação ou no seu detalhamento: o gráfico dá um impacto direto, per-

mitindo a visualização rápida do comportamento geral dos dados, enquanto a tabela vai deixar

que o leitor conheça todos os detalhes desse comportamento, exigindo maior tempo de avaliação

para uma melhor compreensão do fenômeno. Vamos adiante?

seção 2.4

representação gráfica e sua leitura

Nada melhor do que um gráfico para potencializar uma visão geral e rápida do comporta-

mento dos dados. Os diagramas de colunas, barras, setores (pizza), linhas, pontos, são os mais

utilizados para apresentar tabelas simples e cruzadas e o histograma, polígono de frequências e

setores (limitado a 7 intervalos na DF) para representar a distribuição de frequências. O gráfico

pode ser feito manualmente ou com auxílio de um software tipo “Excel”.

Um cuidado que devemos ter é o de fazer uma escolha, ou utilizamos a tabela ou o grá-

fico, nunca os dois ao mesmo tempo, pois apesar de permitirem visões diferenciadas (a tabela

um olhar detalhista, o gráfico uma visão mais geral), as informações são as mesmas, e faremos

uma repetição desnecessária e incômoda para o leitor. A nossa análise é que vai definir o que

pretendemos enfatizar naquele momento, permitindo a escolha.

A composição do gráfico agrega essencialmente o título, a figura e a fonte:

•Título: deve identificar a variável apresentada, a população de origem, local e tempo de ocor-

rência. Quer dizer, o leitor do gráfico deve ficar perfeitamente situado em relação às informações

que lhe estão sendo apresentadas. O título pode ser colocado na parte superior ou inferior da

figura, pode ser numerado e seguir um mesmo padrão em todos eles.

•Figura: A figura deve identificar as informações que estão sendo apresentadas em cada eixo, de

preferência apresentar os valores em % para permitir comparações, uma vez que o valor absoluto

só permite comparações quando os n são iguais. Outro cuidado extremamente importante é


46

relativo à escala de apresentação dos dados. Deve-se ter o cuidado de apresentar como se fosse

uma régua, respeitando a base decimal. Algumas dicas na escolha dos gráficos: escolha o de

colunas, se as categorias forem palavras curtas ou siglas; opte pelo de barras se as categorias

forem palavras longas ou expressões; adote o de linhas se estiver apresentando uma variável

temporal, isto é, que evolui no tempo; escolha o de setores (pizza) se o objetivo for comparar o

desempenho das alternativas e estas forem num número máximo de 7 categorias; o histograma

de frequências se quiser representar uma Tabela de Distribuição de Frequências.

•Fonte: é imprescindível informar a fonte dos dados para agregar credibilidade e possibilidade

de voltar à informação original se for o caso.

Um gráfico sem estas três partes não é considerado um gráfico.

Vejamos alguns EXEMPLOS de gráficos:

grÁFico de colUnas

gráfico 1: distribuição dos municípios da Microrregião de três Passos segundo a densidade demográfica (hab./km2) rs/2007

1

8

56

0

2

4

6

8

Municípios

(< 10) (20 a 29) (30 a 39) (40 e mais)

Habitantes/km²

Gráfico 1: Distribuição dos municípios da Microrregião de Três Passos segundo a densidade demográfica (hab./km²) RS/2007

Fonte: IBGEFonte: IBGE.

Comentário: De forma geral podemos observar que a Microrregião de Três Passos apresenta

uma densidade demográfica igual a 20 hab./km², indicando uma boa concentração popula-

cional. O que mais ocorre são municípios com densidade entre 20 e 29 hab./km². O que menos

ocorre são municípios com pouca densidade, inferior a 10 hab./km².

EaD

47


grÁFico de Barras

gráfico 2: distribuiçção dos municípios da Microrregião de três Passos por porte – rs/2007

Gráfico 2: Distribuição dos municípios da Microrregião de Três Passos por porte - RS/2007.

11

9

0 2 4 6 8 10 12

1 – Pequeno Porte I (até 20 mil hab.)

2 - Pequeno Porte II(20 a 50 mil hab.)

Po

rte

Nº de muncípios


Comentário: A Microrregião de Três Passos é formada por 20 pequenos municípios. Observa-

se que 55% deles são classificados como Pequeno Porte nível I (< de 20 mil hab.) e 45% deles

como Pequeno Porte nível II (de 20.001 a 50 mil habitantes).

grÁFico de setores (PiZZa)

gráfico 3: avaliação do potencial municipal a partir do indicador de industrialização (nº de indústrias/10 mil hab.) Microrregião de três Passos – 2007

Gráfico 3: Avaliação do potencial municipal a partir do Indicador de Industrialização (nº de indústrias/10 mil hab.)

Microrregião d eTrês Passos - RS/2007.

5%

35%

50%

10%

1) Não industrializado 2) Pouco industrializado 3) Média industrialização 4) Industrializado

Fonte: IBGE.


48

Comentário: A sociedade em geral tem a percepção que um município deve incentivar inves-timentos na instalação de indústrias visando a potencializar a criação de empregos. Observa-mos que 50% dos municípios têm de 5 a 10,9 indústrias/10 mil habitantes, uma concentração média. Apenas 5% das comunidades são Não Industrializadas, certamente com atividades mais rurais.

grÁFico de linHas

gráfico 4: nº de agências financeiras no município – Microrregião de três Passos – rs/2007Gráfico 4: Nº de agências financeiras no município - Microrregião de Três Passos - RS/2007.

0

10

20

30

40

50

0 1 2 3 4 5

Nº de Agências

%

Fonte : IBGE

Fonte: IBGE.

Comentário: Numa sociedade capitalista como a nossa, a função das agências financeiras canaliza as movimentações, no entanto, o avanço das agências virtuais por meio da Internet minimiza a necessidade do acesso físico no local de moradia. A agência presencial facilita a solução de problemas por potencializar o contato pessoal. Na Microrregião, 45% das loca-lidades não têm agência financeira e isto é explicado pelo porte dos municípios. Apenas três municípios apresentam três ou mais agências.

grÁFico de taBelas crUZadas (Bivariadas)

gráfico 5: distribuição dos municípios (%) segundo o nº de agências financeiras e o porte do município – Microrregião de três Passos – rs/2007

Gráfico 5: Distribuição dos municípios (%) segundo o nº de agências financeiras e o porte do município - Microrregião de

Três Passos - RS/2007.

63,6

18,2 18,222,211,1

66,8

0

20

40

60

80

0 1 2 ou mais

Nº de Agências

%

Pequeno I Pequeno IIFonte: IBGE.

EaD

49


Comentário: A análise dessa visão bidimensional corrobora com a opinião emitida no gráfico

anterior. Os municípios que não têm agência financeira são 63,6% dos de pequeno porte I

e os que possuem 2 ou mais agências são 66,8% dos municípios de pequeno porte II. Desta

forma podemos verificar que existe uma associação entre a presença de agências financeiras

e o porte do município na Microrregião de Três Passos.

HistograMa de FreQUÊncias

gráfico 6: arrecadação do itr imposto territorial rural pormunicípio na Microrregião de três Passos – rs/2007Gráfico 6: Arrecadação do ITR - Imposto Territorial Rural por

município na Microrregião de Três Passos - RS/2007.

0

31,58

21,05

31,58

10,53

05

101520253035

0 2.000 4.000 6.000 8.000 10.000

ITR (R$)

%


Comentário: Entendemos que a Microrregião de Três Passos tem uma tradição de pequenas

propriedades rurais e produção de alimentos com mão de obra familiar. As duas faixas de ar-

recadação que concentram os municípios incluem aqueles que arrecadam ITR < R$ 2.000,00

(31,58%) e ITR no intervalo de 4 a 6 mil reais também com 31,58% dos municípios. No geral,

85% das localidades arrecadam menos de R$ 6.000,00.

Nesses exemplos foi possível comprovar que visualizar as informações das tabelas por

meio de gráficos torna a informação muito mais dinâmica e rápida, porém tem suas limitações

em termos de detalhes. Vejamos agora como aplicar estes conhecimentos. Seguem-se alguns

bancos de dados que precisam ser trabalhados conforme o conhecimento exemplificado até ago-

ra: tabelas simples uni e bivariadas, gráficos, comentários. Agilize-se e mostre o que aprendeu,

aproveitando para refazer os exemplos ampliando seu conhecimento.

seção 2.5

aplicações

Para desenvolver habilidades na aplicação dos conceitos e tratamentos apresentados ante-

riormente, solicitamos que aplique o tratamento adequado nos seguintes bancos de dados:


50

1) Banco de dados número 2 apresenta algumas variáveis sociais da Mesorregião Centro Oci-

dental Rio-Grandense por município, fornecidas pelo IBGE, com classificações que foram

pesquisadas em artigos publicados na Internet para serem aqui atribuídas. Como vimos, o RS

é constituído de sete mesorregiões. A Centro-Ocidental abrange três microrregiões (Santiago,

Restinga Seca e Santa Maria) e 31 municípios. A abordagem pretendida com este tratamento

estatístico visa a construir um panorama referencial de informações que dizem do exercício

da democracia e cidadania por meio de Indicadores Sociais. Aproveite e complete os espaços

pontilhados:

Quadro 10: informações sobre variáveis e categorias 456

N: Nº de ordem dos registrosMunicípio: Variável ............................ pois seus valores são ................................................................................;X1: Índice de Pobreza, Variável...............................................................................................................................;X2: Classificação do Índice de Pobreza, Variável aleatória ...................................................................................,

sendo 1) Baixa proporção (<15%); 2) Média Proporção (15 a 29%); 3) Alta proporção (≥ 30%)4

X3: Índice de Pobreza Subjetiva, V. A. ....................................................................................................................X4: Classificação da Pobreza Subjetiva , V. A. ........................................................................................................X5: Índice de Gini, Indicador de distribuição de renda, V. A. ...............................................................................X6: Classificação do IG V. A. ........................... (0 a 8, (0-Igualdade e 8-Desigualdade), 0 -< 25; 1– 25 a 29,9;

2– 30 a 34,9; 3– 35 a 39,9; 4-40 a 44,9; 5– 45 a 49,9; 6– 50 a 54,9; 7-55 a 59,9; 8– 60 e mais5

X7: Residentes, V. A. ................................................................................................................................................X8: Porte do município V. A, ...................................; ( 1: Pequeno I – até 20 mil hab.; 2: Pequeno II – 20001 a

50000; 3: Médio – 50001 a 100000; 4: Grande – 100001 a 900000; 5: Metrópole – > 900 000.6


4www.pnud.org.br/hdr/hdr97/rdh7-1.htm5CoeficientedeGini,Origem:Wikipédia,aenciclopédialivre.6 portalsocial.sedsdh.pe.gov.br/.../Gloss%E1rio%20tabela%20dos%20munic%EDpios.pdf

EaD

51


Quadro 11: Banco de dados nº 2: variáveis sociais da Mesorregião centro ocidental rio-grandense por município

N Mun Pobreza Cls_pobr Pobresubj Cls_pobsubj Igini Cls_IG Residentes Porte1 Agudo 17,35 2 13,55 1 0,41 4 16.714 12 Cacequi 34,21 3 27,6 2 0,41 4 13.629 13 Capão do Cipó 999 999 999 999 999 999 3.180 14 Dilermando de Aguiar 20,31 2 15,93 2 0,35 3 3.129 15 Dona Francisca 23,21 2 18,16 2 0,42 4 3.572 16 Faxinal do Soturno 21,99 2 17,05 2 0,43 4 6.343 17 Formigueiro 20,37 2 15,75 2 0,39 3 7.116 18 Itaara 29,94 2 23,4 2 0,39 3 4.633 19 Itacurubi 25,67 2 20,48 2 0,38 3 3.568 110 Ivorá 15,96 2 11,64 1 0,36 3 2.378 111 Jaguari 19,72 2 14,94 1 0,39 3 11.626 112 Jarí 20,12 2 15,9 2 0,35 3 3.692 113 Júlio de Castilhos 30,37 3 23,89 2 0,39 3 19.541 114 Mata 22,12 2 16,96 2 0,37 3 5.291 115 Nova Esperança do Sul 28,63 2 21,25 2 0,36 3 4.775 116 Nova Palma 17,49 2 12,93 1 0,37 3 6.432 117 Pinhal Grande 22,83 2 16,9 2 0,37 3 4.496 118 Quevedos 22,66 2 17,95 2 0,37 3 2.732 119 Restinga Seca 21,02 2 16,77 2 0,4 4 15.595 120 Santa Maria 25,26 2 18,98 2 0,44 4 263.403 421 Santiago 26,76 2 20,75 2 0,41 4 49.558 222 São João do Polêsine 14,18 1 10,6 1 0,4 4 2.702 123 São Martinho da Serra 18,29 2 13,47 1 0,35 3 3.409 124 São Pedro do Sul 26,3 2 21 2 0,4 4 16.613 125 São Sepé 27,43 2 20,66 2 0,4 4 23.787 226 São Vicente do Sul 23,61 2 17,91 2 0,39 3 8.361 127 Silveira Martins 18,86 2 13,74 1 0,36 3 2.479 128 Toropi 15,79 2 11,73 1 0,34 2 3.070 129 Tupanciretã 30,05 3 24,12 2 0,39 3 22.556 230 Unistalda 25,9 2 19,67 2 0,36 3 2.392 131 Vila Nova do Sul 24,67 2 19,04 2 0,36 3 4.255 1

Fonte: IBGE, contagem 2007.

Obs.: 9)99 é o código para NI, NR, Não Tem a informação.

Nossa pergunta relaciona-se com o Perfil da Pobreza na Mesorregião Centro Ocidental Rio-

Grandense.

2) Banco de dados número 3 apresenta algumas variáveis da Microrregião de Ijuí, com as

mesmas variáveis do banco número 2, e responde à mesma pergunta anterior, porém nesta

microrregião.


52

Quadro 12: Banco de dados número 3: variáveis sociais relacionadas com as condições de acesso à riqueza da Microrregião de ijuí por município

N Mun PobrezaCls_

pobr

Pobre-

subj

Cls_po-

bsubjIgini Cls_IG Residentes Porte

Area_

terr

Cls_

area

Densi-

dade

Cls_

dens

1 Ajuricaba 19,3 2 13,79 1 0,37 3 7.261 1 323 2 22,5 42 Alegria 25,42 2 20,1 2 0,38 3 4.789 1 173 1 27,7 43 Augusto Pestana 16,4 2 11,98 1 0,37 3 7.273 1 347 2 21,0 44 Bozano 999 999 999 999 999 999 2.296 1 201 2 11,4 45 Chiapetta 24,55 2 19,3 2 0,37 3 4.078 1 396 2 10,3 46 Condor 23,17 2 17,76 2 0,38 3 6.607 1 465 2 14,2 47 Coronel Barros 15,98 2 12,36 1 0,35 3 2.441 1 163 1 15,0 48 Coronel Bicaco 26,81 2 20,75 2 0,39 3 7.873 1 492 2 16,0 49 Ijuí 26,16 2 19,68 2 0,42 4 76.739 3 689 3 111,4 310 Inhacorá 32,31 3 25,7 2 0,35 3 2.290 1 114 1 20,1 411 Nova Ramada 12,36 1 9,44 1 0,35 3 2.461 1 255 2 9,7 412 Panambi 25,79 2 18,97 2 0,39 3 36.360 2 491 2 74,1 413 Pejuçara 22,46 2 16,98 2 0,38 3 3.900 1 414 2 9,4 414 Santo Augusto 29,16 2 23,47 2 0,4 4 13.622 1 468 2 29,1 415 São Valério do Sul 28,02 2 20,06 2 0,38 3 2.635 1 108 1 24,4 4

Fonte: IBGE/cidade.

É necessário acrescentar algumas definições de variáveis às que já estavam definidas

anteriormente no Quadro 10.

Quadro 13: informações sobre variáveis e categorias complementares

Área_territorial (km²) V. A. .....................

Cls_área V. A. ..................... (1. Pequeno (<200 km²); 2. Médio (200 a 500 km²); 3. Grande (> 500 km²)

Densidade Demográfica

(hab./km²)V. A. .....................

Cls_densidade V. A. ..................... (1. < 10; 2. 10 a 19; 3. 20 a 29; 4. 30 a 39; 5. 40 e mais)


3) Banco de dados número 4 apresenta a série histórica de algumas variáveis econômico/sociais

coletadas na Região Metropolitana de Porto Alegre.

EaD

53


Quadro 14: Banco de dados número 4: variáveis econômico/sociais coletadas na região Metropolitana de Porto alegre por município

Período

Mês

na

série

Tx desocu-

pação

não

quer

trab

Cart

assimPeríodo

Mês

na

série

Tx desocu-

pação

não

quer

trab

Cart

assimPeríodo

Mês

na

série

Tx desocu-

pação

não

quer

trab

Cart

assim

mar/02 1 10,4 77,7 47,6 ago/04 30 7,3 84,8 47,6 jan/07 59 8,1 85,3 49,3

abr/02 2 11,2 80,7 48,1 set/04 31 8,4 86,5 47,3 fev/07 60 7,5 85,0 49,7

mai/02 3 10,8 80,0 49,3 out/04 32 7,0 87,3 46,9 mar/07 61 7,3 86,1 50,3

jun/02 4 9,4 80,3 47,3 nov/04 33 7,2 86,9 47,9 abr/07 62 7,1 86,1 48,8

jul/02 5 9,8 79,5 47,8 dez/04 34 6,5 88,7 46,4 mai/07 63 6,5 86,9 49,1

ago/02 6 8,5 80,7 47,4 jan/05 35 6,9 87,2 47,0 jun/07 64 7,8 87,4 49,5

set/02 7 9,4 81,7 47,8 fev/05 36 6,6 87,3 47,9 jul/07 65 7,5 88,2 49,3

out/02 8 8,3 79,8 47,0 mar/05 37 6,9 88,0 49,2 ago/07 66 7,9 88,8 50,8

nov/02 9 8,7 80,8 46,6 abr/05 38 6,5 87,3 49,5 set/07 67 6,7 89,0 49,8

dez/02 10 7,5 79,8 48,5 mai/05 39 6,9 86,6 49,2 out/07 68 5,9 89,3 49,3

jan/03 11 8,2 80,8 49,6 jun/05 40 6,2 86,0 49,6 nov/07 69 5,9 89,2 50,1

fev/03 12 8,7 81,8 49,1 jul/05 41 5,7 87,2 49,7 dez/07 70 5,1 88,6 50,2

mar/03 13 9,8 80,9 48,0 ago/05 42 6,7 87,0 49,7 jan/08 71 5,6 87,2 52,1

abr/03 14 9,3 79,0 47,2 set/05 43 7,6 87,9 48,9 fev/08 72 6,1 87,9 50,6

mai/03 15 9,7 79,4 46,9 out/05 44 6,4 88,4 49,1 mar/08 73 5,5 88,2 50,6

jun/03 16 11,0 81,5 45,7 nov/05 45 7,2 90,0 48,9 abr/08 74 6,9 87,0 50,3

jul/03 17 9,3 81,7 45,1 dez/05 46 6,5 89,1 49,8 mai/08 75 6,0 86,1 50,4

ago/03 18 10,0 82,9 47,2 jan/06 47 7,8 88,1 49,1 jun/08 76 5,9 86,3 50,9

set/03 19 10,6 83,2 46,9 fev/06 48 7,1 89,0 49,4 jul/08 77 5,8 86,6 52,1

out/03 20 9,9 84,3 47,7 mar/06 49 8,0 90,6 48,7 ago/08 78 5,6 87,4 51,0

nov/03 21 9,0 84,8 46,5 abr/06 50 7,8 91,0 48,8 set/08 79 5,6 87,7 51,4

dez/03 22 7,0 84,5 47,0 mai/06 51 8,9 88,4 48,6 out/08 80 5,7 87,9 51,5

jan/04 23 7,6 84,4 48,4 jun/06 52 7,9 87,4 48,4 nov/08 81 5,0 89,4 51,1

fev/04 24 7,4 84,4 48,2 jul/06 53 9,3 86,9 48,7 dez/08 82 4,4 86,8 51,6

mar/04 25 9,1 84,4 48,4 ago/06 54 7,7 87,0 49,2 jan/09 83 5,5 87,2 53,1

abr/04 26 9,2 83,5 48,4 set/06 55 8,1 88,1 49,9 fev/09 84 6,0 87,4 53,2

mai/04 27 8,8 86,2 48,0 out/06 56 8,2 88,7 49,8 mar/09 85 6,0 88,4 52,0

jun/04 28 8,7 84,0 48,6 nov/06 57 7,3 88,8 49,5

jul/04 29 7,8 83,9 47,8 dez/06 58 6,2 87,1 48,9

Fonte: IBGE, Diretoria de Pesquisas, Coordenação de Trabalho e Rendimento,

Pesquisa Mensal de Emprego mar. 2002-mar. 2009.

Classifique as variáveis e crie a pergunta, faça o tratamento dos dados e analise.

5) Banco de dados número 5 apresenta dados das Unidades da Federação relativos à participação

dos idosos e população com 100 anos ou mais.


54

Quadro 15: Banco de dados número 5: participação dos idosos e população com 100 anos ou mais por UF/Br

Situação do domicílio

Urbana Rural

Sexo Homens Mulheres Homens Mulheres

Idade100 ou

mais60 e mais

100 e

mais/ 10

mil

100 ou

mais60 e mais

100 e

mais/

10 mil

100 ou

mais60 e mais

100 e

mais/

10 mil

100 ou

mais60 e mais

100 e

mais/ 10

mil

SP 87 464.003 2 97 334.542 3 11 68.376 2 5 17.690 3

RO 5 21.668 2 3 15.403 2 3 16.795 2 1 3.470 3

TO 9 24805 4 11 19721 6 3 13750 2 1 3171 3

PI 23 56.578 4 34 55.083 6 13 48.145 3 6 18.706 3

SC 22 102.609 2 32 79.422 4 7 45.780 2 5 14.038 4

CE 36 100.831 4 57 84.344 7 34 95.875 4 17 37.972 4

MO 16 55.743 3 14 37.788 4 6 21.794 3 2 3.659 5

PR 49 171.130 3 56 127.382 4 14 76.137 2 14 22.173 6

MS 21 59.602 4 15 45.913 3 2 14.288 1 2 3.140 6

PA 19 54.159 4 26 42.259 6 18 55.138 3 12 18.417 7

ES 19 40.829 5 41 31.419 13 8 24.310 3 5 7.625 7

MA 41 93.405 4 72 94.528 8 26 74.394 3 27 36.347 7

RS 32 188.766 2 76 156.827 5 14 101.524 1 24 32.002 7

AL 22 53.694 4 38 55.859 7 14 28.371 5 12 14.965 8

PB 37 87.113 4 58 90.234 6 23 45.917 5 20 21.044 10

PE 49 106.659 5 86 108.769 8 22 68.573 3 34 33.805 10

MG 139 369.719 4 235 303.217 8 49 156.357 3 57 55.542 10

GO 45 89.364 5 53 68.289 8 9 31.069 3 7 6.613 11

SE 26 32.837 8 48 38.943 12 19 19.580 10 15 12.032 12

RJ 31 104.947 3 53 87.452 6 7 18.150 4 11 8.324 13

BA 133 174.018 8 253 170.736 15 113 176.287 6 126 86.580 15

AM 11 39.727 3 14 38.731 4 7 17.301 4 8 4.619 17

AP 2 7336 3 6 6832 9 1 1381 7 1 502 20

RR 2 4273 5 2 3837 5 1 2324 4 1 496 20

RN 42 70.127 6 60 64.739 9 17 30.472 6 28 12.852 22

AC 2 9130 2 1 8565 1 3 4985 6 - 1305 -

Fonte: IBGE/Estados.

Classifique as variáveis e crie a pergunta, faça o tratamento dos dados e analise.

resUMo da Unidade 2

Esta unidade foi dedicada a descrever um conjunto de dados obtidos por

meio de pesquisa, de levantamentos, de registros, de censos, mediante sua

sistematização e apresentação em tabelas simples – univariadas e bivaria-

das – e gráficos. Aprendemos que não se deve representar as informações

obtidas por meio de gráficos e tabelas simultaneamente, pois ambas vão

apresentar as mesmas descrições. As tabelas serão elaboradas quando for

necessário fornecer os detalhes e os gráficos quando a intenção for obter

uma visão geral e rápida do comportamento da(s) variável (eis).

EaD

55


Medidas QUe descreveM o conjUnto de dados

Ruth Marilda Fricke


•Descrever o conjunto de dados quantitativos de forma sintetizada por meio da média e suas

alternativas e dominar a variação em torno das mesmas com a finalidade de conhecer sua

tendenciosidade, apoiando a escolha da medida apropriada para descrever comportamentos

padrões na área da administração.

seçÕes desta Unidade:

Seção 3.1– Quadro-resumo das fórmulas

Seção 3.2 – Medida de Tendência Central e de Variabilidade – Conceitos e Operacionalização

Seção 3.3 – Aplicações.

A coleta de dados e sua representação em tabelas e gráficos permite uma visão detalhada

e circunstanciada da informação aliada ao espaço e tempo que está descrevendo. Outra manei-

ra de descrever esse conjunto de informações é expressá-lo por números típicos que consigam

sintetizar esse padrão e forneçam informações comparáveis entre diversos conjuntos de dados,

independentemente do tamanho da amostra que está sendo utilizada.

As medidas típicas de uma variável quantitativa são especialmente a média aritmética, que

considera cada valor da variável com a mesma importância no conjunto de dados e verifica qual o

número que pode dar uma ideia desse comportamento. A população é, então, analisada por esse

número, avaliando-se que cada observação é entendida a partir dele, iX = média ± certo desvio.

Para facilitar o entendimento do tratamento descritivo e das relações entre as medidas vamos

trabalhar de forma relacionada a média e a variabilidade e posteriormente as alternativas para

o caso de a média não se constituir numa informação válida, isto é, para o caso de apresentar

tendenciosidade.

Unidade 3


56

seção 3.1

Quadro-resumo das Fórmulas

As medidas descritivas vão fornecer números típicos que descrevem o comportamento dos

dados. São elas as Medidas de Tendência Central e as Medidas de Variabilidade. Para facilitar

o manuseio das fórmulas necessárias para o cálculo das estatísticas desta unidade vamos iniciar

com um quadro-resumo de fórmulas.

As fórmulas para o cálculo das medidas descritivas são apresentadas somente para variáveis

quantitativas com duas opções: para série numérica (n< 20) e distribuição de frequências (n ≥

20), em dois quadros: um para as Medidas de Tendência Central: Média ( X ), Mediana (Md)

e Moda (Mo), outro para as Medidas de Variabilidade: Variância absoluta (s²), Desvio padrão

(s) e Coeficiente de Variação (CV).

Quadro 1: Quadro-resumo das fórmulas das Medidas de tendência central – Mtc

Medidas Série Numérica Distribuição de freqüências

Média Aritmética

( na amostra e µ

na população)

1

ni

i

xX

n=

= ∑( )

2,...

1

si

i

n

i

iill

Xn

xfX

+== ∑

=

Mediana (Md)

N par → P = 2

n

, a Mediana é

a média dos dois valores cen-

trais, i .é. , do P-ésimo valor e o

seguinte.

N ímpar → P =1

2

n +, a Media-

na é o P-ésimo valor.

P = 2

n→ localizar no af o imd,

intervalo mediano. Seleciona o in-

tervalo e retira todos os dados com

exceção da faa que é o fa anterior.

( )i

iaai f

hfPlMd

−+=

Moda (Mo)

A moda numa série numérica é

o valor mais repetido, i .é, com

concentração máxima. A série

pode ser:

Amodal – sem moda

Unimodal – um valor modal

Bimodal – dois valores modais

Plurimodal – mais de dois valo -

res mais repetidos

if → localizar no > if o imo, inter-

valo modal. Seleciona o intervalo e

retira todos os dados.

ii h

dd

dlMo

+

+=21

1

,antm ffd −=1 postm ffd −=2

mf : frequência máxima

antf : frequência anterior à máxima

postf : frequência posterior à máxima

Fonte: Elaboração da autora a partir da literatura estatística.

EaD

57


Entendemos que será fácil para o estudante visualizar e comparar as diferenças que as fór-

mulas apresentam quando são utilizadas em séries numéricas ou distribuições de frequências.

Fundamentalmente, compreendemos que a série não apresenta grande dificuldade de

obtenção das informações e de compreensão de seu significado e do que elas indicam no caso

da tendência central, pois apresenta uma listagem dos dados. A maior complexidade do cálcu-

lo na distribuição de frequências deve-se ao fato de que os intervalos não dão visibilidade ao

valor em si, mas ao número de ocorrências dentro do intervalo, à respectiva faixa de variação

e principalmente ao fato de que não trabalhamos com o próprio valor, mas sim com um valor

representativo, que é o ponto médio. Isso exige uma certa disposição para recriar a informação.

As fórmulas servem para recuperá-la. Observa-se que para a Média Aritmética e para a Variância

as fórmulas se modificam apenas pela inclusão do Xi ponto médio no caso da DF.

Quadro 2: Quadro-resumo das fórmulas das Medidas de variabilidade ou dispersão – Mv

Medidas Série Numérica Distribuição de frequências

Variância Absoluta

(s² ou σ²)

( )2

22

1

ni

i

xS x

n=

= −∑se pequena amostra )30( <n , aplica

Fator de Correção –

1−=

n

nFC

FCSS .2* =

( )21

22 x

n

xfS

n

i

ii −= ∑=

se pequena amostra )30( <n , aplica

Fator de Correção –

1−=

n

nFC

FCSS .2* =

Desvio padrão

(s ou σ)2S S= 2SS =

Coeficiente de

Variação (CV)CV > 60%, Moda é padrão

100S

CVX

=

100S

CVX

=

CV < 30%, Média é padrão

30% ≤CV ≤ 60%, Mediana é padrão

CV > 60%, Moda é padrão

Intervalo de Nor-

malidade (IN)*

65% ;IN X S X S= − +

95% 2* ; 2*IN X S X S= − +

99% 3* ; 3*IN X S X S= − +

65% ;IN X S X S= − +

95% 2* ; 2*IN X S X S= − +99% 3* ; 3*IN X S X S= − +

Fonte: Elaboração da autora a partir da literatura estatística.

* O Intervalo de Normalidade só é aplicável quando a média é válida, isto é, CV < 30%.


58

Alguns conceitos básicos são importantes e serão apresentados num quadro, permitindo

um debate e sua ampliação em pesquisa conceitual.

A seção a seguir vai tratar principalmente do cálculo e interpretação dessas medidas. É

importante para uma boa aprendizagem que todos os exemplos sejam retomados por você.

seção 3.2

Medida de tendência central e de variabilidade – conceitos e operacionalização

Iniciamos com uma apresentação dos conceitos, propiciando que sejam discutidas as razões

que levam a sua utilização. A ideia principal, como já foi expresso anteriormente, é a de resumir

o comportamento dos dados em números que sirvam de parâmetro para sua análise.

Como a informação mais usualmente empregada, e observa-se que ela é influenciada pelos

valores extremos da variável, é importante que verifiquemos como os dados se concentram ou

se dispersam em relação à média para avaliar a adequabilidade de seu uso ou a necessidade de

buscar medidas alternativas, como a mediana ou a moda.

Cada uma das Medidas de Tendência Central vai olhar a centralidade dos dados por uma

ótica:

•Média – centro em termos de massa

•Mediana – centro real

•Moda – centro em termos de concentração

A variabilidade vai permitir concluir sobre a homogeneidade ou heterogeneidade dos va-

lores obtidos em relação à média aritmética:

•em sendo homogêneos, a distribuição dos valores se concentra em torno da média;

•em sendo heterogêneos, a distribuição dos valores se dispersa em torno da média.

EaD

59


Quadro 3: Quadro-resumo de conceitos básicos para Medidas de tendência central e das Medidas de variabilidade ou dispersão

MEDIDAS DE TENDÊNCIA CENTRALMÉDIA ARITMÉTICA Ponto de equilíbrio da variável em termos de massa

MEDIANAPonto central da distribuição de dados separa o conjunto em dois grupos

de 50% cadaMODA É o valor mais frequente no conjunto de dados

MEDIDAS DE VARIABILIDADEVARIÂNCIA ABSOLUTA Mede os desvios quadráticos dos valores em relação à médiaDESVIO PADRãO Informa o desvio médio dos valores em relação à média

COEFICIENTE DE VARIAçãOValor relativo da variabilidade em torno da média, permite obter uma

conclusão sobre a validade da média

INTERVALO DE NORMALIDADEIntervalo em torno da média considerando um afastamento médio em

relação a ela

Fonte: Elaboração da autora com base em literatura estatística.

As fórmulas para o cálculo das medidas descritivas são apresentados com duas variações:

para Série Numérica e para Distribuição de Frequências (DF). Como podemos observar no

quadro resumo das fórmulas, a principal diferença é que na série temos os valores individual-

mente e podemos somá-los diretamente, enquanto que na DF eles estão dentro de um intervalo

de valores e o que sabemos é a sua frequência, isto é, a sua repetição. Nesse caso, temos de

encontrar um valor que represente o intervalo. Este valor será denominado de Xi, ponto médio.

É na verdade o meio do intervalo que adotamos como se todos os valores do intervalo fossem

iguais a ele. Por exemplo: num intervalo de 10 |-----– 20 o ponto central é 15 pois (10+20)/2

= 15, ( )

2

i s

i

l lX

+= ; logo, se nesse intervalo forem contados 5 valores, fi = 5, então a soma dos

mesmos será 5*15=75.

Vamos trabalhar com a aplicação desses conteúdos num banco de dados que traz informa-

ções sobre o desenvolvimento das microrregiões do RS e respectivas mesorregiões.


60

Quadro 4: variáveis, seus conceitos, categorias e tipo de variável do banco de dados nº 5 com as microrregiões do rs e respectivas mesorregiões

Microrregião

Microrregião é, de acordo com a Constituição Brasileira de 1988, um agrupamento de

municípios limítrofes. Sua finalidade é integrar a organização, o planejamento e a exe-

cução de funções públicas de interesse comum, definidas por lei complementar estadu-

al. VA qualitativa não ordenável. Significado dos códigos estão no banco de dados.

Mesorregião

Mesorregião é uma subdivisão dos Estados brasileiros que congrega diversos municí-

pios de uma área geográfica com similaridades econômicas e sociais. Foi criada pelo

IBGE e é utilizada para fins estatísticos e não constitui, portanto, uma entidade políti-

ca ou administrativa. VA qualitativa não ordenável. Significado dos códigos estão no

banco de dados.

IDH-Médio

O Índice de Desenvolvimento Humano (IDH) é uma medida comparativa que engloba

três dimensões: riqueza, educação e esperança média de vida. É uma maneira padro-

nizada de avaliação e medida do bem-estar de uma população. O índice vem sendo

usado desde 1993 pelo Programa das Nações Unidas para o Desenvolvimento. Primei-

ros do mundo Islândia e Noruega IDH = 0,968. Va Quantitativa Contínua pode ser

transformada em VA qualitativa ordenável ([1. Baixa (0 a 0,499); 2. Médio (0,5 a 0,799);

3. Alto (0,8 a 1).

PIB per capita

O produto interno bruto (PIB) representa a soma (em valores monetários) de todos os

bens e serviços finais produzidos numa determinada região (quer seja países, Estados,

cidades), durante um período determinado (mês, trimestre, ano, etc.). O PIB é um dos

indicadores mais utilizados na macroeconomia com o objetivo de mensurar a ativida-

de econômica de uma região. Os indicadores econômicos agregados (produto, renda,

despesa) indicam os mesmos valores para a economia de forma absoluta. Dividindo-se

esse valor pela população de um país, obtém-se um valor médio per capita. VA Quanti-

tativa Contínua. Pode ser transformado em VA Qualitativa Ordenável [ 1. Pobre PIB PC

< U$ 7 mil; 2.Em desenvolvimento (7 a 24,99 mil dólares); 3. Rico (> de 25 mil dóla-

res)].

Densidade

Densidade populacional, densidade demográfica ou População relativa é a medida

expressa pela relação entre a população e a superfície do território, geralmente aplica-

da a seres humanos, mas também a outros seres vivos (comumente animais). É geral-

mente expressa em habitantes por quilômetro quadrado. O país com a maior densidade

populacional é Mônaco (16.620) e a menor é a Mongólia (1). É uma VA Quantitativa

contínua. Se transformada em faixas temos uma VA Qualitativa Ordenável [1. Alta

densidade: mais de 1000 hab./km2; 2.Grande densidade: de 50 hab./km2 a 1000 hab./

km2; 3 Média densidade: de 10 hab./km2 a 500 hab./km2; 4 Baixa densidade: menos

de 100 hab./km2 ]

Fonte: Elaboração da autora com base em dados do IBGE.

EaD

61


Quadro 5: Banco de dados número 5 com as variáveis sociais e econômicas com as microrregiões do rs e respectivas mesorregiões

microrregião

cod_

microrre-

gião

cod_

mesorre-

gião

mesorregião IDH_ médio PIB per capita DENSIDADE

24. Restinga Seca 24 1 1.Centro Ocidental Rio-grandense 0,778 R$ 10.771,63 22,7

27. Santa Maria 27 1 1.Centro Ocidental Rio-grandense 0,824 R$ 7.107,62 31,8

29. Santiago 29 1 1.Centro Ocidental Rio-grandense 0,781 R$ 11.515,27 10,2

1. Cachoeira do Sul 1 2 2.Centro Oriental Rio-grandense 0,772 R$ 8.085,83 21,1

16. Lajeado-Estrela 16 2 2.Centro Oriental Rio-grandense 0,787 R$ 14.741,40 73,6

26. Santa Cruz do Sul 26 2 2.Centro Oriental Rio-grandense 0,782 R$ 15.779,80 57,1

2. Camaquã 2 3 3.Metropolitana de Porto Alegre 0,765 R$ 9.404,93 22,6

12. Gramado-Canela 12 3 3.Metropolitana de Porto Alegre 0,819 R$ 10.191,58 113,7

18. Montenegro 18 3 3.Metropolitana de Porto Alegre 0,819 R$ 14.885,89 94,4

20. Osório 20 3 3.Metropolitana de Porto Alegre 0,792 R$ 7.222,50 37,1

23. Porto Alegre 23 3 3.Metropolitana de Porto Alegre 0,829 R$ 11.500,41 665,2

31. São Jerônimo 31 3 3.Metropolitana de Porto Alegre 0,779 R$ 45.175,33 28,9

7. Caxias do Sul 7 4 4.Nordeste Rio-grandense 0,852 R$ 17.417,44 153

13. Guaporé 13 4 4.Nordeste Rio-grandense 0,823 R$ 17.866,55 35,8

35. Vacaria 35 4 4.Nordeste Rio-grandense 0,754 R$ 11.381,48 9,4

6. Carazinho 6 5 5.Noroeste Rio-grandense 0,768 R$ 12.005,06 32,9

8. Cerro Largo 8 5 5.Noroeste Rio-grandense 0,756 R$ 10.470,75 30,17

9. Cruz Alta 9 5 5.Noroeste Rio-grandense 0,77 R$ 14.709,39 18,9

10. Erechim 10 5 5.Noroeste Rio-grandense 0,778 R$ 12.514,84 38,2

11. Frederico Westphalen 11 5 5.Noroeste Rio-grandense 0,758 R$ 8.743,02 33,8

14. Ijuí 14 5 5.Noroeste Rio-grandense 0,784 R$ 12.875,91 35,9

19. Não-Me-Toque 19 5 5.Noroeste Rio-grandense 0,786 R$ 19.420,57 28,3

21. Passo Fundo 21 5 5.Noroeste Rio-grandense 0,797 R$ 13.922,97 45,3

25. Sananduva 25 5 5.Noroeste Rio-grandense 0,775 R$ 11.576,32 19,3

28. Santa Rosa 28 5 5.Noroeste Rio-grandense 0,813 R$ 11.606,43 47,1

30. Santo Ângelo 30 5 5.Noroeste Rio-grandense 0,783 R$ 10.076,02 18,77

33. Soledade 33 5 5.Noroeste Rio-grandense 0,75 R$ 7.294,43 20

34. Três Passos 34 5 5.Noroeste Rio-grandense 0,779 R$ 13.743,19 36,7

15. Jaguarão 15 6 6.Sudeste Rio-grandense 0,761 R$ 8.115,95 9,3

17. Litoral Lagunar 17 6 6.Sudeste Rio-grandense 0,786 R$ 16.766,70 27,9

22. Pelotas 22 6 6.Sudeste Rio-grandense 0,794 R$ 6.607,87 48,6

32. Serras de Sudeste 32 6 6.Sudeste Rio-grandense 0,744 R$ 8.152,46 7,4

3. Campanha Central 3 7 7.Sudoeste Rio-grandense 0,78 R$ 6.780,64 11,8

4. Campanha Meridional 4 7 7.Sudoeste Rio-grandense 0,777 R$ 8.631,31 12,6

5. Campanha Ocidental 5 7 7.Sudoeste Rio-grandense 0,789 R$ 10.588,69 12,8


Para compreender a aplicação das medidas descritivas em ambos os casos, SN e DF, vamos

apresentar alguns exemplos usando e analisando as medidas propostas. Retome estes exercícios-

exemplos, pois esse procedimento é muito importante. Se você o fizer vai ter imediatamente a

noção de que acertou os resultados, pois pode compará-los com os que são apresentados na

seção seguinte.


62

3.2.1 oPeracionaliZação de Medidas descritivas eM sÉrie nUMÉrica

A operacionalização aqui pretendida vai desenvolver a busca de números típicos, conhecer

sua validade e utilizar a medida apropriada para avaliar o comportamento de variáveis sociais

em algumas microrregiões do RS.

Vamos trabalhar com a uma parte do banco de dados número 5. São 13 microrregiões que

fazem parte da Mesorregião Noroeste Rio-Grandense. Como n = 13, vamos trabalhar em SN –

Série Numérica, listagem de dados por microrregião, uma a uma.

Quadro 6: Banco de dados número 5 com as variáveis sociais e econômicas com as microrregiões do rs da Mesorregião noroeste rio-grandense

n Microrregião X Y Z X² Y² Z²

1 6. Carazinho 0,768 12.005,06 32 ,9 0 ,589824 144 .121 .465 ,60 1 .082 ,41

2 8. Cerro Largo 0 ,756 10 .470 ,75 30 ,2 0 ,571536 109 .636 .605 ,56 912 ,04

3 9. Cruz Alta 0,770 14.709,39 18,9 0,5929 216.366.154,17 357,21

4 10. Erechim 0 ,778 12 .514 ,84 38 ,2 0 ,605284 156 .621 .220 ,23 1 .459 ,24

5 11. Frederico Westphalen 0 ,758 8 .743 ,02 33 ,8 0 ,574564 76 .440 .398 ,72 1 .142 ,44

6 14. Ijuí 0,784 12.875,91 35 ,9 0 ,614656 165 .789 .058 ,33 1 .288 ,81

7 19. Não-Me-Toque 0 ,786 19 .420 ,57 28 ,3 0 ,617796 377 .158 .539 ,12 800 ,89

8 21. Passo Fundo 0,797 13.922,97 45,3 0,635209 193.849.093,62 2.052,09

9 25. Sananduva 0 ,775 11 .576 ,32 19 ,3 0 ,600625 134 .011 .184 ,74 372 ,49

10 28. Santa Rosa 0 ,813 11 .606 ,43 47 ,1 0 ,660969 134 .709 .217 ,34 2 .218 ,41

11 30. Santo Ângelo 0,783 10.076,02 18 ,8 0 ,613089 101 .526 .179 ,04 353 ,44

12 33. Soledade 0 ,750 7 .294 ,43 20 ,0 0 ,5625 53 .208 .709 ,02 400 ,00

13 34. Três Passos 0 ,779 13 .743 ,19 36 ,7 0 ,606841 188 .875 .271 ,38 1 .346 ,89

Total 10 ,097 158 .958 ,90 405 ,4 7 ,845793 2 .052 .313 .096 ,89 13 .786 ,36


Obs.: Denominamos as variáveis neste estudo de X, Y e Z que são, respectivamente: X – IDH_ médio; Y

-PIB per capita (R$); Z -DENSIDADE

Questão em Estudo: Comportamento Padrão da Mesorregião Noroeste Rio-Grandense em

Termos de Desenvolvimento.

Para desenvolver esta temática precisamos conhecer as Medidas Descritivas dessa Me-

sorregião composta por 13 microrregiões. Observando no Banco anterior temos três variáveis

quantitativas contínuas: IDH, PIB PC, Densidade, tal que X: IDH médio (varia de 0,75 a 0,813);

Y: PIB pc (R$ 7.294,00 a R$ 19.421,00); Z: Densidade (18,8 a 47,1).

a. Medidas de Tendência Central

a1. Média Aritmética ( )X

Inicialmente vamos calcular a Média Aritmética, a mais conhecida das medidas de Tendên-

cia Central para as 3 variáveis (lembrando que X: IDH; Y: PIBpc; Z: Densidade demográfica).

EaD

63


1

10,0970,7766923

13

ni

i

xX

n=

= = =∑ ,

Este IDH é um índice classificado como médio pelas categorias expressas no Quadro 4, o

que não é a pior situação, uma vez que a média do Estado é de 0,785, ficando, portanto, estatis-

ticamente na mesma situação do Estado.

1

158.958,90$12.227,61

13

ni

i

yY R

n=

= = =∑ ,

Este é um PIB per capita médio, que indica que nossa região apresenta uma receita eco-

nômica insatisfatória, isto é, a riqueza produzida não a retira da classificação de região pobre,

em torno de US$ 7.000,00 (utilizando-se uma base de 2:1), próxima ao valor do estadual, R$

12.504,29, ficando, portanto, um pouco acima da do Estado, mas no seu entorno, indicando que

é uma das mesorregiões consideradas pobres no Estado, pois fica abaixo de US$ 7.000,00.

1

405,431,18 . / ²

13

ni

i

zZ hab km

n=

= = =∑ ,

Esta é uma baixa densidade, uma vez que a média do Estado é de 54,64 hab./km², ficando,

portanto, abaixo da do Estado, entendendo-se que é pouco povoada, permitindo ainda expansão

em termos populacionais. Outro fator motivador dessa baixa densidade são as áreas rurais, que

praticamente estão reduzidas a poucas famílias que resistem e à concentração da área rural em

propriedades maiores com expansão do latifúndio e às migrações urbanas em busca de melhores

condições de trabalho pela baixa industrialização da região.

b. Mediana e Moda

Temos outras medidas descritivas alternativas para a Média: a Mediana e a Moda. As

outras medidas de Tendência Central, Mediana (Md) e Moda (Mo), na série numérica não de-

pendem de grandes cálculos, pois a mediana é uma medida separatriz que separa o grupo em

dois, cada um com 50% das informações e a moda informa qual o valor com maior frequência,

isto é, mais repetido.

Neste caso, a primeira providência para o cálculo destas duas medidas é a ordenação dos

dados em ordem crescente. Essa providência permite que rapidamente se visualize o valor cen-

tral (Mediana) e o valor com maior repetição (Moda). Vamos agora calcular as outras medidas

de Tendência Central para cada uma das 3 variáveis: X, Y e Z.


64

b1. Variável X: IDH-Médio

Quadro 7: variável: idH-Médio, dados ordenados, para obtenção da mediana e da moda – valores por microrregiões da Mesorregião noroeste rio-grandense do rs

IDH_ médio

Xi Ordenados0,750 0,756 0,758 0,768 0,770 0,775 0,778 0,779 0,783 0,784 0,786 0,797 0,813

1 2 3 4 5 6 7 8 9 10 11 12 13IDH_ médio

Xi aproximados0,75 0,76 0,76 0,77 0,77 0,78 0,78 0,78 0,78 0,78 0,79 0,80 0,81


Para calcular a mediana (Md) consideramos que n = 13 é ímpar, logo a posição do valor

mediano é dada por: P=1

2

n +=

13 17º

2valor

+ = , a mediana é então o P-ésimo valor de IDH. O

7º valor se observarmos no Quadro 7 é 0,778. Assim, conclui-se que 50% das microrregiões não

apresenta IDH superior a 0,778, um valor considerado médio (intervalo de 0,5 a 0,799).

Para calcular a moda (Mo) verificamos quais dentre as microrregiões apresentam valores

iguais de IDH, implicando valor mais repetido. Para o caso de considerarmos três casas decimais,

não encontramos valor repetido no IDH, podendo considerar a série amodal.

Se considerarmos a aproximação para duas casas decimais, o valor mais repetido é 0,78,

que ocorre 5 vezes, conforme pode ser observado no Quadro 7, formando uma série unimodal.

Neste caso, o valor modal para IDH é 0,78, confirmando a ideia de que a Mesorregião Noroeste

Rio-Grandense apresenta um Índice de Desenvolvimento Humano médio. Como a Média é de

0,776, Mediana é 0,778 e Moda é 0,78, podemos afirmar que a Moda não difere significativa-

mente da Média e da Mediana e permitindo concluir que:

X Md Mo≅ ≅

Esta igualdade nos informa que estamos diante de dados com muita simetria, cuja concen-

tração central apresenta todas as 3 medidas, logo a curva dos dados tende a normal, simétrica

com concentração central.

EaD

65


b2. Variável Y: PIB per capita

Quadro 8: variável: PiB per capita, dados ordenados, para obtenção da Mediana e da Moda

PIB per capita – ordenado7.294,43 8.743,02 10.076,02 10.470,75 11.576,32 11.606,43 12.005,06 12.514,84 12.875,91 13.743,19 13.922,97 14.709,39 19.420,57

1 2 3 4 5 6 7 8 9 10 11 12 13

7,3 8,7 10,1 10,5 11,6 11,6 12,0 12,5 12,9 13,7 13,9 14,7 19,4


Para calcular a Mediana (Md), novamente consideramos que n = 13 é ímpar, logo a posição

do valor mediano é dada por: P =1

2

n +=

13 17º

2valor

+ = , a Mediana é o P-ésimo valor que é o

sétimo valor do PIBC é 12.005,06. Observa-se, portanto, que 50% das microrregiões não apresenta

PIB per capita superior a R$ 12.005,06, um valor um pouco abaixo de US$ 7.000,00, confirmando

a classificação como região pobre. Apenas dois municípios apresentam classificação de Região

em desenvolvimento.

Para calcular a Moda (Mo), consideramos quais dentre as microrregiões apresentam valo-

res iguais de PIBpc. Não encontramos valor repetido no PIB, podendo considerar a série amodal.

Com uma aproximação para milhares, isto é, dividindo todos os valores por mil, observamos que

o valor de PIBpc = 11,6 mil reais é o único repetido. Neste caso, como a Média é de R$ 12.227,61

e a Mediana é de R$ 12.005,06, verificamos que a Moda é menor do que a Mediana e esta, por

sua vez, menor que a Média, indicando uma distribuição assimétrica:

X Md Mo> >

Esta desigualdade nos informa que estamos diante de dados com assimetria, cuja con-

centração não é central. Apresenta o ponto mais alto da distribuição, a Moda, nos valores mais

baixos, logo a curva é assimétrica positiva.

b3.Variável Z: Densidade

Quadro 9: variável densidade, dados ordenados, para obtenção da Mediana e da Moda

DENSIDADE 18,8 18,9 19,3 20,0 28,3 30,2 32,9 33,8 35,9 36,7 38,2 45,3 47,11 2 3 4 5 6 7 8 9 10 11 12 13

DENSIDADE 19 19 19 20 28 30 33 34 36 37 38 45 47



66

Para calcular a Mediana (Md), novamente consideramos que n = 13 é ímpar, logo a posi-

ção do valor mediano é dada por: P =1

2

n +=

13 17º

2valor

+ = , a Mediana é o P-ésimo valor que

é densidade= 32,9 hab./km². Observa-se, portanto, que 50% das microrregiões não apresenta

densidade inferior a 32,9 hab./km², um valor um pouco maior que o valor médio, que é de 31,2

hab./km².

Para calcular a Moda (Mo), consideramos quais dentre as microrregiões apresentam va-

lores iguais de densidade. Não encontramos valor repetido na densidade, podendo considerar

a série amodal. Com uma aproximação para inteiros observamos que o valor de densidade =

19 hab./km² é o único repetido. Neste caso, a Moda é menor do que a Mediana e esta é maior

do que a Média, indicando uma distribuição assimétrica, no entanto não dentro do padrão, e

podemos concluir que:

X Md Mo< >

Esta desigualdade nos informa que estamos diante de dados com assimetria, cuja con-

centração não é central. Apresenta o ponto mais alto da distribuição, a Moda, nos valores mais

baixos, mas como a Mediana é maior que a Média, podemos entender como uma curva tendendo

à assimétrica negativa.

c. Medidas de Variabilidade

Para avaliarmos qual das três medidas de Tendência Central (Média, Mediana ou Moda)

consegue apresentar melhor o padrão dos dados avaliamos a variabilidade. Como a Média é

a mais utilizada e é uma medida paramétrica, esta é o melhor número típico para evidenciar

a forma do padrão de afastamento dos valores observados. Eles estabelecem uma relação, in-

formam a variação em torno da Média. Vamos analisar a homogeneidade (valores distribuídos

proximamente à Média) ou heterogeneidade (valores muito espalhados, dispersos em relação à

Média) dos dados com base nos afastamentos.

Entende-se que se a variação relativa dos afastamentos em torno da Média forem menores

do que 30%, esta é considerada baixa, aceitável, então a Média é representativa, válida como

padrão dos dados; caso a variação fique entre 30% e 60%, a variação é considerada grande,

EaD

67


grupo heterogêneo, e a melhor medida para informar o padrão é a Mediana; em último caso, se

a variação for maior que 60%, sem limite final, o grupo é heterogêneo e a medida que pode ser

considerada um padrão para os dados é a Moda.

( ) ( ) ( )| | | mod

| .......................30%....................60%......................

média X mediana Md a MoCV→

c1. Variável X: IDH-médio

•Variância Absoluta (s²)

Vamos utilizar a fórmula para série numérica, pois o conjunto de dados tem n = 13 < 20.

( )2

22

1

[ ]1

ni

i

x nS x

n n=

= − −∑ , com fator de correção para pequenas amostras

Vamos utilizar os somatórios que já foram realizados junto ao banco de dados. Vamos pre-

cisar da soma de xi², entendendo-se que cada valor da variável vai ser colocado ao quadrado e

por fim somado.

( )2

22

1

7,845793 13[ ] [ (0,7766923)²]* 0,000294243

1 13 12

ni

i

x nS x

n n=

= − = − = − ∑

Apesar de este valor estar expresso na mesma unidade de valor da variável, como é uma

média quadrática, isto é, de diferenças elevadas ao quadrado, o resultado não vai ser avaliado

efetivamente.

•Desvio Padrão (s)

A partir deste momento os cálculos seguem em sequência, por isso o melhor é deixá-los

no visor da calculadora, sem desligá-la.

2 0,000294243S S= = =0,01753533 unidades de IDH de diferença média entre os valores

e a média com um limite de 4 desvios padrões a mais e 4 a menos.

•Coeficiente de Variação (CV)

Com valores absolutos a comparação e compreensão do significado torna-se complicada,

por isso utilizamos uma medida relativa dessa variação, que é o Coeficiente de Variação.

0,01753533100 *100 2,26%

0,7766923

SCV

X

= = =


68

Como CV<30%, pois o desvio encontrado representa apenas 2,26% de afastamento em

relação à média, podemos afirmar que se trata de um grupo homogêneo e o padrão do IDH é o

indicado pela média = 0,777, revelando que a Mesorregião Noroeste Rio-Grandense tem um

Índice de Desenvolvimento Humano médio.

c2. Variável Y: PIB per capita


Vamos utilizar a fórmula para série numérica, pois n = 13 < 20.

( )2

22

1

[ ]1

ni

i

x nS x

n n=


Vamos empregar os somatórios que já foram realizados junto ao banco de dados. Vamos

precisar da soma de xi², entendendo-se que cada valor da variável vai ser colocado ao quadrado

e por fim somado.

( )2

22

1

2.052.313.096,89 13[ ] [ (12227,61)²]* 9.052.107,829

1 13 12

ni

i

x nS x

n n=

= − = − = − ∑

Apesar de este valor estar expresso na mesma unidade de valor da variável, como é uma mé-

dia quadrática, isto é, de diferenças elevadas ao quadrado, não vai ser avaliado efetivamente.




2 9.052.107,829S S= = =3.008,672104 reais de diferença média entre os valores e a média

com um limite de 4 desvios padrões a mais e 4 a menos.




3.008,672104 100 *100 24,6%

12.227,61

SCV

X

= = =

Como CV<30%, pois o desvio encontrado representa 24,6% de afastamento em relação à

média, podemos afirmar que se trata de um grupo homogêneo e o padrão do PIB per capita é o

indicado pela média = R$12.227,61, revelando que a Mesorregião Noroeste Rio-Grandense tem

um padrão abaixo de 7 mil dólares.

EaD

69


c3. Variável Z: Densidade


Vamos utilizar a fórmula para série numérica, pois n = 13 < 20.

( )2

22

1

[ ]1

ni

i

x nS x

n n=


Vamos utilizar os somatórios que já foram realizados junto ao banco de dados. Vamos pre-

cisar da soma de xi², entendendo-se que cada valor da variável vai ser colocado ao quadrado e

por fim somado.

( ) 6549,9512

13*)²]18,13(

13

13.786,36[

1][ 2

1

22 =

−=

−−= ∑

= n

nx

n

xS

n

i

i [hab./km²]²

Apesar de este valor estar expresso na mesma unidade de valor da variável, como é uma mé-

dia quadrática, isto é, de diferenças elevadas ao quadrado, não vai ser avaliado efetivamente.




2 95,6549S S= = =9,780332305 hab./km² de diferença média entre os valores e a média

com um limite de 4 desvios padrões a mais e 4 a menos, neste caso, 36 a mais ou a menos.




9,780332305 100 *100 31,4%

31,18

SCV

X

= = =

Como 30%<CV<60%, pois o desvio encontrado representa 31,4% de afastamento em re-

lação à média, podemos afirmar que se trata de um grupo heterogêneo e o padrão da densidade

demográfica não é bem informada pela Média, sendo indicado usar a Mediana Md=32,9 hab./

km², indicando que a Mesorregião Noroeste Rio-Grandense tem um padrão baixo de povoamento,

havendo espaço ainda para o crescimento populacional.


70

Conclusão: Observa-se que a Mesorregião Noroeste Rio-Grandense é um lugar com potencial

para se viver com espaço de crescimento em termos de desenvolvimento, merecendo maior

atenção tanto por parte da esfera pública como dos moradores. Observou-se um IDH médio na

Mesorregião de 0,777, considerado um médio indicador, sendo que este varia de 0,75 a 0,813,

um PIBPC baixo de R$ 12.227,61, um padrão ainda abaixo do esperado, pois não garante

a superação da faixa de 7 mil dólares per capita, que a colocaria na condição de região em

desenvolvimento. Apresenta espaço de crescimento populacional, pois as estatísticas indicam

que as microrregiões têm uma densidade em torno de 31,18 hab./km². A região precisa ser

incentivada para gerar mais riqueza e promover maior distribuição da renda e da riqueza.

No tópico seguinte vamos mostrar como se calcula e interpretam as Medidas Descritivas

em dados agrupados em forma de Distribuição de Frequências.

3.2.2 oPeracionaliZação de Medidas descritivas eM distriBUição de FreQUÊncias

Considerando a situação em que os valores observados são em n> 20 e podem ser agru-

pados em faixas de frequência, precisamos rever as fórmulas a serem aplicadas no cálculo das

medidas descritiva: tendência central e de variabilidade.

Na prática, a alteração observada na Média e nas medidas de variabilidade limitam-se à

necessidade de calcular o ponto médio do intervalo que representa os xi’s, e considerar que os

mesmos apresentam uma repetição expressa em termos de frequência (fi). Este valor é que vai

ser acrescentado nas fórmulas da Média e da Variância. Os demais cálculos permanecem os

mesmos.

Estamos analisando agora o padrão estadual a partir do banco de dados número 6, que

contém os dados das 35 microrregiões do Estado do RS. Vamos utilizá-lo e as variáveis presentes

para responder à seguinte questão e poder comparar com o resultado da Mesorregião Noroeste

Rio-Grandense tratada a partir de uma análise descritiva realizada em série numérica, pois n=13

microrregiões que fazem parte da mesma.

Questão em estudo: Qual é o comportamento padrão do Estado do Rio Grande do Sul em

termos de desenvolvimento?

EaD

71


Neste momento, ao tratar do âmbito estadual, vamos trabalhar com dados agrupados em

faixas empregando a Distribuição de Frequências. Não vamos desenvolver os cálculos para a

construção da DF, mas apresentaremos as informações básicas necessárias para você refazer

essa construção.

As medidas de Tendência Central são medidas de posição, porque posicionam o conjunto

de dados na reta, isto é, nos informam sobre os pontos em que ocorrem as respostas de nossas

variáveis, neste caso, as mesmas utilizadas anteriormente: IDH-médio, PIB per capita e Densi-

dade populacional. O tratamento estatístico vai partir de uma DF, com os cálculos necessários

para realizar a análise pretendida.

a1. Variável X: IDH-médio

Vamos começar pelo procedimento usual de agrupamento de dados (construção da Dis-

tribuição de Frequências).

Quadro10: informações básicas sobre o idH-médio das microrregiões do rs

N 35Li 0,744Ls 0,852

At 0,108

Raiz n 5,916079783

Hi 0,018255332 ≅ 0,02


Depois destas informações construímos a Distribuição de Frequências com 6 intervalos

de tamanho 0,02, iniciando em 0,74, pois Li = 0,744, e finalizando em 0,86, uma vez que Ls =

0,852.

tabela 1: distribuição do idH-médio do rs por microrregião

Valores de Xi fi fa fr% fr%ac Xi fi*xi fi*xi²0,74 |------- 0,76 5 5 14,29 14,29 0,75 3,75 2,81250,76 |------- 0,78 11 16 31,43 45,72 0,77 8,47 6,52190,78 |------- 0,80 12 28 34,29 80,00 0,79 9,48 7,48920,80 |------- 0,82 3 31 8,57 88,58 0,81 2,43 1,96830,82 |------- 0,84 3 34 8,57 97,15 0,83 2,49 2,06670,84 |------- 0,86 1 35 2,86 100,00 0,85 0,85 0,7225

Total 35 100,00 27,47 21,5811

Fonte: Elaboração da autora com dados do IBGE.


72

•Média Aritmética ( x )

Para preparar a DF para o cálculo da Média precisamos da coluna do Xi, ponto médio (soma

dos limites do intervalo dividida por 2). Após obter o ponto médio, multiplicamos cada um pela

frequência (fi*xi), que será a soma dos valores nesse intervalo. Após o cálculo do último produto

somamos e obtemos a soma geral que será utilizada na fórmula, como evidenciamos a seguir:

1

27,470,785

35

ni i

i

f xX

n=

= = =∑ , IDH-médio do Estado do RS.

Apesar de ser um valor alto, ainda não se encontra na faixa dos melhores IDHs, que se inicia

em 0,8. O “Brasil entrou pela primeira vez para o grupo de países com elevado desenvolvimento

humano, com um índice medido em 0,800 no ano de 2005. Em 2006 obteve uma melhora no

índice de 0,007, com uma pontuação de 0,807. Encontra-se na 70ª colocação mundial, posição

que já mantinha no ano anterior”(Wikipédia, IDH, 14/7/2009).

•Mediana (Md)

O cálculo da Mediana numa DF deve ser feito a partir de uma fórmula que recupere o

valor que separa o grupo em duas partes, com 50% cada. Inicialmente precisamos encontrar o

ponto central, ou seja, sua posição (P), que vai nos indicar em qual intervalo se encontra o valor

mediano.

Sua localização será feita na coluna do fa, aquele que contém o p-ésimo valor. Nossa refe-

rência é que o valor que se encontra naquele intervalo é a posição do último valor que foi contado

naquele intervalo. Nesse caso, o intervalo deve conter o valor P. Explicando mais concretamente,

se os valores do fa são 1, 5, 20,... isto significa que no primeiro intervalo só entrou um dado, do

2º ao 5º entrou no segundo intervalo, do 6º ao 20º no terceiro intervalo e assim por diante. Com

isso, se n=30, P = 15º, valor que estará contido no 3º intervalo. Do intervalo mediano, que foi o

selecionado, retiraremos toda a informação necessária. A única informação que não segue este

critério é o faa (frequência acumulada do intervalo anterior ao mediano). Quando o intervalo

mediano ocorrer no primeiro intervalo o faa será zero.

P = 35

17,52 2

n = = → localiza o af no terceiro intervalo, pois as micror regiões

17 até a 28 se encontram nesse intervalo mediano, o imd. Seleciona o intervalo

e ret i ra todos os dados do mesmo com exceção da faa, que é o fa anterior.

( ) (17,5 16)0,020,78 0,7825

12aa i

ii

P f hMd l

f

− −= + = + =

EaD

73


Com isso entende-se que 50% das microrregiões do RS não ultrapassam um IDH-médio

de 0,783, têm índices inferiores, mas no limite de 0,75, informando-nos que no RS nenhuma

microrregião é muito problemática em termos de desenvolvimento humano.

•Moda (Mo)

Para obtermos informação sobre o valor que mais ocorre no conjunto de dados, após o

agrupamento dos valores, devemos nos concentrar no intervalo que agrega o maior número de

informações (> fi). Este será denominado de intervalo modal (Imo). Esta localização independe

da localização da Mediana, pois são duas informações diferentes, no entanto algumas vezes,

principalmente em função da simetria da distribuição, as duas medidas utilizam o mesmo in-

tervalo como referência para o cálculo. É uma coincidência, não uma regra. Quando o intervalo

modal ocorrer no primeiro intervalo o fant será zero, e o mesmo ocorre se o> fi se encontrar no

último, nesse caso, fpos t será zero.

if → localizar no > if que é 12, no terceiro intervalo,

o mesmo da Mediana neste caso, este é considerado

em relação a ele o Imo (Intervalo modal). Seleciona o

intervalo e retira todos os dados.

1

1 2

10,78 *0,02 0,782

1 9i i

dMo l h

d d

= + = + = + +

1 12 11 1m antd f f= − = − =

2 12 3 9m postd f f= − = − =




Comparando-se as três informações ( 0,785.. .. 0,783.. ... 0,782x Md Mo= ≅ = ≅ = ) verificamos

que se trata de uma curva simétrica, pois a Moda não difere significativamente da Média e da

Mediana e podemos concluir que:

X Md Mo≅ ≅

Esta igualdade nos informa que estamos diante de dados com muita simetria, cuja concen-

tração central apresenta todas as 3 medidas, logo a curva dos dados tende à normal, simétrica

com concentração central, concluindo-se que o grupo é bastante homogêneo.


74

Tendo em vista a necessidade de nos reportarmos à Tabela 1 para avaliar a validade da

Média, vamos calcular logo a variação em torno da Média por meio das Medidas de Variabili-

dade, antes de fazermos o tratamento das outras variáveis.

Com as Medidas de Variabilidade queremos responder à seguinte questão:

O IDH médio do RS é válido como padrão para analisar o Estado?

•Variância absoluta (s²)

Para calcular a variância absoluta precisamos de uma coluna com o produto de cada fi

pelo quadrado do Xi, ponto médio. Ao finalizarmos todos os produtos, é a soma dos mesmos que

vai ser utilizada na fórmula. Se n > 30, não há necessidade de aplicar o Fator de Correção – [n/

(n-1)]. Neste caso n=35, então a variância será calculada sem ele.

( )2

22

1

(21,5811)(0,785)² 0,000377857

35

ni i

i

f xS x

n=

= − = − =∑


Ao calcular o desvio padrão, ou seja, a informação que nos dirá qual é, em média, o afas-

tamento dos dados em relação à média, comumente vamos lembrar que nas pesquisas eleitorais

os resultados são informados num intervalo, por exemplo: (3% para mais ou 3% para menos).

Isto nos auxilia a perceber a importância do desvio padrão.

² 0,000377857 0,019438544S s= = =


Para avaliar a validade da Média precisamos verificar quanto representa o desvio padrão

em relação à Média e após tirar uma conclusão com base no esquema que foi apresentado an-

teriormente.

0,019438544100 100 2,48%

0,785

SCV

X

= = =

Observa-se que a Média é válida, pois a dispersão em torno dela tende a zero, < 30%.

Trata-se de um grupo homogêneo de dados com pouquíssima variação entre as microrregiões,

uma vez que CV = 2,48%, caso típico de simetria, como vimos anteriormente.

Nesse caso, a aplicação do Intervalo de Normalidade é perfeitamente aplicável.

EaD

75


65% ;IN X S X S= − + =

0,785-0,0004;0,785+0,0004=0,7846;0,7854

95% 2* ; 2*IN X S X S= − + =

0,785-2*0,0004;0,785+2*0,0004=0,7842;0,7858

99% 3* ; 3*IN X S X S= − + =

0,785-3*0,0004;0,785+3*0,0004=0,7838;0,7862

Respondendo, então, à questão inicial, formulamos a seguinte conclusão:

Conclusão: O padrão de IDH do Estado gaúcho é 0,785 com pouquíssima diferença entre as

microrregiões, podendo-se definir este IDH como representativo do comportamento estadual.

Tendo em vista que o IDH variando de 0,5 a 0,799 é considerado um Índice de Desenvolvimen-

to Humano médio, entendemos que o RS apresenta um médio padrão de desenvolvimento.

Observando-se o intervalo de normalidade, concluímos que ainda estão faltando mais in-

vestimentos na área social para que o IDH do Estado supere esse nível, pois no IN99% o valor

máximo possível é de 0,786, não superando os limites desse intervalo.

a2. Variável Y: PIB per capita



Quadro 11: informações básicas do PiB per capita das microrregiões do rs

n 34

Li R$ 6.607,87

Ls R$ 19.420,57At 12812,7

Raiz n 5,830951895

Hi 2197,359922


Encontramos um outlier = R$ 45.175,33 da Microrregião de São Jerônimo que se encontra

fora do padrão. Por isso no conjunto analisado no Estado para fins deste tratamento estatístico

este foi descartado por ser impossível agrupá-lo com os demais. N = 34 então ≅ 3 mil reais.


de tamanho 3 mil, iniciando em 6, pois Li = R$ 6.607,87 e finalizando em 21, uma vez que Ls

= R$ 19.420,57.


76

tabela 2: distribuição do PiB per capita (em milhares de reais) do rs por microrregião

Valores de Xi fi fa fr% fr%ac Xi fi*xi fi*xi²

6 |-------- 9 10 10 29,41 29,41 7,5 75 562,5

9 |-------- 12 11 21 32,35 61,76 10,5 115,5 1212,75

12 |-------- 15 8 29 23,53 85,29 13,5 108 1458

15 |-------- 18 4 33 11,76 97,06 16,5 66 1089

18 |-------- 21 1 34 2,94 100,00 19,5 19,5 380,25

Total 34 100,00 384 4702,5




dos limites do intervalo dividida por 2). Após obter o ponto médio multiplicamos cada um pela

frequência (fi*xi), que será a soma dos valores nesse intervalo. Após o cálculo do último produto,

somamos e obtemos a soma geral que será utilizada na fórmula, como evidenciamos a seguir:

1

38411,294

34

ni i

i

f xX mil reais

n=

= = =∑

O PIB per capita estadual é de R$11.294,00, abaixo do valor mínimo razoável: 7 mil dóla-

res. Este desempenho indica que, no Estado, existem microrregiões que fazem decrescer o valor

médio e pelos padrões mundiais é uma região pobre.

•Mediana (Md)

O cálculo da Mediana numa DF necessita ser feito a partir de uma fórmula que recupere

o valor que separa o grupo em duas partes, com 50% cada. Inicialmente precisamos encontrar o

ponto central, ou seja, sua posição (P), que vai nos indicar em qual intervalo se encontra o valor

mediano. Sua localização será feita na coluna do fa, aquele que contém o p-ésimo valor. Deste

intervalo retiraremos toda a informação necessária. A única que não segue este critério é o valor

do faa (frequência acumulada do intervalo anterior ao mediano). Quando o intervalo mediano

ocorrer no primeiro intervalo o valor do faa será zero.

P = 34

172 2

n = = → localiza o af no terceiro intervalo, pois as microrregiões 17 até

a 28 se encontram nesse intervalo mediano, o imd. Seleciona o intervalo e retira todos

os dados do mesmo, com exceção da faa que é o fa anterior.

( ) (17 10)*39 10,91

11aa i

ii

P f hMd l

f

− −= + = + =

EaD

77


Com isso, entende-se que 50% das microrregiões do RS não ultrapassam um PIB per ca-

pita de R$ 10.910,00, tem índices inferiores, mas no limite de R$ 6.607,87, informando-nos que

no RS a maioria das microrregiões pode ser considerada pobre (26 delas têm classificação de

região pobre, pois o PIB per capita é inferior a 7 mil dólares, 9 delas podem ser consideradas em

desenvolvimento, pois o PIB fica entre 7 e 25 mil dólares.

•Moda (Mo)


agrupamento dos valores, devemos nos concentrar no intervalo que agrega o maior número

de informações (> fi). Este será denominado o intervalo modal. Esta localização independe da

localização da Mediana, pois são duas informações diferentes, no entanto algumas vezes, prin-

cipalmente em função da simetria da distribuição, as duas medidas utilizam o mesmo intervalo

como referência para o cálculo. É uma coincidência, não uma regra. Quando o intervalo modal

ocorrer no primeiro intervalo o fant será zero, e o mesmo ocorre se o> fi se encontrar no último,

nesse caso fpost será zero.

if → localizar no > if que é 12, no se-

gundo intervalo , o mesmo da mediana

neste caso, este é considerado em relação

a ele o imo, intervalo modal. Seleciona o

intervalo e retira todos os dados.

1

1 2

19 *3 9,75

1 3i i

dMo l h

d d

= + = + = + +

1 11 10 1m antd f f= − = − =

2 11 8 3m postd f f= − = − =




O que é mais frequente no Rio Grande do Sul são microrregiões que apresentam um PIB

per capita em torno de R$ 9.750,00, um valor muito abaixo do esperado.

Comparando-se as três informações

( R$ 11.294,00, .. R$ 10.910,00.. ... R$ 9.750,00x Md Mo= > = > = ) verificamos que se trata

de uma curva assimétrica positiva, pois a Moda é o menor valor difere da Média e da mediana

e podemos concluir que:

X Md Mo> >


78

Esta desigualdade nos informa que estamos diante de dados cuja distribuição é assimétrica,

concluindo-se que o grupo é heterogêneo.



dade, antes de passarmos o tratamento das outras variáveis.

Medidas de variabilidade

O PIB per capita médio do RS é válido como padrão para analisar o Estado?


Para calcular a variância absoluta precisamos de uma coluna com o produto de cada fi pelo

quadrado do Xi, ponto médio. Ao finalizarmos todos os produtos é a soma destes que vai ser

utilizada na fórmula. Se n > 30, não há necessidade de aplicar o Fator de Correção – [n/(n-1)].

Neste caso n=34 (um dos valores foi isolado por não apresentar o mesmo padrão dos demais),

então a variância será calculada sem ele.

( )2

22

1

(4702,5)(11,294)² 10,75438753 ²

34

ni i

i

f xS x milreais

n=

= − = − =∑


Ao calcular o desvio padrão, ou seja, aquela informação que nos dirá qual é, em média, o

afastamento dos dados em relação à Média, é importante lembrar que nas pesquisas eleitorais

os resultados são informados num intervalo, por exemplo: (3% para mais ou 3% para menos).

Isto nos auxilia a entender a importância do desvio padrão.

² 10,75438753 3,279388286 mil reaisS s= = =

Entende-se que o desvio médio para mais e para menos em torno da média é de R$

3.279,00.


Para avaliar a validade da Média, precisamos verificar quanto representa o desvio padrão


teriormente.

3,279388286100 100 29,04%

11,294

SCV

X

= = =

EaD

79


Observa-se que a Média é válida, pois a dispersão em torno dela é < 30%. Trata-se de um

grupo homogêneo de dados com variação entre as microrregiões, uma vez que CV = 29,04%,

no limite do permitido em termos de variação tendendo a 30%.

Conclusão: que o PIB per capita do Estado gaúcho é R$11.294,00 com pouca diferença entre

as microrregiões, podendo-se considerar este PIB representativo do comportamento estadual,

indicando que uma grande parte das microrregiões e o próprio Estado podem ser considerados

pobres.

a3. Variável Z: Densidade



Quadro 12: informações básicas da densidade (hab./km²) das microrregiões do rs

N 34

Li 7,4

Ls 153

At 145,6

Raiz n 5, 830951895

Hi 24, 970194


Encontramos um outlier = 665,2 hab. /km² da Microrregião metropolitana de PoA que se

encontra fora do padrão. Por isso no conjunto analisado no Estado para fins deste tratamento

estatístico este foi descartado por ser impossível agrupá-lo com os demais. N = 34 então ≅ 25.


de tamanho 25, iniciando em 5, pois Li = 7,4 hab./km² e finalizando em 150, uma vez que Ls =

145,6 hab./km².

tabela 3: distribuição da densidade Populacional (hab./km²) do rs por microrregião

Valores de Xi fi fa fr% fr%ac Xi fi*xi fi*xi²5 |-------- 30 17 17 50,00 50 17,5 297,5 5206,25

30 |-------- 55 12 29 35,29 85,29 42,5 510 2167555 |-------- 80 2 31 5,88 91,18 67,5 135 9112,580 |-------- 105 1 32 2,94 94,12 92,5 92,5 8556,25

105 |-------- 130 1 33 2,94 97,06 117,5 117,5 13806,3130 |-------- 155 1 34 2,94 100,00 142,5 142,5 20306,3

Total 34 100,00 1152,5 58356,3



80



dos limites do intervalo dividida por 2). Após obter o ponto médio, multiplicamos cada um pela

frequência (fi*xi), que será a soma dos valores nesse intervalo. Após o cálculo do último produto

somamos e obtemos a soma geral que será utilizada na fórmula, como evidenciamos a seguir.

1

1.152,533,9 . / ²

34

ni i

i

f xX hab km

n=

= = =∑

A densidade populacional média no Estado é de 33,9 hab./km², classificada como razoável.

Este é o padrão das 34 microrregiões, que diferem muito da microrregião metropolitana de Porto

Alegre, que apresenta uma densidade de 665,2 hab./km².

•Mediana (Md)

O cálculo da Mediana numa DF é feito a partir de uma fórmula que recupere o valor que

separa o grupo em duas partes, com 50% cada. Inicialmente precisamos encontrar o ponto cen-

tral, ou seja, sua posição (P), que vai nos indicar em qual intervalo se encontra o valor mediano.

Sua localização será feita na coluna do fa, aquele que contém o p-ésimo valor. Deste intervalo

retiraremos toda a informação necessária. A única que não segue este critério é o faa (frequência

acumulada do intervalo anterior ao mediano). Quando o intervalo mediano ocorrer no primeiro

intervalo o faa será zero.

P = 34

172 2

n = = → localiza o af no terceiro intervalo pois as microrregiões 17 até

a 28 se encontram nesse intervalo mediano, o imd. Seleciona o intervalo e retira

todos os dados do mesmo com exceção da faa, que é o fa anterior.

( ) (17 0)* 255 30. . / ²

17aa i

ii

P f hMd l hab km

f

− −= + = + =

Com isso, entende-se que 50% das microrregiões do RS não ultrapassam uma densidade

de 30 hab./km², apresentando uma densidade inferior a 30, indicando que no RS a maioria das

microrregiões pode ser considerada pouco povoada.

•Moda (Mo)


agrupamento dos valores, devemos nos concentrar no intervalo que agrega o maior número de

informações (> fi). Este será denominado de intervalo modal. Esta localização independe da

EaD

81


localização da Mediana, são duas informações diferentes, no entanto algumas vezes, principal-

mente em função da simetria da distribuição, as duas medidas utilizam o mesmo intervalo como

referência para o cálculo. É uma coincidência, não uma regra. Quando o intervalo modal ocorrer

no primeiro intervalo o fant será zero, e o mesmo ocorre se o (> fi) se encontrar no último, ou

seja, fpos t será zero.

if → localizar no > if que é 17, no primeiro intervalo,

o mesmo da Mediana neste caso, este é considerado em

relação a ele o imo intervalo modal. Seleciona o intervalo

e retira todos os dados.

1

1 2

175 * 25 24,3. . / ²

17 5i i

dMo l h hab km

d d

= + = + = + +

1 17 0 17m antd f f= − = − =

2 17 12 5m postd f f= − = − =




Entendemos que a densidade populacional mais frequente é de 24,3 hab./km². Comparando-

se as três informações, ( 33,9. . / ².. .. 30. . / ².. .. 24,3. . / ²x hab km Md ha km Mo hab km= > = > = ), verificamos

que se trata de uma curva assimétrica positiva, pois a Moda é o menor valor, difere da Média e

da Mediana e podemos concluir que:

X Md Mo> >

Esta desigualdade nos informa que estamos diante de dados cuja distribuição é assimétrica,

concluindo-se que o grupo é heterogêneo.



dade, antes de realizarmos o tratamento das outras variáveis.

Medidas de variabilidade

A densidade populacional média do RS é válida como padrão para analisar o Estado?


82


Para calcular a variância absoluta precisamos de uma coluna com o produto de cada fi pelo

quadrado do Xi, ponto médio. Ao finalizarmos todos os produtos é a soma destes que vai ser

utilizada na fórmula. Se n > 30, não há necessidade de aplicar o Fator de Correção – [n/(n-1)].

Neste caso n=34 (um dos valores foi isolado por não apresentar o mesmo padrão dos demais),

então a variância será calculada sem ele.

( )2

22

1

(58356,3)(33,9)² 567,1517647( . / ²)²

34

ni i

i

f xS x hab km

n=

= − = − =∑


Ao calcular o desvio padrão, isto é, aquela informação que nos dirá qual é, em média,

o afastamento dos dados em relação à Média, comumente vamos lembrar que nas pesquisas

eleitorais os resultados são informados num intervalo, por exemplo: (3% para mais ou 3% para

menos). Isto nos auxilia a perceber a importância do desvio padrão.

² 567,1517647 23,81494835. . / ²S s hab km= = =

Entende-se que o desvio médio para mais ou para menos em torno da média é de 23,815

hab./km².


Para avaliar a validade da Média precisamos verificar quanto representa o desvio padrão


teriormente.

23,815494835100 100 70,25%

33,9

SCV

X

= = =

Observa-se que a Média não é válida, pois a dispersão em torno dela é > 60%. Trata-se

de um grupo heterogêneo de dados com variação entre as microrregiões, uma vez que CV =

70,25%. Neste caso a medida padrão a ser utilizada é a Moda = 24,3 hab./km². Assim sendo, a

densidade populacional do Estado está num padrão de baixa ocupação, pois o que mais ocorre

são densidades em torno de 24,3 hab./km².

Conclusão: Verificamos que o Estado do RS apresenta um IDH médio de 0,785, PIB per capi-

ta de R$ 11.294,00, inferior ao padrão de 7 mil dólares, podendo ser considerado um Estado

pobre, e por fim com baixa densidade demográfica, uma vez que a mesma é de 24,3 hab./

km²<100 hab./km2. O Estado reflete uma postura cultural que dá destaque à educação e à

saúde, porém ainda está dominado por políticas públicas que privilegiam a concentração de

renda, a não realização da reforma agrária, protegendo a concentração de terra. Percebe-se

EaD

83


também a falta de investimento para o crescimento das regiões. Para tanto, é importante que

o foco, tanto da organização e da administração pública quanto da sociedade civil, esteja

no cidadão e na cidadã com vistas a ampliar os espaços de participação popular em todos

os níveis. As estatísticas refletem uma falta de vontade política de viabilizar a Qualidade de

Vida com qualidade.

A Estatística é uma ciência presente em todos os aspectos da vida, seja ela humana ou ani-

mal, seja ela com elementos não vivos, mas que se repetem na nossa sociedade e/ou na natureza.

Muitos cálculos aparentemente, mas que no decorrer de sua aplicação vamos compreendendo

que se trata de formatações que se apoiam umas nas outras, repetindo raciocínios e cálculos, com

uma importante contribuição na descrição do comportamento de fatos já ocorridos, na projeção

de resultados, nas tomadas de decisão. Essa é nossa intenção com as aplicações: que você se

torne apto a conhecer estatisticamente e tomar as melhores decisões, com uma grande margem

de segurança.

Como sugestão para tornar esta unidade menos complexa, insistimos que você se disponha

a refazer os exemplos apresentados antes de partir para as aplicações. Além do que, é importante

retomar todos os capítulos anteriores ao realizar as aplicações.

seção 3.3

aplicações

Considere o seguinte banco de dados para construir suas questões e desenvolver as esta-

tísticas necessárias para obter as respostas. Este banco traz informações educacionais da:

Mesorregião 2 – Centro Oriental Rio-Grandense com 54 municípios, sendo composta por três

Microrregiões (1. Cachoeira do Sul; 16. Lajeado-Estrela; 26. Santa Cruz do Sul).

Ao fazer o estudo, sugerimos que trabalhe em separado as três Microrregiões, oportuni-

zando duas séries numéricas e uma DF:

1. Cachoeira do Sul (n = 7);

16. Lajeado-Estrela (n = 31);

26. Santa Cruz do Sul (n = 16);

Também trabalhe estatisticamente a Mesorregião como um todo para comparar os achados

estatísticos.


84

Quadro 13: Banco de dados número 6 – Mesorregião 2 – centro oriental rio-grandense

N MunMicrorre-

giãoMatrEF07 MatrEM07 Matr07 Doc_EF07

Doc_EM07

Doc07Nal_

docEFNal_

docEMNal_doc07

1 Cachoeira do Sul 1 11.889 3.288 15.177 851 265 1116 14 12 14

2 Cerro Branco 1 689 171 860 60 14 74 11 12 12

3 Novo Cabrais 1 587 154 741 44 12 56 13 13 13

4 Pantano Grande 1 1.777 389 2.166 110 28 138 16 14 16

5 Paraíso do Sul 1 947 231 1178 67 11 78 14 21 15

6 Passo do Sobrado 1 825 239 1064 89 16 105 9 15 10

7 Rio Pardo 1 5.679 1.407 7.086 369 123 492 15 11 14

1 Arroio do Meio 16 2.360 781 3.141 183 52 235 13 15 13

2 Bom Retiro do Sul 16 1.710 499 2.209 121 35 156 14 14 14

3 Boqueirão do Leão 16 1.298 240 1.538 106 21 127 12 11 12

4 Canudos do Vale 16 274 0 274 27 0 27 10 999 10

5 Capitão 16 402 127 529 40 16 56 10 8 9

6 Colinas 16 257 66 323 26 12 38 10 6 9

7 Coqueiro Baixo 16 193 0 193 19 0 19 10 999 10

8 Cruzeiro do Sul 16 1.440 358 1.798 105 33 138 14 11 13

9 Doutor Ricardo 16 290 76 366 35 10 45 8 8 8

10 Encantado 16 2.588 817 3.405 203 66 269 13 12 13

11 Estrela 16 4.238 1.345 5.583 298 122 420 14 11 13

12 Fazenda Vilanova 16 541 154 695 25 9 34 22 17 20

13 Forquetinha 16 303 96 399 29 7 36 10 14 11

14 Imigrante 16 291 96 387 34 14 48 9 7 8

15 Lajeado 16 9.346 2.991 12.337 673 236 909 14 13 14

16 Marques de Souza 16 524 95 619 50 17 67 10 6 9

17 Muçum 16 640 194 834 77 21 98 8 9 9

18 Nova Bréscia 16 400 196 596 32 17 49 13 12 12

19 Paverama 16 886 215 1101 68 18 86 13 12 13

20 Pouso Novo 16 303 76 379 33 11 44 9 7 9

21 Progresso 16 1.081 225 1.306 89 19 108 12 12 12

22 Relvado 16 257 76 333 32 7 39 8 11 9

23 Roca Sales 16 1.123 423 1.546 100 45 145 11 9 11

24 Santa Clara do Sul 16 710 243 953 49 15 64 14 16 15

25 Sério 16 346 108 454 25 13 38 14 8 12

26 Tabaí 16 579 201 780 59 12 71 10 17 11

27 Taquari 16 3.860 1.144 5.004 277 87 364 14 13 14

28 Teutônia 16 3.571 1.187 4.758 259 96 355 14 12 13

29 Travesseiro 16 257 85 342 29 9 38 9 9 9

30 Vespasiano Correa 16 175 67 242 20 9 29 9 7 8

31 Westfália 16 347 98 445 36 9 45 10 11 10

1 Arroio do Tigre 26 1.991 601 2.592 168 45 213 12 13 12

2 Candelária 26 4.485 814 5.299 284 79 363 16 10 15

3 Estrela Velha 26 613 104 717 55 8 63 11 13 11

4 Gramado Xavier 26 787 101 888 70 12 82 11 8 11

5 Herveiras 26 582 101 683 41 11 52 14 9 13

6 Ibarama 26 761 144 905 80 17 97 10 8 9

7 Lagoa Bonita do Sul 26 470 104 574 45 11 56 10 9 10

8 Mato Leitão 26 555 133 688 43 18 61 13 7 11

9 Passa Sete 26 981 222 1203 77 15 92 13 15 13

10 Santa Cruz do Sul 26 16.667 4.333 21.000 1.056 332 1.388 16 13 15

11 Segredo 26 1.284 227 1.511 116 20 136 11 11 11

12 Sinimbu 26 1.542 343 1.885 107 30 137 14 11 14

13 Sobradinho 26 2.193 628 2.821 168 48 216 13 13 13

14 Vale do Sol 26 1.727 176 1.903 93 14 107 19 13 18

15 Venâncio Aires 26 9.321 2.221 11.542 653 200 853 14 11 14

16 Vera Cruz 26 3.445 841 4.286 220 46 266 16 18 16

Fonte: Elaboração da autora com base em dados dos censos do IBGE.

Obs.: 999 é o código de NR

EaD

85


Alguns complementos para apoiar o estudo:

Quadro 14: variáveis presentes no banco de dados número 6 – Mesorregião 2 – centro oriental rio-grandense e sua classificação

Variáveis Aleatórias Classificação das variáveisN Nº de ordemNºm Numeração dentro da microrregião

Mun Município

Microrregião Codigo da Microrregião

Mesorregião Código da Mesorregião

MatrEF07 Matrícula no Ensino Fundamental em 2007MatrEM07 Matrícula no Ensino Médio em 2007

Matr07 Matrícula total em 2007

Doc_EF07 Docentes do Ensino Fundamental em 2007

Doc_EM07 Docentes do Ensino Médio em 2007

Doc07 Total de Docentes em 2007

Nal_docEF Nº de alunos por docente no Ensino Fundamental 2007

Nal_docEM Nº de alunos por docente no Ensino Médio 2007

Nal_doc07 Nº de alunos por docente geral 2007

Fonte: Elaboração da autora com base em dados dos censos do IBGE.

resUMo da Unidade 3

Nesta unidade abordamos técnicas e métodos estatísticos com a finalidade

de sistematizar os dados coletados, descrever seu padrão comportamen-

tal a partir de medidas descritivas. Estas se repartem em dois tipos de

medidas: as de tendência central, que são Média, Mediana e Moda; e

as de variabilidade que são basicamente a variância, o desvio padrão e o

coeficiente de variação.

EaD

87


introdUção À aMostrageM

Ruth Marilda Fricke

oBjetivo desta Unidade

•Entender os meandros do processo de amostragem, que substitui os levantamentos censitários

exaustivos, os quais se tornam inviáveis nos processos decisórios do mundo moderno em termos

de delineamento e seleção da amostra.

as seçÕes desta Unidade

Seção 4.1 Padrões a Seguir no Processo Amostral

Seção 4.2 – Delineamento Amostral: Dimensionamento e Seleção

Seção 4.3 – Aplicações

A coleta de dados e sua representação em tabelas e gráficos permite uma visão detalhada

e circunstanciada dos fenômenos. Apesar do apoio de suporte computacional, no entanto, a

demanda por análise estatística na tomada de decisão e a necessidade de agilizar a informação

retiram da coleta populacional o caráter de fonte única de dados.

O domínio dos mecanismos de uma amostra cientificamente delineada capaz de represen-

tar a população em estudo faz desse método estatístico um elemento de extrema importância na

gestão empresarial da atualidade. O objetivo é introduzir o aluno no processo de amostragem sem

um caráter definitivo, isto é, a proposição é a de estudar os procedimentos básicos na definição

do tamanho da amostra, delineamento e seleção amostral.

O processo amostral é muito útil numa sociedade como a nossa, com grandes populações,

sejam elas de pessoas, animais, coisas, negócios... Este fato, de ocorrerem grandes números

quando realizamos um levantamento de dados, agrega ao processo amostral uma característica

fundamental: a agilidade de coleta, a menor demanda de tempo, rapidez na obtenção de infor-

Unidade 4


88

mações, a diminuição de erros, a possibilidade de qualificar instrumentos e técnicos em coleta

de dados de forma a minimizar os erros não amostrais. Estes erros ocorrem independentemente

do delineamento, decorrem de fatores alheios à diferença entre população e amostra (N≥n).

A coleta censitária exaustiva, único meio de realizar estudos populacionais, só é viável em

casos em que o tamanho da mesma é mínimo, ou em situações em que a magnitude de recursos

para a sua realização é de um montante extraordinário.

Mesmo a precisão não é atingida em sua totalidade, pois o custo leva:

•à diminuição no tempo de treinamento dos coletores de dados;

•à supressão ou insuficiente pesquisa-piloto para melhorar o instrumento de coleta;

•à necessidade de um orçamento de grande dimensão;

•à má qualidade dos softwares de tratamento dos dados;

•à utilização de técnicos com baixa capacidade, sem experiência e pouca capacitação.

Estes fatores demandam um retrabalho sobre os dados coletados, na verificação de ocor-

rência de dados censurados, na necessidade de refazer o processo de coleta, de tratamento, a

acessibilidade a técnicos de alto padrão para validar e liberar o uso dos dados oficialmente.

Com um processo por amostragem, que apresenta uma série de garantias técnicas, cientifi-

camente comprovadas iremos inferir, a partir de uma quantidade menor de dados da população,

estimar os parâmetros populacionais com base nas estatísticas amostrais. Este n é provavelmente

sempre menor do que N. Isso, por si só, já vai garantir mais rapidez e menor custo, além de que

a demanda por coletores e técnicos também se reduz, contribuindo de fato para minimizar os

erros no processo de coleta e tratamento.

Uma das principais vantagens do processo amostral é que temos informação sobre a mar-

gem de erro (podemos estipular o máximo permitido) e a confiança no potencial de resposta com

os dados coletados.

É importante observar que alguns critérios de dimensionamento e seleção devem ser ri-

gorosamente seguidos para garantir bons resultados:

•definição do instrumento com pesquisa piloto prévia;

• treinamento do pessoal em todas as áreas envolvidas;

• traçado prévio da temática, área e período de abrangência, objetivos, hipóteses, referencial

teórico, metodologia de campo e de tratamento estatístico;

•dimensionamento da amostra conforme critérios definidos previamente;

EaD

89


•delineamento para realizar a amostra respeitando as proporções de características de interesse

na população;

•aleatoriedade na seleção das unidades amostrais;

•criteriosidade na construção do banco de dados;

•adequação dos métodos e técnicas estatísticas para o tratamento dos dados;

•correção nos métodos e técnicas para apresentação dos resultados.

seção 4.1

Padrões a seguir no Processo amostral

O trabalho quando realizado por amostragem e não de forma censitária, populacional,

requer algumas estratégias para seu desenvolvimento:

Seguindo uma certa lógica presente neste texto, estamos disponibilizando conceitos no

processo amostral e os meios para sua utilização.

4.1.1 Fatores intervenientes

Alguns fatores que afetam o tamanho da amostra, conforme já estudamos:

•a variabilidade dos dados – se os dados são homogêneos, isto é, com baixo coeficiente de va-

riação, vão exigir um tamanho de amostra menor para representarem bem a população em

estudo; se os dados populacionais forem heterogêneos vão exigir maior tamanho de amostra

para conterem essa heterogeneidade e, dessa maneira, conseguirem transmitir com maior

adequação as informações pretendidas;

•a margem de erro amostral máxima aceita – o erro fixado é um erro relativo e diz respeito ao

fato de que o tamanho da amostra (n) difere do tamanho da população (N), de tal modo que

n<N. Esse erro quando absolutizado representa uma porção relativa da média, nesse caso

( Xrr ∗=∗= εεµεε ;.. ). O erro relativo deve ter um valor baixo (0,10; 0,05; 0,01 e menores)

porque representa o montante de afastamento entre o resultado obtido e o verdadeiro parâ-

metro;


90

•a probabilidade de confiança (Pf) – é a confiabilidade na capacidade da amostra realizada de

responder às expectativas de estimativa do parâmetro. A confiança que devemos ter é sempre

um valor alto e não é complementar ao erro, pois se trata de medidas diferentes, que dizem

respeito a aspectos diferentes no dimensionamento da amostra. A Pf deve atingir um valor em

torno de 0,90; 0,95; 0,99 e será expressa em termos de:

a. desvios padrão de afastamento da média dos valores limites(z) da normal padrão que têm

média 0 e variância 1 no caso de conhecermos os valores da variância populacional ou em

caso de estarmos trabalhando com estimativas calculadas a partir de uma amostra piloto de

no mínimo 30 informações;

b. no caso em que a estimativa da variância for feita com uma amostra pequena, n < 30, usa-

mos os limites da distribuição t de Student, obtidos a partir dos graus de liberdade (n-1) e

da Pf desejada.

•Outra informação que pode afetar o tamanho da amostra é a condição de N ser conhecido ou

não. Isto é, estarmos calculando o tamanho da amostra para uma população com tamanho finito

(conhecido) ou uma tendendo a infinito (N desconhecido ou muito grande).

4.1.2 MÉtodos de cÁlcUlo da aMostra

Existem diversos métodos para o cálculo do tamanho da amostra. O mais famoso é o Método

de Cochran (1965), adotado no mundo inteiro. Este método leva em consideração:

•se a variância populacional é conhecida ou estimada;

•se a população é finita (N conhecido) ou tendendo a infinita (N desconhecido).

Um fator determinante nesse processo é a quantidade de informação que temos para mu-

niciar as fórmulas que iremos utilizar. Essa quantidade, maior ou menor, tem um efeito direto

no resultado do tamanho da amostra (n):

•se as informações que podemos utilizar no cálculo são pobres, provavelmente o tamanho da

amostra será superdimensionado para compensar;

•se as informações forem mais confiáveis, válidas, ricas, o tamanho da amostra será minimizado.

Vejamos, então, dois métodos e suas variantes:

1º Método de cochran:

Necessita definir previamente a precisão – margem de erro εr, sendo ε =εr.µ, a fidedig-

nidade – z valor da curva normal – e conhecer/estimar a variabilidade populacional – σ ou s.

Para trabalharmos de forma mais operacional e simplificada, considerando que o ε depende da

EaD

91


média e que o coeficiente de variação também, podemos multiplicar as expressões de cálculo

da amostra pela fração µ/µ, que é igual a 1, portanto não altera a fórmula, e substituir os valores

absolutos pelos relativos.

Para obter os valores de z e de t precisamos nos reportar às tabelas da Normal no caso de

z e de Student no caso de t. A primeira é fácil de obter, pois os valores da Normal padrão são

fixos, basta que seja fixado o valor de probabilidade de confiança desejado, consultando a tabela,

localizando no interior da tabela a metade da probabilidade fixada e retornando ao valor inicial

da linha em questão (os da 1ª coluna) e subindo ao topo da coluna para constituir o valor de z.

Como na maioria dos casos, os valores prefixados são muito repetidos, pois quase sempre

são utilizados os mesmos. É possível determinar os valores da curva normal para esses Pf e dei-

xar num quadro para uso constante. Os valores mais usuais de Pf são: 0,99; 0,95; 0,90. Vemos

no Quadro a seguir os valores de Z da curva normal. Nos casos em que utilizamos estimativas

da variância, Pf será dado por t de Student, no entanto esse dimensionamento depende de uma

informação variável, que é o tamanho da amostra piloto utilizada para estimar a variância, mu-

dando de caso para caso, não permitindo ter um quadro prévio.

Quadro 1: valores de Z prefixados para três valores de Pf: 0,90; 0,95; 0,99

Pf Valor a procurar no corpo da tabela z0,90 0,45 1,640,95 0,475 1,960,99 0,495 2,58

Fonte: Elaboração da autora com base na literatura estatística.

Para encontrarmos o valor de t na tabela t de Student precisamos fixar o valor de Pf e en-

contrar os graus de liberdade fixados por (n-1), sendo n o tamanho da amostra piloto, e localizar

o valor de t no interior da tabela. Por exemplo, se n = 30; 20; 10, α = 0,05, veja os resultados no

quadro a seguir para os valores de t:

Quadro 2: valores de t calculados para um valor de Pf: 0,95, com n variado: 30; 20 e 10

Pf n-1 t0,95 30 -1=29 2,2620,95 20 -1=19 2,0930,95 10 -1=9 2,045


Quando estamos trabalhando com base em estimativa da variância e n > 120, os valores

de t se aproximam de z e podemos utilizar a aproximação normal.


92

Para facilitar o dimensionamento da amostra, fizemos uma transformação da Variância (σ)

para valores relativos (CV), o que nos permite utilizar o erro relativo (εr) em lugar do erro absoluto

(ε). Os resultados dessa transformação já estão apresentados nas fórmulas a seguir.

Estas fórmulas para o cálculo da amostra são de Cochran (1965). Para utilizar as fórmulas

necessitamos:

•conhecer a variabilidade da população ou estimá-la por meio de uma amostra piloto. A varia-

bilidade mínima reflete diretamente no tamanho da amostra, pois sendo pequena, inferior a

30%, temos um grupo homogêneo e os dados são muito assemelhados, então a amostra pode

ser pequena, caso contrário vai exigir um tamanho maior;

•definir a margem de erro máxima que podemos admitir tendo em vista os objetivos de nossa

investigação, isto é, precisamos estabelecer um máximo de precisão. Quanto menor essa mar-

gem, maior será o tamanho da amostra para procurar garanti-la;

•estabelecer a probabilidade de confiança (Pf) na amostra que for realizada. Esta Pf deve ser

máxima, altos valores, sua interferência no tamanho da amostra é menor do que a margem de

erro.

A seguir as fórmulas:

1ª fórmula:

22

/2 /2r

CVn z zα α

σε ε

= ≈

*Esta fórmula é utilizada para populações infinitas ou com N desconhecido, com σ conhecido.

2ª fórmula:

2 2

/2 /2

ˆ

r

s CVn t tα αε ε

= =

*Esta fórmula é para populações infinitas ou com N desconhecido, com σ estimado.

3ª fórmula:

2 2 2 2/2 /2

2 2 2 2 2 2/2 /2( 1) ( 1) r

N z N z cvn

N z N z cvα α

α α

σε σ ε

= ≈− + − +

*Esta fórmula é para populações finitas, com σ conhecido.

4ª fórmula:

2 2 2 2/2 /22 2 2 2 2 2

/2 /2

ˆ

ˆ( 1) ( 1) r

N t s N t cvn

N t s N t cvα α

α αε ε= ≈

− + − +

*Esta fórmula é para populações finitas, com σ estimado.

EaD

93


2º Método: Populações infinitas

Este método é uma espécie de estimativa do tamanho de n, sem considerar os princípios

básicos do cálculo de amostragem. Respeita apenas a precisão, desconsiderando fidedignidade

e variabilidade. É, portanto, um método com baixa cientificidade e com pouca segurança.

Este método é pobre de informações adicionais, logo vai compensar superestimando o

tamanho da amostra.

5ª fórmula:

21

r

nε

=

seção 4.2

delineamento amostral: dimensionamento e seleção

Esta seção vai nos apresentar a metodologia do delineamento amostral e da seleção alea-

tória que irá garantir a cientificidade dos resultados.

o delineamento amostral prevê algumas atividades fundamentais:

A definição dos fatores de inclusão na amostra, como características especiais da população

e sua distribuição na mesma, deve ser as mesmas população. Por exemplo, se na população a

divisão por gênero é igualitária, devemos delinear a amostra para ter 50% feminino e 50% mas-

culino; se na população 3,5% são pessoas sem escolaridade, a amostra deve ser delineada para

conter 3,5% de pessoas sem escolaridade. Então, delineamento trata de estabelecermos critérios

de pertencimento à amostra para melhor representar a população.

os cuidados na seleção amostral

Outro fato importante trata-se da seleção aleatória dos indivíduos que comparecem à

amostra. Com isso queremos garantir que cada unidade populacional tenha as mesmas chances

de vir a ser sorteada. Atualmente esse procedimento é facilmente obtido mediante a geração de

números aleatórios multiplicados pelo tamanho da população e restritos ao tamanho da amostra.

No Excel utiliza-se a seguinte função: Aleatório ()*N repetido até obtermos o n necessário com

alguns de reserva para o caso de gerarmos números repetidos.


94

A seguir, seleciona-se as unidades populacionais na Listagem da População. Por exemplo:

no caso de estarmos sorteando n = 40 municípios do RS, geramos 40 números aleatórios por

meio da função Aleatório()*496, este número é N, a população de municípios gaúchos, e obte-

mos nossa amostra. Em seguida vamos à lista e selecionamos os municípios correspondentes.

Posteriormente, vamos à base de dados que pode ser a FEE ou o IBGE, cidades ou outra base de

dados conhecida e reconhecida, e organizamos um banco de dados com as variáveis de interesse

para nosso estudo.

exemplificação do processo amostral

Seja o seguinte quadro de informações provenientes de uma população:

Quadro 3: informações básicas sobre as variáveis em estudo

População RGS Empresa ProduçãoUnidade básica Municípios Funcionários Produtos

N 496 2.500 Desconhecido

VariávelPIB per capita em mi-

lhares de reaisIdade Peso da peça

Média 11,294118 32,27 2,3 kg

Desvio Padrão3,2789831 valor po -

pulacional

3,8724 valor estima-

do, n = 20

0,8625 valor estima-

do, n= 40Coeficiente de

Variação0,29032663 0,12 0,375

εr 0,05 0,05 0,10PF 0,90 0,95 0,99

Tamanho estimado

só com base no Erro,

fórmula 5

400 10.000 100

Fonte: Elaboração da autora com base nos dados do IBGE.

Utilizando os dados do Quadro 3 vamos dimensionar a amostra para cada grupo, conside-

rando as informações disponíveis na hora de escolher a fórmula adequada e proceder à seleção

aleatória.

•Dimensionamento da amostra

Grupo 1: RGS – municípios

Como N é conhecido, N = 496 e σ=3,278931, variância populacional conhecida, vamos

escolher a fórmula 3:

2 2/2

2 2 2/2

496*(1,64)² * (0,29032663)²76,8 77

( 1) (496 1)*(0,05)² (1,64)² * (0,29032663)²r

N z cvn municípios

N z cvα

αε= = = ≅

− + − +

EaD

95


O estudo deve considerar uma amostra de 77 municípios sorteados aleatoriamente para

fazer o estudo entre os 496 que compõem o Estado do RS.

Realizamos o sorteio aleatório utilizando a função do Excel, retirando municípios repetidos,

com a função: =Aleatório ( )*496 e se encontra no Quadro 4 a seguir.

O sorteio realizado é uma AAS – Amostra Aleatória Simples que considera todas as unidades

populacionais com a mesma chance de serem sorteadas para participar da amostra. As unidades

populacionais são os municípios gaúchos enumerados de 1 a 496.

A seguir apresentamos as 77 unidades amostrais sorteadas no Excel, com o respectivo

número de sorteio, que é o número do próprio município.

Quadro 4: seleção aleatória por sorteio entre os municípios do rs

nº Sorteado Município nº Sorteado Município nº Sorteado Município

1 17 Antônio Prado 27 162 Farroupilha 53 356 Salto do Jacuí

2 20 Aratiba 28 164 Faxinalzinho 54 368 Santa Tereza

3 26 Arroio Grande 29 171 Forquetinha 55 376 Santo Antônio do Palma

4 27 Arvorezinha 30 179 Getúlio Vargas 56 379 Santo Cristo

5 28 Augusto Pestana 31 190 Harmonia 57 385 São Gabriel

6 37 Barra do Ribeiro 32 191 Herval 58 393 São José do Inhacorá

7 39 Barra Funda 33 197 Ibiaçá 59 394 São José do Norte

8 46 Boa Vista do Cadeado 34 202 Ijuí 60 395 São José do Ouro

9 48 Boa Vista do Sul 35 203 Ilópolis 61 403 São Martinho da Serra

10 60 Cacequi 36 215 Itati 62 404 São Miguel das Missões

11 63 Cacique Doble 37 222 Jaguarão 63 408 São Pedro das Missões

12 68 Cambará do Sul 38 232 Lajeado 64 411 São Sebastião do Caí

13 73 Campo Novo 39 244 Marau 65 416 São Vendelino

14 74 Campos Borges 40 254 Minas do Leão 66 419 Sapucaia do Sul

15 83 Capão da Canoa 41 267 Muliterno 67 427 Serafina Corrêa

16 99 Cerro Branco 42 270 Nonoai 68 434 Sinimbu

17 116 Coqueiros do Sul 43 279 Nova Pádua 69 441 Taquara

18 120 Cotiporã 44 283 Nova Ramada 70 443 Taquaruçu do Sul

19 124 Cristal do Sul 45 289 Novo Machado 71 458 Três Forquilhas

20 131 Dilermando de Aguiar 46 294 Palmares do Sul 72 459 Três Palmeiras

21 138 Dona Francisca 47 296 Palmitinho 73 461 Trindade do Sul

22 141 Eldorado do Sul 48 302 Parobé 74 466 Tupanciretã

23 144 Engenho Velho 49 333 Protásio Alves 75 472 Unistalda

24 151 Erval Seco 50 334 Putinga 76 486 Victor Graeff

25 156 Estância Velha 51 343 Rio Grande 77 491 Vista Alegre

26 160 Eugênio de Castro 52 354 Sagrada Família

Fonte: Elaboração da autora com base na relação de municípios do RS no Wikipédia.

Grupo 2: Empresa de Grande Porte – Funcionários

Delineamento: proporcionalidade por sexo: 50%.

Condições: Independente de setor, cargo, tempo de serviço.

Como N é conhecido, N = 2500 e 3,8724S = a partir de uma amostra piloto de tamanho 20,

logo variância populacional desconhecida, variância estimada, vamos escolher a fórmula 4:


96

2 2/22 2 2

/2

2.500*(2,093)² * (0,12)²24,99 25

( 1) (2.500 1)*(0,05)² (2,093)² * (0,12)²r

N t cvn funcionários

N t cvα

αε= = = ≅

− + − +

O estudo deve considerar uma amostra de 25 funcionários para garantir uma margem

máxima de erro de 5% e uma confiabilidade de 95%. Utilizamos a função da calculadora para

fazer o sorteio com os seguintes passos:

(2nd F+RND)*2500, gerando os 25 números da amostra e mais as 6 reservas, controlando

para não haver repetições.

No sorteio devemos considerar um delineamento que garanta uma distribuição igualitária

por sexo, quer dizer, uma amostra estratificada por sexo. Para tanto, separamos os funcionários

em dois grupos e metade será sorteada entre os do sexo masculino e a outra metade entre as de

sexo feminino.

Como se trata de pessoas que eventualmente podem se negar a responder ou faltar, ou ain-

da não serem encontradas, sorteia-se também um grupo de nomes-reserva chamado de reserva

técnica para fazer substituições caso seja necessário.

O pressuposto, neste caso, é a existência de uma listagem com a relação de trabalhadores.

A cada um deles vai ser atribuído um único número que varia de 1 a N=2.500.

Neste caso, as reservas também têm de ser meio a meio por sexo.

Quadro 5: amostra sorteada e respectiva seleção.

Masculino Femininon2 sorteado nome n2 sorteado nome 1 94 Gustavo 14 960 Anastácia2 202 Adolfo 15 1.049 Tarsila3 272 Maximino 16 1.467 Fabiana4 340 Carlos 17 1.640 Raquel5 363 Ernesto 18 1.745 Eliana6 498 François 19 1.798 Edivania7 907 Gabriel 20 1.825 Alice8 944 Mateus 21 2.101 Luciana9 1.467 Frederico 22 2.148 Guilhermina

10 1.688 Homero 23 2.217 Jamilia11 1.725 Elvis 24 2.217 Constancia12 1.914 Cassiano 25 2.415 Zuleica13 2.216 Josias

reserva M reserva F1 278 Ricardo 1 727 Inês

2 1.250 Fabrício 2 996 Janaina

3 2.107 Jonas 3 1.137 Débora

Fonte: Elaboração da autora com base nos dados da empresa.

EaD

97


Após a seleção amostral, proceder-se-á à coleta das assinaturas nos Termos de Consentimento Livre e Esclarecido (TCLE) para iniciar a coleta de dados. Este procedimento garante que o pesqui-

sado conhece os objetivos da pesquisa e sua participação, bem como os procedimentos metodoló-

gicos. Também lhe é garantido sigilo de sua participação e em nenhum momento as informações

prestadas serão relacionadas a sua pessoa e lhe causarão prejuízo na empresa ou em qualquer

lugar. Garante ainda que a qualquer momento estará livre para retirar seu consentimento.

Grupo 3: Produção contínua de uma empresa de médio porte – peças

Delineamento: como a produção é contínua, entende-se que a população de peças pro-

duzidas tendem a infinito, por isso não dimensionamos o N. Também é impossível conhecer a

variância populacional, apenas podemos estimá-la mediante uma amostra piloto com uma variável

quantitativa que nos assegure média, variância, desvio padrão e coeficiente de variação. Neste

caso a variabilidade foi estimada a partir de uma grande amostra, n=40. Podemos considerar

então a utilização da primeira fórmula.

Como N é conhecido, N →∞ e CV = 0,375 a partir de uma amostra piloto de tamanho 40,

logo temos variância populacional desconhecida, mas estimada numa grande amostra, com uma

margem de erro fixada em εr= 0,10 e uma probabilidade de confiança, PF=0,99, vamos escolher

a fórmula 1:

2 2

/2

0,3752,58* 93,6 94. . .

0,10r

CVn z lote de peçasα ε

= = = ≅

Não é possível aplicar os métodos de sorteio neste caso, pois se trata de uma produção

contínua e as peças não são numeradas nem identificadas, apenas fazem parte de lotes que

identificam o período, turno e dia em que foram produzidas, o responsável pela máquina, a pró-

pria máquina e o conferente. Cada lote é constituído de dez peças, o que favorece, por exemplo,

o cálculo da proporção de peças defeituosas por lote, etc. A forma que pode ser adotada é a de

fazer uma amostra aleatória sistemática, em que uma razão é estabelecida para o momento da

coleta. Considerando a experiência na produção estabeleceu-se o momento da coleta de 6 em 6

horas, com sorteio da primeira coleta do dia e a partir daí de 6 em 6 horas coleta-se uma amostra,

sendo que a unidade amostral é o lote daquele período. O sistema é repetido até ser composto

o número de lotes definido pelo dimensionamento da amostra.

Sabe-se que a empresa funciona ininterruptamente, 24 horas por dia. O turno de trabalho

para o sorteio inicial é da meia noite às 6 da manhã. É nesse intervalo de tempo que será sorteado

o horário da primeira amostra e a partir daí inicia-se a coleta do lote de 6 em 6 horas. O intervalo

é contabilizado em meia hora e hora completa, formando assim 12 intervalos de tempo:

•Enumeração dos períodos de tempo para o sorteio inicial:

Nº 1 2 3 4 5 6 7 8 9 10 11 12Horário 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6


98

•Sorteio da hora de início da coleta dos lotes, um em cada período previsto. Serão sorteados números de 1 a 12, correspondente ao número de períodos de meia hora da meia-noite às 6 da manhã.

Quadro 6: amostra de períodos sorteados como hora de início da coleta

Sorteio da primeira hora Sorteio da primeira hora1 8 4 13 11 5,52 3 1,5 14 8 43 6 3 15 6 34 5 2,5 16 6 35 9 4,5 17 12 66 3 1,5 18 10 57 1 0,5 19 2 18 10 5 20 12 69 1 0,5 21 3 1,5

10 4 2 22 1 0,511 8 4 23 11 5,512 1 0,5 24 8 4


A hora inicial é considerada a semente geradora dos horários para o processo amostral, a

qual será então somada com (+ 6) gerando os demais horários do dia. Para completar o último

dia de coleta, o 24º, aproximamos para n = 96.

Quadro 7: amostra de períodos sorteados gerados a partir da hora sorteada inicialmente

n3 Coleta N3 Coleta n3 Coleta n3 Coleta1 4 25 5 49 5,5 73 12 10 26 11 50 11,5 74 73 16 27 17 51 17,5 75 134 22 28 23 52 23,5 76 195 1,5 29 0,5 53 4 77 66 7,5 30 6,5 54 10 78 127 13,5 31 12,5 55 16 79 188 19,5 32 18,5 56 22 80 249 3 33 5,5 57 3 81 1,5

10 9 34 11,5 58 9 82 7,511 15 35 17,5 59 15 83 13,512 21 36 23,5 60 21 84 19,513 2,5 37 4 61 3 85 0,514 8,5 38 10 62 9 86 6,515 14,5 39 16 63 15 87 12,516 20,5 40 22 64 21 88 18,517 4,5 41 3 65 6 89 5,518 10,5 42 9 66 12 90 11,519 16,5 43 15 67 18 91 17,520 22,5 44 21 68 24 92 23,521 1,5 45 3 69 5 93 422 7,5 46 9 70 11 94 1023 13,5 47 15 71 17 95 1624 19,5 48 21 72 23 96 22


EaD

99


Dessa forma o delineamento está concluído e as amostras serão coletadas em 24 dias.

Para fixarmos os conteúdos, o que acham de resolver algumas questões? Vamos adiante,

pessoal, para finalizar mais esta unidade do nosso livro.

seção 4.3

aplicações

O gerente de uma empresa do ramo de calçados populares quer conhecer a interferência

de algumas variáveis na condução de seus negócios. Como o estatístico deve conduzir o processo

amostral?

Em cada proposição identifique:

a população

a unidade amostral

o delineamento

o cálculo da amostra

a seleção aleatória

Caso 1) Se ele pretende entrevistar a clientela utilizando a variável “gasto na última aqui-

sição” para delinear a amostra, vai precisar de uma amostra piloto. Com base em 26 notas de

clientes da empresa monte o processo amostral, definindo margem de erro, probabilidade de

confiança e coeficiente de variação a partir dos valores das notas:

Quadro 8: Banco de dados da amostra piloto

1 R$ 136,40 14 R$ 64,002 R$ 119,87 15 R$ 117,003 R$ 124,33 16 R$ 145,004 R$ 112,60 17 R$ 186,905 R$ 102,53 18 R$ 166,996 R$ 87,90 19 R$ 268,007 R$ 99,12 20 R$ 54,808 R$ 127,45 21 R$ 145,009 R$ 132,90 22 R$ 219,00

10 R$ 123,10 23 R$ 104,0011 R$ 107,34 24 R$ 131,6012 R$ 264,00 25 R$ 59,2313 R$ 148,00 26 R$ 84,50

Fonte: Escritório da empresa.


100

Caso 2) Se ele pretende utilizar a informação sobre o número de pares de calçados que

vendeu nas últimas exportações para os vizinhos da América Latina, onde tem 180 clientes,

enviando uma mala investigativa via Internet por processo amostral.

Quadro 9: Banco de dados de todos os clientes

n pares n pares n pares n pares n pares n pares

1 411 31 239 61 183 91 267 121 312 151 451

2 577 32 132 62 190 92 238 122 384 152 188

3 564 33 445 63 442 93 198 123 599 153 252

4 507 34 265 64 190 94 552 124 282 154 317

5 202 35 219 65 410 95 167 125 289 155 437

6 435 36 430 66 162 96 210 126 392 156 365

7 513 37 519 67 427 97 310 127 493 157 512

8 292 38 225 68 417 98 409 128 150 158 248

9 394 39 485 69 481 99 458 129 532 159 142

10 404 40 259 70 403 100 217 130 461 160 514

11 127 41 148 71 406 101 195 131 327 161 266

12 485 42 401 72 350 102 180 132 389 162 284

13 165 43 555 73 110 103 132 133 554 163 573

14 352 44 259 74 534 104 201 134 585 164 27415 128 45 320 75 176 105 495 135 427 165 57116 435 46 365 76 327 106 224 136 480 166 53517 520 47 223 77 325 107 453 137 169 167 13718 435 48 107 78 562 108 514 138 137 168 45819 137 49 580 79 396 109 533 139 565 169 12720 415 50 141 80 139 110 545 140 136 170 25821 204 51 560 81 476 111 454 141 118 171 27122 527 52 572 82 445 112 213 142 412 172 56423 450 53 356 83 333 113 258 143 526 173 42224 569 54 391 84 344 114 473 144 233 174 29025 175 55 429 85 188 115 295 145 104 175 25926 463 56 260 86 574 116 476 146 159 176 55027 559 57 148 87 296 117 436 147 248 177 33428 249 58 212 88 388 118 585 148 238 178 58629 500 59 536 89 291 119 503 149 287 179 58430 103 60 542 90 446 120 405 150 485 180 155

Fonte: Departamento de vendas.

Caso 3) Se ele deseja saber como seria a aceitação de um novo produto entre seus clientes

usuais. Não sabe quantos clientes costumam vir a sua loja e comprar um tipo de calçado como

esse novo produto.

Caso 4) Se ele deseja encontrar o perfil de clientes na aceitação de um novo plano de

promoções. Toma como informação a proporção de clientes que costuma frequentar a loja nos

sábados à tarde: p = 0,54

EaD

101


Caso 5) Sabendo que tem 228 sapateiras, toma uma amostra de 35 delas tomando a infor-

mação sobre o tempo de trabalho na indústria calçadista, deseja conhecer o grau de satisfação

dos trabalhadores da empresa.

Quadro 10: amostra piloto

n TS n TS n TS1 0 13 6 25 42 13 14 23 26 23

3 3 15 16 27 26

4 12 16 14 28 10

5 24 17 11 29 7

6 4 18 20 30 14

7 12 19 13 31 29

8 1 20 20 32 25

9 24 21 12 33 2

10 27 22 29 34 27

11 18 23 9 35 0

12 12 24 11

Fonte: Registro empresarial.

resUMo da Unidade 4

Nesta unidade introduzimos o estudante em um dos principais procedi-

mentos dentro da Estatística, que distingue um trabalho de senso comum

de um trabalho científico: o processo amostral. Procuramos trabalhar as

principais fórmulas, o rigor do delineamento e da seleção aleatória das

unidades amostrais.

EaD

103


noçÕes de inFerÊncia estatística

Ruth Marilda Fricke

oBjetivo desta Unidade

•Mostrar como, por meio do processo amostral, fizemos a extensão dos resultados amostrais

para descrever o comportamento da população, dominando algumas técnicas de generalização,

como a estimação e teste de hipóteses.

seçÕes desta Unidade

Seção 5.1 – Conceitos e definições

Seção 5.2 – Estimativas e sua projeção

Seção 5.3 – Aplicações.

A Inferência é o processo de generalização e de projeções realizadas a partir da amostra

por meio de Estimativas, Intervalos de Confiança e de Testes de Hipótese. A ideia é fazer as

medidas numa amostra (calculada e selecionada aleatoriamente com critérios científicos, como

foi visto na Unidade 4, aplicar as técnicas estatísticas nessa amostra e projetar os resultados para

a população.

Com isso ganhamos tempo, precisão, agilidade, avaliando também as relações e tendências

futuras. Desse modo, as estatísticas amostrais servirão para conhecer o comportamento de uma

população, que só poderia ser estudada censitariamente, o que nem sempre é possível.

Unidade 5


104

seção 5.1

conceitos e definições

estimadores:

Os estimadores são as estatísticas amostrais que serão calculadas na amostra e projetadas

por meio de estimativas por ponto (a estimativa é utilizada como se fosse o parâmetro popula-

cional) ou por intervalo (uma estimação que parte da estatística amostral calculada, média ou

proporção, no caso deste texto e acrescentando uma margem de erro para mais e para menos,

que nos informa a faixa de ocorrência do verdadeiro valor populacional).

intervalo de confiança:

O Intervalo de Confiança dimensiona uma faixa de possível ocorrência do parâmetro po-

pulacional, ou seja, do verdadeiro valor, desconhecido mas estimado por meio da amostra. Este

intervalo é construído após a definição da probabilidade de confiança que pretendemos ter na

estimativa realizada.

teste de Hipótese:

Após o cálculo da estimativa precisamos conferir se o valor encontrado está garantido como

uma projeção do valor populacional. Para tal, estabelecemos um nível de significância (uma es-

pécie de margem de erro) para nossa estimativa e conseguimos estabelecer uma garantia para

a informação obtida, possibilitando que as decisões sejam tomadas tendo por base a informação

amostral.

Na seção 5.2 vamos apresentar a metodologia estatística que permite inferir os parâmetros

populacionais a partir de uma amostra, ou seja, generalizar a partir dela. No processo amostral

não interessam por si mesmas as estatísticas da amostra, mas sim as estimativas construídas a

partir dela e que inferem o comportamento populacional.

seção 5.2

estimativas e sua Projeção

Nesta seção vamos apresentar as estimativas e os testes de hipóteses que permitem a

projeção dos resultados amostrais. As estimativas são calculadas com valores das estatísticas

amostrais. As projeções são realizadas quando testamos se os valores encontrados na amostra

trazem evidência suficiente para inferirmos os parâmetros populacionais.

EaD

105


5.2.1 estiMativas

As estimativas da informação populacional a partir da amostra podem ser realizadas:

• Por ponto: quando se projeta o valor calculado na amostra como se fosse o próprio parâmetro,

o valor populacional. Este procedimento desconsidera a margem de erro presente no processo

amostral e não oferece garantia à estimativa.

• Por intervalo: ao estabelecer a estatística amostral como estimativa, constrói-se em torno dela

um intervalo baseado no potencial de erro de estimativa do processo. Como se diz popularmen-

te, o valor verdadeiro é projetado como a estatística calculada na amostra mais ou menos um

determinado valor que é a margem de erro agregada da confiança. Por isso, é denominado de

Intervalo de Confiança. Usualmente este intervalo é calculado para garantir 95% de confiança

de conter o verdadeiro parâmetro.

Ao utilizarmos a média amostral, já temos comprovação anterior que esta medida é um

estimador ótimo para a média populacional, pois o valor esperado da média amostral é o próprio

parâmetro, ε( )= µ e a variância é mínima, V( )= σ²/n.

Mesmo assim a estimativa por ponto é arriscada, pois fazemos o cálculo amostral a partir

de uma amostra entre todas as possíveis, então é importante que na projeção trabalhemos com

uma estimativa por intervalo, considerando a confiança dentro da margem de erro. Vários são

os parâmetros que podem ser estimados, mas vamos trabalhar somente com os estimadores da

média – µ, e proporção, π.

intervalo de confiança para a Média

/295%IC X z Pfn

σ∂

= ± =

Esta é a fórmula para o Intervalo de Confiança no caso de variância populacional conhecida

ou estimada com grandes amostras.

( 1); /2

ˆ95% n

sIC X t Pf

n− ∂

= ± =

Esta é a fórmula para o Intervalo de Confiança no caso de variância estimada. O valor da

variância amostral estimada precisa de uma correção ao valor da variância amostral, pois esta

apresenta uma tendenciosidade logo ˆ² ² *1

ns s

n = −

é a expressão da variância amostral corri-

gida para pequenas amostras, em que n < 30.


106

intervalo de confiança para a proporção

/2

( ) * (1 )95%

p pIC p z Pf

n∂

− = ± =

Esta é a fórmula para o Intervalo de Confiança no caso de proporção. Utilizamos sempre

a padronização normal e o cálculo da média é dado por pµ = , tal que µ é o símbolo da média

populacional, o parâmetro média; a variância é dada por σ² = (p)*(1-p) em que σ² é o símbolo da

variância populacional e p é o valor da proporção obtida na amostra, enquanto π é a proporção

populacional desconhecida.

5.2.2 testes de HiPÓteses Para generaliZação de estatísticas aMostrais

Outro tratamento importante que deve ser realizado antes de projetarmos as estimativas

é o teste de hipóteses. O teste de hipóteses deve ser aplicado aos valores amostrais para verifi-

carmos se os mesmos podem ser projetados para a população. Este item merece um estudo mais

aprofundado, no entanto nos restringiremos aos testes da média e da proporção, que são os mais

utilizados nas pesquisas por amostragem.

Quadro 1: Parâmetros, estimadores e teste de hipóteses

Medida Teste de hipóteses

Média

Parâmetro: µ (mi) Estimador: X (xbarra)

H0: µ =µ0, a média atual é igual à antiga.

Ha: µ ≠µ0, µ >µ0, µ <µ0, a média atual é diferente, menor ou maior que a antiga.

Grandes amostras

0o

Xz

n

µσ−

=

Rejeitar H0 se: z0<-zα; z0>+zα; Aceitar H0 se: -zα< z0<+zα

Pequenas amostras:

0o

x

Xt

s n

µ−=

Rejeitar H0 se: t0<-t(n-1)α; t0>+ t(n-1)α; Aceitar H0 se:– t(n-1)α/2 < t0<+ t(n-1)α/2Proporção

Parâmetro: π(pi) Estimador: p’ (p proporção)

H0: π =π0, a proporção atual é igual à antiga.

Ha: π ≠π0, π >π0, π <π0, a proporção atual é diferente, menor ou maior que a antiga.

( )0

0 0

'

(1 )o

pz

p p n

π−=

−, p’= p estimado na amostra, π0= Valor já existente

Rejeitar H0 se: z0<-zα; z0>+zα; Aceitar H0 se: -zα< z0<+zα


EaD

107


EXEMPLO:

Sabe-se que o módulo da propriedade rural na nossa região é de 25 ha. Devido ao modelo

agrícola e sistema de organização social em função de lucro e de acumulação, a população urbana

vem crescendo e a rural diminuindo em função do êxodo rural. Os agricultores e suas famílias

saem do meio rural por causa do endividamento, busca de instituições de saúde e de educação,

do custo elevado de produção agrícola, da dificuldade de acesso às novas tecnologias, etc.

Hipótese: Em função disso entende-se que o módulo rural esteja se modificando.

1) Fazemos uma amostra de propriedades rurais de nossa região

Dados disponíveis para o dimensionamento da amostra:

Seja um estudo de propriedades rurais, avaliando-se a concordância atual com o módulo

rural em 25 ha. O censo agrícola revela que nesta região o número total de propriedades rurais

é de 2.049 estabelecimentos e o número total de hectares é de 51.508.

Dessa relação podemos tirar uma razão de ha/propriedade:

. . 51.508.25,13. /

º 2.049

total de ha haRazão ha propriedade

n de propriedades rurais propriedades rurais= = =

Segundo essa razão (25,13 ha/propriedade), observamos que na prática ela corresponde

ao módulo rural.

Como comprovaremos a hipótese de que o modelo de concentração de terras está modifi-

cando o tamanho das propriedades rurais?

Estabelecemos então uma proporcionalidade com a finalidade de ter uma informação bá-

sica para o cálculo da amostra:

P=25/25, 13=0,99 logo q=(1-p)= 0,01

µ’=p=0,99; σ’²=s’² =p*q= 0,99*0,01=0,0099;

s=√( p*q)= √(0,0099)=0,09949874 e

CV= √q/p=√0,01/0,99)=0,10050378

Estabelecendo εr=0,03 e uma Pf=0,95→zα /2=1,96, vamos dimensionar o tamanho da

amostra utilizando a fórmula para proporção com N finito:

2 2/2

2 2 2/2( 1)

N zn

N zα

α

σε σ

=− +

=

2 2/2

2 2 2/2

2049*(1,96)² * (0,10050378)²

( 1) (2049 1)*(0,03)² (1,96)² * (0,10050378)²r

N z CV

N z CVα

αε= =

− + − +=

= 42,25 ≈ 43 propriedades na amostra.


108

Como percebemos, em princípio não temos muita informação sobre as propriedades para fazer

um cálculo da amostra; buscamos então um apoio numa proporção que na realidade é uma razão.

A estatística que mais agregaria informação seria a Média, pois ela é uma medida que faz

um aporte de dados individual, isto é, teríamos uma informação conhecida para o cálculo da

Média de cada uma das propriedades.

Como, no entanto, a razão calculada representa baixíssima variabilidade, entendemos que

a amostra não sofrerá superestimação para compensar. Posteriormente, com base na amostra

realizada, poderemos estimar um real tamanho da amostra para verificar o nível de satisfação

com os cálculos realizados.

2) Redimensionamento dos requisitos em termos de erro e confiança, se adotarmos uma amostra

menor do que a calculada.

Uma vez que o n calculado foi de 43 para um εr=0,03 e uma Pf=0,95 e o n realizado foi

de 30, devemos atualizar o erro e/ou a confiança.

Vamos assumir que a Probabilidade de Confiança não se modificou e apenas vamos mexer

na margem de erro, portanto:

Continua Pf=0,95→zα/2=1,96

E vamos deixar como incógnita o εr. Refazemos a conta do dimensionamento da amostra,

substituindo o n, incógnita na versão anterior, por n = 30, tamanho que foi realmente efetivado

e a incógnita agora é o εr. Desse modo, refazendo os cálculos vamos redimensionar o montante

de erro que realmente foi praticado quando a decisão foi reduzir de 43 para 30 o tamanho da

amostra.

Retomemos a fórmula com todos os seus valores substituídos, com exceção do erro.

2 2/2

2 2 2/2

2049*(1,96)² * (0,10050378)²30

( 1) (2049 1)*( )² (1,96)² * (0,10050378)²r r

N z CV

N z CVα

αε ε= =

− + − +

2 2 2 22 2 2/2 /2

0 /22 2 2/2 0

1/22 2 2 2

2 2 2 2 2/2 /2/2 /2

0 0

2 22

( 1)( 1)

1 1

( 1) ( 1)

(2049)(1,96) (0,10050378)(1,96) (0,1

30

rr

r r

r

N z CV N z CVn N z CV

N z CV n

N z CV N z CVz CV z CV

n N n N

α αα

α

α αα α

εε

ε ε

ε

= → − = −− +

→ = − → = − − −

= −1/2

2 10050378) 0,036

(2049 1)

= −

EaD

109


Então, diminuindo o tamanho da amostra para 30, considerando que PF = 0,95, estaremos trabalhando com um erro máximo de εr=0,036

3) Coletamos dados referentes às 30 propriedades rurais, selecionadas aleatoriamente.

4) Construímos o banco de dados das propriedades sorteadas para compor a amostra.

Quadro 2: relação das variáveis coletadas por meio do instrumento de coleta e sua classificação

X1 Tamanho da propriedade (ha) VA quantitativa contínuaX2 Produção: soja (0.Não produz; 1.Produz) VA qualitativa não ordenávelX3 Produção: milho(0.Não produz; 1.Produz) VA qualitativa não ordenávelX4 Produção: aves(0.Não produz; 1.Produz) VA qualitativa não ordenávelX5 Produção: leite(0.Não produz; 1.Produz) VA qualitativa não ordenávelX6 Nº de moradores da propriedade VA quantitativa


Quadro 3: Banco de dados nº 6 com as variáveis coletadas por meio do instrumento de coleta

X1 X2 X3 X4 X5 X6 X1² X6

²

Nº Tam soja milho aves leite moradores tam² moradores1 28 1 1 1 1 5 784 252 12 1 0 1 1 7 144 493 15 1 1 0 1 7 225 494 5 0 1 1 1 9 25 815 8 0 1 1 1 8 64 646 55 1 1 0 1 2 3025 47 80 1 1 0 0 3 6400 98 36 1 1 1 1 4 1296 169 27 1 1 1 1 5 729 25

10 10 0 1 1 1 8 100 6411 47 1 1 0 0 2 2209 412 62 1 1 0 0 3 3844 913 87 1 1 0 0 3 7569 914 13 0 1 1 1 6 169 3615 25 1 1 0 1 5 625 2516 42 1 0 0 0 2 1764 417 53 1 1 1 1 3 2809 918 84 1 1 0 0 2 7056 419 27 0 1 0 1 4 729 1620 18 1 1 1 1 5 324 2521 15 1 1 1 1 6 225 3622 61 1 0 0 0 2 3721 423 76 1 1 0 1 4 5776 1624 34 0 1 1 1 3 1156 925 29 1 0 1 1 5 841 2526 50 1 1 0 1 3 2500 927 42 1 0 0 0 2 1764 428 24 1 1 1 1 2 576 429 16 0 1 1 1 8 256 6430 49 1 1 0 0 4 2401 16∑ 1130 132 59106 714p 0,77 0,87 0,50 0,70

Fonte: Elaboração da autora, com base em técnicas de simulação.


110

Cálculo das estatísticas amostrais das variáveis quantitativas

Quadro 4: estatísticas descritivas

Medida Fórmula X1: Tamanho X6: Moradores

Média

Aritmética: 1

ni

i

xX

n=

= ∑ 1

1.13037,67.

30X ha= =

6

1324,4

30X moradores= =

Variância ( )2

22

1

ni

i

xS x

n=

= −∑ ( )22 59.106 3037,67

30 30 1

570,177 ²

S

ha

= − − =

( )22 714 304,4

30 30 1

22,59310345 ²

S

moradores

= − − =

Desvio

Padrão2S S=

2(570,177

23,87837934.

S

ha

= ==

2(22,59310345)

4,753220324

S = ==

Coeficiente de

Variação 100S

CVX

= 23,87837934

10037,67

63,4%

CV = =

=

4,753220324100

4,4

108%

CV = =

=


Quadro resumo das estatísticas e dos resultados da aplicação do intervalo de confiança e

do teste de hipóteses para as variáveis quantitativas

Quadro 5: Quadro resumo: intervalo de confiança e teste de hipóteses

MedidasParâmetros estimativa

Intervalo ConfiançaTH Sig.

Li LsTamanho Pro-

priedadeµ 37,67 29,12 46,21 2,096 0,0180, *

Moradores µ 4,4 2,67 6,10 1,325 0,0918 n.s.


Li: Limite Inferior; Ls: Limite Superior; TH: Teste de Hipóteses

Intervalo de confiança de 95% para a Média; utiliza-se o intervalo de confiança com base

na distribuição normal devido ao tamanho da amostra piloto, n = 30.

EaD

111


X1: Tamanho da propriedade (conforme o quadro 3):

/2

23,8783793495% 95% 37,67 1,96 0,95

30

95% 29,12 46,21 0,95

IC X z Pf ICn

IC

σ

µ

∂ = ± = → = ± =

= ≤ ≤ =

Constatamos que o tamanho médio das propriedades rurais nessa região está estimado em

37,67 ha, o qual pode ser avaliado potencialmente como um valor entre 29,12 e 46,21 há, com

um nível de significância de 5%.

O intervalo de confiança calculado evidencia que o zero não é um valor possível para a

verdadeira média, com 95% de confiança. A verdadeira intenção do estudo, no entanto, é saber

se o módulo rural nessa região continua sendo 25 ha. Para isso vamos construir um teste de hi-

pótese com essa premissa, de que o módulo não se alterou e tem 25 ha.

H0: µ =µ0 → , µ =25 ha a média atual é igual à antiga.

Ha: µ >25 ha, a média atual maior que a antiga.

Região crítica do teste

Pf=0,95, α=0,05 → Z=1,96

Logo:

Aceita H0 se z0 ≤ 1,96

Rejeita H0 se z0 > 1,96

Estatística de teste:

Grandes amostras

0 37,67 252,906

23,87837934 30o

Xz

n

µσ− −= = =

Conclusão:

Como zo= 2,906 > zt =1,96, tem uma chance de 1,79% de ocorrer no caso da igualdade com

o módulo rural antigo ser verdadeira, garantindo que a diferença é estatisticamente signifi-

cativa (P<0,05). Rejeitamos H0 concluindo que houve mudança no padrão de propriedades,

ocorrendo uma concentração de terras nessa região, constatando-se que o padrão médio não

é mais 25 ha, cresceu e com um nível de significância estatístico de 5%, podemos estimar o

tamanho médio das propriedades em 37,67, com um potencial de variar entre 29 e 46 ha.


112

X6: Nº de moradores por propriedade (conforme o quadro 3):

/2

4,75322032495% 95% 4,4 1,96 0,95

30

95% 2,67 6,10 0,95

IC X z Pf ICn

IC

σ

µ

∂ = ± = → = ± =

= ≤ ≤ =

Constatamos que o número médio de moradores das propriedades rurais nessa região está

estimado em 4,4 moradores, e que o tamanho médio pode ser avaliado potencialmente como um

valor entre 2,67 e 6,10 moradores, com um nível de significância de 5%.


verdadeira média, com 95% de confiança, no entanto há informações de que o número médio

de membros nas famílias gaúchas é de 3,25 pessoas. Queremos saber se o número médio dessa

região é maior do que o do Estado. Para isso vamos construir um teste de hipótese com essa

premissa, de que o número médio é igual ao do Estado.

H0: µ =µ0 →, µ =3,25 moradores, a média da região é igual à do Estado.

Ha: µ >3,25 moradores por família, a média da região é maior que a do Estado.


Pf=0,95, α=0,05 → Z=1,96

Logo:




Grandes amostras

0 4,4 3,251,325

4,753220324 30o

Xz

n

µσ− −= = =

Conclusão:

Como zo= 1,325 < zt =1,96 aceitamos H0, há uma chance de ocorrer de 9,18% no caso de a

igualdade com o número de moradores ser verdadeiramente 3,25, garantindo que a diferença

não é estatisticamente significativa (P>0,05). Aceitamos H0 concluindo que não há diferença

estatisticamente significativa entre a média estadual = 3,25, e a média da região = 4,4. As

famílias, atualmente, como decorrência da vida moderna, do planejamento familiar, acesso

aos meios de contracepção, tendem a ter menos filhos, restringindo-se a 1 ou 2 no máximo.

EaD

113


X2: Produz soja, p: sim; (1-p): não tal que p = 0,77 (1-p) = 0,23

/2

(1 ) 0,77 *0,2395% 95% 0,77 1,96 0,95

30

95% 0,71 0,83 0,95

p pIC p z Pf IC

n

IC π

∂

− = ± = → = ± =

= ≤ ≤ =

Constatamos que a proporção de propriedades que produz soja é estimada em 0,77, e que

a proporção pode ser avaliada potencialmente como um valor entre 0,71 e 0,83, com um nível

de significância de 5%.


verdadeira média, com 95% de confiança. Supondo, no entanto, que metade das propriedades

rurais produz soja, queremos saber se a proporção estimada é significativamente maior do que a

suposta. Para isso vamos construir um teste de hipótese com essa premissa, de que a proporção

real é igual a 0,50.

H0: π = 0,50→ a proporção de propriedades que produzem soja é de 0,50.

Ha: π = 0,50→ a proporção de propriedades que produzem soja é > que 0,50.


Pf=0,95, α=0,05 → Z=1,96

Logo:




Grandes amostras

0 0,77 0,503,514

(1 ) 0,77(0,23)30

o

pz

p pn

π− −= = =−

Conclusão:

Como zo= 3,514 > zt =1,96 tem uma chance de 0,02% de ocorrer no caso da igualdade

com a hipótese de que 50% das propriedades produzem soja seja verdadeira, é altamente

improvável, garantindo que a diferença é altamente significativa estatisticamente (P<0,01).

Rejeitamos H0, concluindo que há diferença altamente significativa estatisticamente entre a

proporção suposta = 0,50 e a proporção da região = 0,77 quando se trata de produção de soja


114

com um nível de significância de 1%. Apesar de a soja ser uma produção que exige grandes

extensões rurais e cultivo com maquinário agrícola, a maioria das propriedades (indepen-

dentemente do tamanho) dedica-se a essa cultura pelo manejo exigido e retorno bastante

garantido, bem como pela política agrícola que favorece esta cultura. Podemos então afirmar

que a proporção estimada de produtores de soja é de 77% com grandes possibilidades de o

intervalo de 71% a 83% conter a real proporção da região em termos de produtores de soja,

tenha uma chance de 95% de conter a verdadeira proporção.

X3: Produz milho, p: sim; (1-p): não tal que p = 0,87 (1-p) = 0,13

/2

(1 ) 0,87 *0,2395% 95% 0,87 1,96 0,95

30

95% 0,83 0,91 0,95

p pIC p z Pf IC

n

IC π

∂

− = ± = → = ± =

= ≤ ≤ =

Constatamos que a proporção de propriedades que produzem milho é estimada em 0,87,

e que a proporção pode ser avaliada potencialmente como um valor entre 0,83 e 0,91, com um

nível de significância de 5%.


verdadeira média, com 95% de confiança. Supondo, no entanto, que metade das propriedades

rurais produz milho, queremos saber se a proporção estimada é significativamente maior do que

a suposta. Para isso vamos construir um teste de hipótese com essa premissa, de que a proporção


H0: π = 0,50→ a proporção de propriedades que produzem milho é de 0,50.

Ha: π = 0,50→ a proporção de propriedades que produzem milho é > que 0,50.


Pf=0,95, α=0,05 → Z=1,96

Logo:




Grandes amostras

0 0,87 0,506,026

(1 ) 0,87(0,13)30

o

pz

p pn

π− −= = =−

EaD

115


Conclusão:

Como zo= 6,026 > zt =1,96 rejeitamos H0, tem uma chance de ocorrer de 0,0000..% no caso

da igualdade com a suposição 0,50 ser verdadeira, garantindo que a diferença é altamente

significativa estatisticamente (P<0,01). Concluímos que há diferença altamente significativa

estatisticamente entre a proporção suposta = 0,50 e a proporção da região = 0,87 quando se

trata de produção de milho com um nível de significância de 1%. Apesar de o milho ser uma

produção que exige uma terra de boa qualidade, quase sempre uma terra de mato, é uma

cultura de grande utilidade tanto para a comercialização quanto para a demanda interna

da propriedade, por isso a maioria das propriedades (independentemente do tamanho) se

dedica a essa cultura pelo manejo exigido e retorno bastante garantido, bem como pela polí-

tica agrícola que favorece esta cultura. Podemos então afirmar que a proporção estimada de

produtores de milho é de 87% com grandes possibilidades de o intervalo de 83% a 91% conter

a real proporção da região em termos de produtores de milho, tenha uma chance de 95% de

conter a verdadeira proporção.

X4: Produz aves, p: sim; (1-p): não tal que p = 0,50 (1-p) = 0,50

/2

(1 ) 0,50*0,5095% 95% 0,50 1,96 0,95

30

95% 0,41 0,59 0,95

p pIC p z Pf IC

n

IC π

∂

− = ± = → = ± =

= ≤ ≤ =

Constatamos que a proporção de propriedades que produzem aves é estimada em 0,50,

e que a proporção pode ser avaliada potencialmente como um valor entre 0,41 e 0,59, com um



verdadeira média, com 95% de confiança. Sabendo, no entanto, que 65% das propriedades rurais

produzem aves, queremos saber se a proporção estimada é significativamente maior do que a

suposta. Para isso vamos construir um teste de hipótese com essa premissa, de que a proporção


H0: π = 0,65→ a proporção de propriedades que produzem aves é de 0,65.

Ha: π < 0,65→ a proporção de propriedades que produzem aves é < que 0,65.


116


Pf=0,95, α=0,05 → Z=1,96 Logo:

Aceita H0 se z0 ≥ -1,96

Rejeita H0 se z0 < -1,96


Grandes amostras

0 0,50 0,651,643

(1 ) 0,50*(0,50)30

o

pz

p pn

π− −= = = −−

Conclusão:

Como zo= -1,643 > zt =-1,96 aceitamos H0, tem uma chance de ocorrer de 0,0505% no caso

da igualdade com a suposição de 0,50 ser verdadeira, garantindo que a diferença não é sig-

nificativa estatisticamente (P>0,05). É possível concluir que não há diferença estatisticamente

significativa entre a proporção suposta = 0,65 e a proporção da região = 0,50 quando se trata

de produção de aves com um nível de significância de 5%. Apesar de ave ser uma produção

que não exige grandes extensões rurais, de fácil manuseio e consumo garantido, a maioria

das propriedades, independentemente do tamanho, não se dedica muito a essa produção. Po-

demos então afirmar que o a proporção estimada de produtores de aves é de 50% com grandes

possibilidades de que o intervalo de 41% a 59% conter a real proporção da região em termos

de produtores de aves, tenha uma chance de 95% de conter a verdadeira proporção.,

X5: Produz leite, p: sim; (1-p): não tal que p = 0,70 (1-p) = 0,30

/2

(1 ) 0,70*0,3095% 95% 0,70 1,96 0,95

30

95% 0,62 0,78 0,95

p pIC p z Pf IC

n

IC π

∂

− = ± = → = ± =

= ≤ ≤ =

Constatamos que a proporção de propriedades que produzem leite é estimada em 0,70,

e que a proporção pode ser avaliada potencialmente como um valor entre 0,62 e 0,78 com um



verdadeira média, com 95% de confiança. Supondo, porém, que as propriedades rurais são pe-

quenas entende-se que se dediquem à produção de leite em torno de 90%, queremos saber se a

proporção estimada é significativamente menor do que a suposta. Para isso vamos construir um

teste de hipótese com essa premissa, de que a proporção real é igual a 0,90.

EaD

117


H0: π = 0,90→ a proporção de propriedades que produzem leite é de 0,80.

Ha: π < 0,90→ a proporção de propriedades que produzem leite é > que 0,80.


Pf=0,95, α=0,05 → Z=1,96

Logo:

Aceita H0 se z0 ≥– 1,96

Rejeita H0 se z0 < – 1,96


Grandes amostras

0 0,70 0,902,390

(1 ) 0,70(0,30)30

o

pz

p pn

π− −= = = −−

Conclusão:

Como zo= -2,390 < zt =-1,96 rejeitamos H0, tem uma chance de ocorrer de 0,0084% no caso

de a igualdade com a suposição ser 0,50 a verdadeira proporção, garantindo que a diferença

é altamente significativa estatisticamente (P<0,01). Concluindo que há diferença altamente

significativa estatisticamente entre a proporção suposta = 0,90 e a proporção da região =

0,70 quando se trata de produção de leite com um nível de significância de 5%. Apesar de o

leite ser um produto altamente comercializável, pois várias empresas de beneficiamento do

leite operam na região, a proporção de produtores é menor do que a esperada. Podemos então

afirmar que a proporção estimada de produtores de leite é de 70% com grandes possibilidades

de que o intervalo de 62% a 78% conter a real proporção da região em termos de produtores

de leite tenha uma chance de 95% de conter a verdadeira proporção.,

seção 5.3

aplicações

Organize uma pesquisa de campo em que você precise entrevistar, coletar dados de qual-

quer natureza.


118

Estabeleça um tema, objetivos, hipóteses

Descreva a metodologia de coleta

Descreva a metodologia estatística

Faça uma revisão bibliográfica da estatística

Faça uma revisão de literatura do assunto abordado

Calcule amostra

Faça o delineamento amostral

Sorteie as unidades amostrais

Colete os dados

Construa o banco de dados

Aplique o máximo de estatísticas possíveis

Faça uma discussão dos resultados embasada na revisão da literatura sobre o assunto

Elabore conclusões

Bibliografia

resUMo da Unidade 5

Nesta unidade aprendemos a projetar os resultados de uma amostra

para uma população. As garantias que temos de resultados confiáveis

é estabelecida a partir de estimativas calculadas por meio de intervalo

de confiança de 95%. Além das estimativas, aprendemos a testar se

os valores estimados por intermédio da amostra diferem significati-

vamente de valores antigos.

EaD

119


regressão linear siMPles

Antonio Édson Corrente

oBjetivos desta Unidade

•Examinar a relação entre duas variáveis.

•Compreender o significado da correlação entre variáveis.

•Compreender o significado da regressão linear simples.

•Identificar situações em que a técnica de regressão possa ser aplicada.

•Compreender que o modelo de regressão linear permite fazer projeções futuras e fornece ex-

plicações por meio de seus coeficientes.

•Compreender os resultados da regressão linear simples.

As seções desta Unidade

Seção 6.1 – Correlação entre as variáveis

Seção 6.2 – Diagrama de dispersão

Seção 6.3 – Coeficiente de correlação

Seção 6.4 – Coeficiente de determinação (R2)

Seção 6.5 – Análise de regressão

Seção 6.6 – Banco de dados

Esta ferramenta ajuda o administrador a interpretar variáveis não facilmente compreen-

didas, e mediante a análise do comportamento quantitativo passado das variáveis em estudo,

equaciona-os possibilitando projetar seu comportamento no futuro.

A descrição e a inferência estatística tratam de uma só variável de cada vez. Por exemplo,

quando temos uma amostra de uma empresa, como o índice de liquidez. Quando, porém, temos de

estabelecer novas metas em uma empresa, a amostra apresentará diversas variáveis que poderão

Unidade 6


120

ser observadas em cada unidade amostrada: o índice de liquidez da empresa, o faturamento, as

vendas, o número de funcionários, os salários, outras despesas, etc. Obrigatoriamente teremos

de trabalhar com mais de uma variável.

No momento vamos considerar o caso de duas variáveis (análise bivariada). Nosso objetivo

será estabelecer o comportamento quantitativo passado das variáveis em estudo e o equacionar-

mos, proporcionando projetar o seu comportamento no futuro, pois prioritariamente a análise de

regressão é usada com o propósito de previsão.

A busca de associação entre variáveis é o propósito de toda pesquisa científica, pois a

possível existência de relação entre variáveis orienta análise, conclusões e evidencia novas des-

cobertas, ou seja, ressalta relações subjacentes a uma só variável.

Ao dispormos de uma amostra de n unidades, contamos com um par de valores das vari-

áveis iX e iY , por exemplo, os valores dos investimentos reais em função dos anos, em bilhões

de dólares. O grupo pode ser descrito separadamente, no entanto nosso interesse será o de es-

tabelecer uma possível relação funcional (matemática) entre as duas variáveis e se a relação for

boa, usá-la para fazer previsões.

No exemplo dado nosso interesse será estabelecer uma relação matemática (linear) entre

os anos ( iX ) e os investimentos reais ( iY ). Não podemos esquecer que o ajuste de um conjunto

de dados com a finalidade de fazer projeções futuras só é viável mediante o conhecimento a

priori das possíveis influências de causa e efeito que uma ou mais variáveis exercem sobre as

demais.

seção 6.1

correlação entre variáveis

O termo correlação significa relação em dois sentidos que serve para designar a força

que mantém “unidos” dois conjuntos de dados. A correlação mede a intensidade, a direção e

estabelece o grau de associação linear entre duas variáveis quantitativas.

EaD

121


Exemplo de Aplicação:

tabela 1: valores dos investimentos reais, em bilhões de dólares, no período entre 1968 e 1982 nos estados Unidos

ANOiX iY i iX Y 2

iX 2iY

196819691970197119721973197419751976197719781979198019811982

123456789101112131415

161172158173195217199163195231257259225241204

161344474692975

1302139313041755231028273108292533743060

149

162536496481

100121144169196225

259212958424964299293802547089396012656938025533616604967081506255808141616

∑ 120 3050 26004 1240 636520

Fonte: Fundação Getúlio Vargas. Disponível em: <www.ibre.fgv.br/>.

iX : Tempo em anos codificado e iY : Invest: Investimentos reais.

seção 6.2

diagrama de dispersão

O cálculo do coeficiente de correlação é bastante trabalhoso, assim é conveniente fazermos

primeiro o diagrama de dispersão, que é uma representação gráfica bidimensional.

O diagrama de dispersão é uma representação gráfica da relação entre duas variáveis

quantitativas. Esta representação é feita sob a forma de pares ordenados ( iX , iY ), onde iX é

um valor observado de uma variável e iY é o correspondente valor da outra variável.

Na construção do gráfico podemos começar com qualquer um dos eixos. No nosso exemplo

a variável iX representa os gastos, pois entre o valor que representa o menor investimento e o que

indica o maior investimento, que são 2 e 20, devemos criar uma escala no eixo correspondente.

Proceder no eixo iY da mesma maneira, pois o mês de janeiro apresentou o menor valor para o

faturamento, que é 20, o mês de outubro apresentou o maior faturamento, que é de 62. Pois bem,

devemos criar uma escala considerando este intervalo e representarmos no corresponde eixo.


122

Em nosso exemplo:

O diagrama de dispersão fica:

Figura 1: evolução dos investimentos em função dos anos

150

170

190

210

230

250

270

1967 1969 1971 1973 1975 1977 1979 1981 1983

Anos

Inve

stim

ento

(b

ilhõ

es d

e d

óla

res)

Fonte: Elaboração do autor, com dados da FGU na tabela 1.

Ao observamos o diagrama de dispersão verificamos que parece plausível a existência

de uma relação linear dos dados em relação ao tempo.

seção 6.3

coeficiente de correlação

A correlação mede a intensidade, a direção e estabelece o grau de associação linear entre

duas variáveis quantitativas. As relações lineares têm importância especial porque uma linha

reta é um padrão simples e bastante comum.

EaD

123


0 1R≤ ≥ 1 0R− ≤ ≥

Correlação linear positiva Correlação linear negativa

Correlação não linear Não há correlação linear

Karl Person (1857 – 1936) foi quem desenvolveu a fórmula de R, que é dado por:

( ) ( )( )( ) ( )2 22 2

i i i i

i i i i

n X Y X YR

n X X n Y Y

−=

− −

∑ ∑ ∑∑ ∑ ∑ ∑

, -1 ≤ R ≤ 1

O valor de R deve estar sempre entre –1 e +1, inclusive. Valores de R próximos de –1 e

+1 indicam correlação forte, e valores próximos de zero indicam correlação fraca. O sinal de R

indica se a correlação é positiva ou negativa.

Por simulação numérica e pela proximidade ou não dos pontos em torno da reta de regres-

são, temos:

R 0 Sem Correlação Linear

R 0 |---– 0,3 Correlação Linear Positiva Fraca

R 0,3 |---– 0,6 Correlação Linear Positiva Média

R 0,6 |---– 0,8 Correlação Linear Positiva Forte

R 0,8 |---– 1,0 Correlação Linear Positiva Muito Forte

R 1,0 Correlação Linear Posi t iva Perfei ta

No nosso exemplo devemos calcular e interpretar o Coeficiente de Correlação.


124

15(26004) (120).(3050)

15(1240) (120)² 15(636520) (3050)²R

−=− − →

390060 366000

4200 245300R

−=

24060

64,80741* 495,2777R = → 24060

32097,66R = → 0,749587R =

Assim, o grau de correlação observado entre os investimentos reais em função do tempo

é linear positiva forte.

Observação Importante: Correlação não é igual à causa e efeito, pois duas variáveis podem

estar relacionadas e, no entanto, não haver entre elas nenhuma relação de causa e efeito.

Como exemplo, em Triola (1999) e outros, ao relacionarmos o tamanho do pé com a renda de

um grupo de indivíduos, poderemos observar uma alta correlação, próximo de 1, no entanto

na prática não existe nenhuma relação de causa e efeito entre ambas.

Se duas variáveis estiverem relacionadas pela lei de causa e efeito, é viável o estabeleci-

mento do grau que mantém as mesmas correlacionadas. No nosso exemplo, embora não possamos

afirmar que a variável iX seja a única causa das variações sofridas em iY , é razoável admitir que

maiores gastos em comerciais oferecem uma maior probabilidade de retornos financeiros.

Assim, dá para sabermos quanto da variação de iY pode ser explicada pelas variações de

iX , que é dado pelo Coeficiente de Determinação.

seção 6.4

coeficiente de determinação ( 2R )

É um dos critérios mais empregados para caracterizar o ajuste, pois o Coeficiente de Deter-

minação nos permite saber quanto da variação de iY pode ser explicado pela variação de iX .

( )22 .100R R=

Assim, o Coeficiente de Determinação (poder explicativo do modelo) é dado por:

Se 0,749587R = , então 2 (0,749587)².100R = → 2 56,19%R = , significando que

aproximadamente 56,19% das variações dos investimentos reais são explicadas pelas

variações dos anos. E o restante pode ser explicado por outras variáveis que não estão

sendo consideradas no modelo.

EaD

125


seção 6.5

análise de regressão

Com a regressão buscamos as leis que explicam como duas ou mais variáveis estão relacio-

nadas. Além disso, proporciona obtermos um dado desconhecido a partir de seu par conhecido,

com uma boa aproximação.

O estudo da regressão é usado para estabelecer uma equação matemática que possa des-

crever com certa precisão a relação entre duas ou mais variáveis.

Ao traçarmos o diagrama de dispersão e obtermos uma nuvem de pontos de configuração

lembrando uma reta, é possível equacionarmos a esses pontos uma reta com o objetivo de pro-

duzirmos uma informação simplificada que possa expressar a lei que as mantém unidas.

Devemos lembrar que por dois pontos passa uma e somente uma reta, mas que quando

temos uma nuvem de pontos podemos traçar inúmeras retas.

De todas as retas possíveis devemos escolher a que melhor se ajuste a todos os pontos

simultaneamente. A escolha dessa reta (equação) segue um critério chamado Método dos Mí-

nimos Quadrados.

O Método dos Mínimos Quadrados deve-se ao matemático e astrônomo francês Pierre

Simon Laplace, que segue estes critérios:

i i iY X eα β= + + ⇒Þ Sejam (a, b) estimadores de (αa , βb) ⇒Þ ( )2 2

1

,n

i i ii

S e Y a bX=

= = − −∑ ∑

o que torna necessário:

0

0

S

aS

b

∂ =∂∂ =∂

Diferenciando S parcialmente em relação aos estimadores a e b, e simplificando as ex-

pressões, obtemos as equações normais do ajuste pelo método dos mínimos quadrados. Essas

equações normais são equações lineares e podem ser resolvidas, simultaneamente, em relação

aos coeficientes a e b, ou algebricamente temos:


126

i iY Xa b

n n= −∑ ∑

( )22

i i i i

i i

n X Y X Yb

n X X

−=

−∑ ∑ ∑∑ ∑

No caso da regressão linear simples, a variável iY é considerada a variável dependente

(resposta) e a variável iX é considerada a variável independente (explicativa).

Significado dos parâmetros:

α : Coeficiente Linear ou intercepto. É onde a reta corta o eixo iY . Interpretado como a variação

média da variável dependente iY , que não depende da variável independente iX . É dado na

mesma unidade de medida de iY . Diz o nível de iY quando iX é igual a zero.

β : Coeficiente Angular, inclinação. Fornece uma estimativa da variação esperada de iY , a partir

da variação de uma unidade de iX . A variação pode ser positiva ou negativa.

ie : São os erros aleatórios, inerentes às variáveis em estudo.

Assim, a equação de regressão estimada é:

i iY a bX= +

Observação importante:

O sinal ^ sobre o iY é para indicar que se trata de um valor teórico, próximo da realidade,

mas não necessariamente presente nos dados observados.

Agora devemos calcular a equação da reta de regressão e comentar sobre o significado

das estimativas.

Cálculo dos coeficientes a e b.

15(26004) (120).(3050) 24060

15(1240) (120)² 4200b

−= =−

→ 5,7286b = agora podemos determinar

3050 1205,7286.

15 15a = − → 203,3333 45,8288a = − → 203,3333 45,8288a = − → 157,5045a =

Em nosso exemplo: ˆ 157,5045 5,7286i iY X= +

Significado dos coeficientes:

157,5045a = Investimento médio real que não depende do passar dos anos. No exemplo

este coeficiente não tem sentido prático, no entanto não podemos esquecer que ele faz parte do

modelo ajustado e que para fazermos projeções ele é essencial.

EaD

127


5,7286b = Acréscimo médio nos investimentos reais a cada ano. A cada ano os investi-

mentos reais tiveram um acréscimo médio de 5,7286 dólares.

Pergunta: Qual é o volume esperado de investimentos reais a serem gastos no ano de

1983?

ˆ 157,5045 5,7286i iY X= + substituindo em iX o código respectivo ao ano seguinte temos:

ˆ 157,5045 5,7286.(16)iY = + → ˆ $249,16iY U= volume esperado para o ano de 1983.

seção 6.6

Banco de dados

tabela 2: valores dos investimentos reais e do Produto interno Bruto, em bilhões de dólares,

as taxas médias de juros e as taxas de inflação no período entre 1968 e 1982 nos estados Unidos

ANO INVESTIMENTO PIB JUROS INFLAçãO1968

1969

1970

1971

1972

1973

1974

1975

1976

1977

1978

1979

1980

1981

1982

161

172

158

173

195

217

199

163

195

231

257

259

225

241

204

1058

1088

1086

1122

1186

1254

1246

1232

1298

1370

1439

1479

1474

1503

1475

5,16

5,87

5,95

4,88

4,50

6,44

7,83

6,25

5,50

5,46

7,46

10,28

11,77

13,42

11,02

4,40

5,15

5,37

4,99

4,16

5,75

8,82

9,31

5,21

5,83

7,40

8,64

9,31

9,44

5,99

Fonte: Disponível em: www.ibre.fgv.br/.

Com este banco de dados pretendemos que você aplique a teoria estudada na Unidade 6.


128

resUMo da Unidade 6

Nesta Unidade aprendemos a desvendar as relações que existem

entre as variáveis quantitativas estabelecendo o tipo e o grau de

correlação que existe entre elas. Além disso, buscamos compreender

o resultado estatístico dessas relações no contexto das variáveis que

envolvem o estudo.

EaD

129


FerraMentas de anÁlise estatística no eXcel

Iara Denise Endruweit Battisti

oBjetivo desta seção

•Habilitar o aluno a agilizar a produção de estatísticas por meio do manuseio correto das ferra-

mentas do Excel.

as seçÕes desta Unidade:

Seção 7.1 – Elaborando um banco de dados no Excel

Seção 7.2 – Utilizando as técnicas estatísticas para analisar os dados no Excel

Seção 7.3 – Medidas descritivas para as variáveis quantitativas

Seção 7.4 – Tabelas simples para as variáveis qualitativas e para as variáveis quantitativas com

pouca variabilidade

Seção 7.5 – Tabelas cruzadas

Seção 7.6 – Gráficos de setores, colunas e barras

Seção 7.7 – Histograma e polígono de frequências

Seção 7.8 – Gráfico de linha

Agora que já conhecemos os conceitos teóricos, vamos aplicar estes conhecimentos na

prática, utilizando para isso uma planilha eletrônica. Neste livro vamos usar como referência o

software Microsoft Excel® nas versões 2003 e 2007.

O MS Excel é um aplicativo do tipo Planilha Eletrônica, ou seja, é um software apropriado para

a edição de documentos com características numéricas. Empregando uma planilha eletrônica podemos

manipular com facilidade a edição de tabelas, efetuar cálculos, operações estatísticas e a geração de

gráficos. De forma geral permite armazenar dados e produzir informações a partir destes.

Unidade 7


130

Os arquivos que normalmente produzimos com o Excel são do tipo Pasta de Trabalho, e pos-

suem a extensão .xls ou .xlsx., respectivamente para MS Excel versão 2003 e versão 2007. A tela

inicial do Excel é apresentada na Figura 1a para a versão 2003 e Figura 1b para a versão 2007.

Figura 1a: tela inicial do excel 2003

Figura 1b: tela inicial do excel 2007

Uma planilha é um conjunto de linhas e colunas, como uma grade. No Excel, as colunas

são identificadas por letras em ordem alfabética, e as linhas por números em ordem crescente.

Uma célula é a menor unidade de trabalho do Excel, identificada pelo cruzamento de uma linha

e uma coluna.

EaD

131


Cada célula tem um endereço próprio, formado pela combinação da letra da coluna com o

número da linha. Por exemplo, a célula D8 localiza-se no cruzamento da coluna D com a linha

8. Para selecionar uma célula, colocando-a em foco, utiliza-se o cursor, que na planilha aparece

como um ponteiro semelhante a uma cruz. Basta clicar na célula desejada.

Um intervalo de células é a representação de uma faixa ou conjunto de células. Pode ser

selecionado clicando com o cursor sobre um dos cantos do intervalo e arrastando até o canto

oposto, formando um retângulo. Pode também ser apenas uma coluna ou linha. Para selecionar

uma coluna inteira deve-se clicar na respectiva letra, no cabeçalho da coluna.

Para selecionar uma linha inteira deve-se clicar no número identificador da linha. O in-

tervalo é identificado por suas coordenadas, sendo que o primeiro elemento das coordenadas é

o endereço da célula superior esquerda, e o segundo elemento das coordenadas é o endereço

da célula inferior direita do intervalo. Os dois elementos são separados por dois pontos ( : ). Por

exemplo, o intervalo C4:E5 compreende as células C4,C5,D4,D5,E4 e E5.

seção 7.1

elaborando um Banco de dados no excel

Para criar um banco de dados no Excel destinamos as linhas aos dados de cada elemento

da amostra e as colunas a cada uma das variáveis. A Figura 2 mostra o exemplo do banco de

dados dos clientes da empresa Costa, apresentado a seguir. Tomemos esse banco de dados como

exemplo para desenvolver toda a Unidade 7.

Exemplo:

Pesquisa de satisfação realizada, por amostragem, com clientes da empresa Costa

(empresa fictícia), em maio de 2009.


132

Banco (planilha) de dados da pesquisa de satisfação na empresa costa

Cliente Sexo Satisfação com atendimento Satisfação com preço Nota geral Idade1 F MS MS 10 222 F S +- 7 263 F +- +- 6 324 M +- S 7 355 F S S 8 236 F S MS 9 277 F +- +- 7 228 F +- S 7 379 M S I 5 41

10 F I I 5 4011 M S S 8 3512 F S +- 8 3513 F MI +- 9 3714 F S +- 9 2215 F S I 7 2116 M MS S 10 1917 F S +- 8 4018 F S S 8 5119 F S S 9 5520 M I +- 7 4521 F +- S 7 4622 M S S 8 3323 M MS S 9 34

F = feminino, M = masculino, MS = Muito satisfeito, S = satisfeito,

+– = mais ou menos satisfeito, I = insatisfeito, MI = muito insatisfeito.

Figura 2: exemplo de um banco de dados

EaD

133


seção 7.2

Utilizando as técnicas estatísticas para analisar os dados no excel

Primeiramente você deve ativar as ferramentas de análise estatística no Excel. O proce-

dimento é diferente no Excel versão 2003 e no Excel versão 2007. Siga os passos conforme a

versão que você possui.

No Excel 2003:

Clique no menu Ferramentas, depois em Suplementos e então marque a opção Ferra-

mentas de Análise e clique no botão ok conforme a Figura 3 (esquerda). De agora em diante,

sempre que você desejar utilizar o comando análise de dados, este estará disponível no menu

Ferramentas.

No Excel 2007:

Clique no botão do Office , depois no botão opções do Excel e no menu escolha a

opção Suplementos e então na lista de suplementos de aplicativos inativos a opção Ferramentas

de análise. Após clique no botão ir

.

Então aparecerá a janela da Figura 3 (direita). Nesta marque Ferramentas de análise e

clique no botão ok. De agora em diante, sempre que você desejar utilizar o comando análise de

dados, este estará disponível no menu Dados.

Figura 3: instalação das Ferramentas de análise no excel 2003 (esquerda) e no excel 2007 (direita)


134

seção 7.3

Medidas descritivas para as variáveis Quantitativas

Para obter as medidas descritivas, você clica na opção Análise de dados no menu Ferra-

mentas no Excel 2003 ou clica no botão Análise de dados no menu Dados no Excel 2007. Então

aparecerá a janela da Figura 4.

Figura 4: Ferramentas de análise

Nesta janela você clica na opção Estatística descritiva. Após, aparecerá a janela da Figura

5. Nesta, observar os seguintes passos:

•selecione os dados da coluna que você deseja analisar, por exemplo, coluna E, que se refere à

variável idade;

•marque a opção rótulos na primeira linha, pois foi selecionado junto com os valores o nome

(rótulo) da variável;

•marque nova planilha, assim o resultado do comando vai aparecer numa nova planilha da pasta

de trabalho;

•marque resumo estatístico;

•clique no botão ok.

EaD

135


Figura 5: estatística descritiva

Uma nova planilha é criada com os resultados do comando, conforme Figura 6.

Figura 6: resultado do comando estatística descritiva

Para calcular o coeficiente de variação deve-se incluir uma fórmula da seguinte maneira:

•clique numa célula vazia do Excel; sugestão: na célula B16;

•digite =;

•clique no valor do desvio padrão;

•digite /;

•clique no valor da média;


136

•digite*;

•digite 100;

• tecle enter.

A fórmula deste exemplo é:

Neste exemplo o valor do coeficiente de variação é 29,59%.

Interpretação dos resultados: A idade média dos indivíduos pesquisados é de 33,83 anos,

com desvio padrão de 10 anos. Dos 23 indivíduos avaliados, 50% deles têm idade até 35 anos

e os outros 50% têm idade igual ou maior a 35 anos. A menor idade desta amostra é 19 anos e

a maior é 55. Tem-se um conjunto de dados homogêneos, posto que o coeficiente de variação

assume valor menor que 30%.

seção 7.4

tabelas simples para as variáveis Qualitativas e para as variáveis Quantitativas com Pouca variabilidade

Para elaborar uma tabela simples a partir de um banco de dados utilize o comando relatório de

tabela dinâmica. Atenção: este é disponibilizado diferentemente no Excel 2003 e no Excel 2007.

No Excel 2003:

Escolha a opção Relatório de tabela e gráfico dinâmico no menu Dados, sendo apresentada

a tela da Figura 7.

Figura 7: tabela e gráficos dinâmicos no excel 2003

EaD

137


A opção de tabela dinâmica já está marcada; caso deseje um gráfico você deve selecionar

a segunda opção, conforme Figura 7.

Após, clique no botão avançar e então a janela da Figura 8 será apresentada.

Figura 8: seleção do banco de dados no excel 2003

Caso o banco de dados (informações já digitadas na planilha) não esteja selecionado,

selecione com o mouse. Novamente clique no botão avançar, na janela da Figura 9, clique no

botão layout.

Figura 9: seleção do local de saída dos resultados e layout no excel 2003

Neste momento você escolhe o modo de apresentação da tabela (layout), mostrada na figura

10. Para escolher o local de apresentação das categorias da variável você deve arrastar o botão

apresentado à direita da tela, referente à variável de interesse, até o corpo da tabela sobre Linha.

Depois, arraste novamente o botão da variável para o centro do corpo da tabela para calcular

frequência absoluta (n), ou seja, contar as categorias. Deve aparecer no botão: Contar de nome_

da_variável. Caso isso não ocorra, clique duplo sobre o botão e escolha a opção ContNúm.


138

Figura 10: layout da tabela no excel 2003

Para calcular a frequência relativa percentual, você deve novamente arrastar o botão da

variável até o centro do corpo da tabela e clicar duplo sobre o botão, sendo apresentada a tela

da Figura 11, clique em Opções e no campo Mostrar dados como, selecione a opção % do total

e clique no botão ok.

Figura 11: opções de apresentação da frequência no excel 2003

Clique no botão OK e no botão Concluir e então aparecerá a tabela simples dinâmica da

Figura 12.

EaD

139


Figura 12: exemplo de tabela simples dinâmica

Para formatar a tabela clique no botão Formatar Relatório na barra de ferramentas do re-

latório e escolher o Relatório 7. A tabela ficará assim:

No Excel 2007:

Clique no menu Inserir e na opção Tabela dinâmica e aparecerá a janela da Figura 13.

Se o banco de dados (área com as informações da pesquisa) não estiver selecionado você deve

selecioná-lo com o mouse e após clique no botão ok.

Figura 13: seleção de banco de dado no excel 2007

Após o OK, aparecerá a janela da Figura 14.


140

Figura 14: elaboração de tabela dinâmica no excel 2007

Marque a variável de interesse no menu à direita, neste exemplo marque a variável

sexo e então arraste (clique com o mouse e arraste com

o botão clicado) para rótulos de linha . Arraste-a também para valores

, duas vezes. Deve aparecer ContNúm em cada botão de valores, caso não estiver

aparecendo então clique com o mouse sobre o primeiro botão e escolha a opção configurações

do campo valor. Aparecerá a janela da Figura 15.

EaD

141


Figura 15: Marcando a opção contnúm

Na janela da Figura 15: marque a opção ContNúm e no botão ok, assim aparecerá o valor

absoluto na tabela simples (segunda coluna). Clique sobre o segundo botão e escolhe a opção

configurações do campo valor.

Aparecerá a janela da Figura 16:

Figura 16: Marcando a opção mostrar valores como % do total

Marque a opção ContNúm e clique na ficha mostrar valores como e escolher a opção % do

total, conforme Figura 16; assim aparecerá o valor relativo percentual na tabela simples (terceira

coluna). A tabela para este exemplo está apresentada na Figura 17.


142

Figura 17: exemplo de tabela simples

No cabeçalho da tabela substitui-se contar de sexo por n e contar de sexo 2 por %, assim

obtém-se a tabela 1 (Figura 18).

Figura 18: exemplo de tabela simples formatada

Interpretação: 69,57% dos indivíduos entrevistados são do sexo feminino e 30,43% dos

indivíduos entrevistados são do sexo masculino.

seção 7.5

tabelas cruzadas

O processo para a construção de tabelas cruzadas dinâmicas é semelhante à construção de

tabelas simples. A seguir apresentamos procedimento para o Excel 2003 e Excel 2007.

No Excel 2003:

Selecione mais uma variável para o corpo da tabela conforme a Figura 19, colocando-a

sobre a Coluna. Finalizando todo o processo aparecerá a tabela cruzada conforme Figura 20.

EaD

143


Figura 19: elaboração da tabela cruzada

Figura 20: exemplo de tabela cruzada dinâmica

No Excel 2007:

Selecione mais uma variável conforme a Figura 21 para rótulos da coluna .


144

Figura 21: elaboração da tabela cruzada

Finalizando todo o processo aparecerá a tabela cruzada conforme Figura 22.

Figura 22: exemplo de tabela cruzada dinâmica

Na Figura 23 está apresentada uma tabela cruzada formatada.

EaD

145


Figura 23: exemplo de tabela cruzada formatada

seção 7.6

gráficos de setores, colunas e Barras

Você elabora um gráfico a partir de dados sistematizados (a partir de uma tabela já elaborada)

de forma diferente no Excel 2003 e no Excel 2007. Existem diferentes tipos de gráficos, adequados

para cada tipo de variável. A seguir são apresentados os tipos de gráficos mais usados.

Gráfico de setores (pizza)

É usado para representar uma variável aleatória. Suas categorias devem totalizar 100%

e é mais indicado quando o número de categorias chega no máximo a 5. Primeiramente você

seleciona as categorias e os valores absolutos ou relativos que serão apresentados no gráfico, a

partir da tabela já elaborada, conforme Figura 24.

Figura 24: selecionando os dados para elaborar um gráfico

No Excel 2003:

Para construir um gráfico de setores no Excel 2003 clique no ícone na barra de ferra-

mentas ou no menu Inserir e escolha a opção Figura e então Gráfico. Neste momento aparecerá

a tela referente ao Assistente Gráfico, como apresentada na Figura 25. Escolha o Tipo de gráfico

Pizza e aparecerá subtipos de gráficos. Você pode escolher um dos seis tipos e então clicar no

botão Avançar.


146

Figura 25: gráfico de setores – etapa 1

A Figura 26 mostra a segunda etapa, quando é apresentada uma prévia do gráfico, permi-

tindo selecionar novamente os dados, se necessário.

Figura 26: gráfico de setores – etapa 2

Na etapa 3 (Figura 27), clique no campo Título do gráfico e digite o título do gráfico.

EaD

147


Figura 27: gráfico de setores – etapa 3, título do gráfico

Após, clique na ficha Legenda para alterar o local de posição da legenda ou para excluí-la

(Figura 28).

Figura 28: gráfico de setores – etapa 3, legenda do gráfico

Na ficha Rótulos de dados (Figura 29) é possível mostrar o nome das categorias e a por-

centagem no gráfico. Após, clique no botão Concluir.


148

Figura 29: gráfico de setores – etapa 3, rótulos de dados

Pode-se personalizar o gráfico, alterando a cor dos setores, trocando a cor do fundo, modi-

ficando o tamanho, tipo e cor da fonte.

Para alterar a cor dos setores você clica uma vez no gráfico, após clica mais uma vez no

setor (fatia) cuja cor deseja alterar e após clica duplo para aparecer o menu de cores. Então,

seleciona-se uma cor ou no botão Efeitos de Preenchimento para utilizar as opções gradiente ou

textura. Na Figura 30 apresenta-se um exemplo de gráfico formatado.

Figura 30: gráfico de setores – exemplo

Gráfico 1 - Sexo dos funcionários da empresa COSTA, maio de 2008

Feminino70%

Masculino30%

Gráfico de Colunas

Utilizamos um gráfico de colunas simples ou barras simples para representar uma variável

aleatória. O procedimento é o mesmo adotado no gráfico de setores, mas na etapa 3 (Figura 31)

digitamos além do título do gráfico, o título do eixo x (horizontal) e o título do eixo y (vertical).

EaD

149


Figura 31: gráfico de colunas – etapa 3

O gráfico de colunas finalizado é apresentado na Figura 32.

Figura 32: gráfico de colunas – exemplo


0,00

10,00

20,00

30,00

40,00

50,00

60,00

70,00

80,00

Feminino Masculino

sexo

%

Gráfico de Barras

De forma similar podemos construir um gráfico de barras, como o apresentado na Figura

33.


150

Figura 33: gráfico de barras – exemplo


0,00 20,00 40,00 60,00 80,00

Feminino

Masculino

sexo

%

No Excel 2007:

Para construir um gráfico de setores (pizza) no Excel 2007, utilize o menu Inserir e escolha

gráfico de pizza, conforme a Figura 34.

Figura 34: elaboração de gráfico

No menu do gráfico de pizza escolha um tipo e o gráfico será apresentado como a

Figura 35.

EaD

151


Figura 35: exemplo de gráfico de setores

Clique com o mouse na área do gráfico (parte branca dentro do retângulo) e clique na

opção Layout 1 no menu Design, conforme Figura 36.

Figura 36: Formatando o gráfico de setores

O gráfico final ficará conforme a Figura 37.


152

Figura 37: exemplo de gráfico de setores

Você pode clicar com o mouse sobre o Título do Gráfico para editá-lo e então digitar o título

para o seu gráfico. Ainda, pode mudar o estilo do gráfico clicando no menu Design e então em

Estilo (Figura 38).

Figura 38: Utilizando a opção design do gráfico para gráfico de setores

Para elaborar um gráfico de colunas o procedimento é semelhante: primeiro selecione os

dados na tabela (categorias e valores absolutos ou percentuais) e depois clique no menu Inserir

e escolha Colunas, aparecerá o gráfico da Figura 39.

EaD

153


Figura 39: exemplo de gráfico de colunas

Você pode clicar na área do gráfico (parte branca dentro do retângulo) e usar a opção do

menu Design para alterar definições do gráfico: em Layout do gráfico você pode incluir o título

do gráfico e os valores. Clicando com o mouse no título é possível editar e colocar o título para

o seu gráfico, conforme Figura 40.

Figura 40: Utilizando a opção design do gráfico para gráfico de colunas

Para o desenvolvimento de um gráfico de barras, o procedimento a ser seguido é o mesmo

descrito para o gráfico de colunas, mudando apenas a escolha do tipo de gráfico no início do

procedimento.


154

Quando desejamos representar os resultados de uma tabela cruzada num gráfico podemos

optar pelo gráfico de colunas agrupadas ou barras agrupadas. Primeiramente devemos digitar a

tabela cruzada no Excel conforme a Figura 41 e selecioná-la. Tomemos como exemplo a tabela

cruzada da satisfação com atendimento em relação ao sexo dos clientes da empresa Costa. O

procedimento para a elaboração do gráfico de colunas agrupadas ou gráfico de barras agrupadas

é semelhante à elaboração do gráfico de colunas simples e barras simples, porém agora a legenda

deverá aparecer, conforme Figura 42.

Figura 41: tabela cruzada para construir um gráfico de colunas agrupadas

Figura 42: exemplo de um gráfico de colunas agrupadas

Gráfico 2 - Satisfação com o atendimento em relação ao sexo do clientes da empresa COSTA,

maio de 2008

0

2

4

6

8

10

I MI MM MS S

Satisfaçao

n

F

M

seção 7.7

Histograma e Polígono de Frequências

O histograma e o polígono de frequências são os gráficos adequados para representar

uma distribuição de frequência. Agora veremos como construir esses dois gráficos no Excel. Pri-

meiramente precisamos digitar a tabela de distribuição de frequência e selecioná-la, conforme

Figura 43. Tomemos como exemplo o rendimento médio nominal da Tabela 1.

EaD

155


tabela 1: rendimento médio nominal do trabalho principal, habitualmente recebido por mês, pelas pessoas de 10 anos ou mais de idade, ocupadas na semana de referência, em Porto alegre, janeiro/2005 a dezembro/2007

R$ Fi frac % xi903 |-– 939 5 13,89 921939 |-– 975 11 44,45 957

975 |-– 1011 5 58,34 9931011 |-– 1047 5 72,23 10291047 |-– 1083 6 88,89 10651083 |-– 1119 4 100,00 1101

Total 36 - -

Fonte: IBGE, 2008.

Nota: Não incluídos trabalhadores não remunerados e trabalhadores que receberam so-

mente em benefícios.

Figura 43: tabela de distribuição de frequência para construir um histograma

No Excel 2003:

Após, no menu inserir, escolhemos a opção gráfico e após o tipo de gráfico de colunas e

executamos o procedimento conforme descrito anteriormente. Quando o gráfico tiver sido con-

cluído (Figura 44) clicamos com o botão direito do mouse sobre uma das colunas do gráfico e

então aparecerá o menu da Figura 45; neste escolhemos a opção formatar série de dados. Assim,

aparecerá a tela da Figura 46, clicar na ficha opções e em largura do espaçamento digitar 0. O

histograma é apresentado na Figura 47.

Figura 44: construindo um histograma


156

Figura 45: Formatar série de dados no histograma

Figura 46: Unir colunas do histograma

Figura 47: exemplo de um histograma

Histograma

0

2

4

6

8

10

12

903 |-- 939 939 |-- 975 975 |-- 1011 1011 |-- 1047 1047 |-- 1083 1083 |-- 1119

R$

fi

O procedimento é semelhante para construir o polígono de frequência. Primeiramente te-

mos de digitar a tabela de distribuição de frequência conforme a Figura 48. Esta deverá ter um

intervalo inferior ao primeiro, com fi = 0, e um intervalo superior ao último, com fi = 0. Depois,

selecionamos a tabela e no menu inserir gráfico escolhemos o tipo de gráfico de linha e seguimos

os passos até a finalização, conforme a Figura 49.

EaD

157


Figura 48: tabela de distribuição de frequência para construir um polígono de frequência

Figura 49: exemplo de um polígono de frequência

Polígono de freqüência

0

2

4

6

8

10

12

867 |-- 903

903 |-- 939

939 |-- 975

975 |-- 1011

1011 |-- 1047

1047 |-- 1083

1083 |-- 1119

1119 |-- 1155

R$

n

No Excel 2007:

Após, no menu inserir, escolhemos a opção gráfico e após o tipo de gráfico de colunas 2 D

e o gráfico da Figura 50 será apresentado. Em layout do gráfico escolhemos o layout 8 (Figura

51) e o gráfico da Figura 52 será apresentado. Clicamos com o botão direito do mouse sobre uma

das colunas do gráfico e no menu escolhemos formatar série de dados e, então escolhemos a

opção cor da borda conforme Figura 53. Nesta escolhemos linha sólida e cor preta. O histograma

é apresentado na Figura 54.


158

Figura 50: construindo o histograma

Figura 51: layout do gráfico número 8 (figura central)

Figura 52: Histograma

EaD

159


Figura 53: Formatando bordas nas colunas do histograma

Figura 54: Histograma formatado

seção 7.8

gráfico de linha

Digitamos os dados, observando que na primeira coluna consta o tempo e na segunda

os valores que queremos representar em um gráfico de linha conforme exemplo da Figura 55.

Selecionamos os dados das duas colunas.


160

Figura 55: dados do exemplo

No Excel 2003:

Após, no menu inserir, escolhemos a opção gráfico e a seguir o tipo de gráfico de linha e

executamos o procedimento conforme descrito anteriormente. Digitamos o título do gráfico e o

título dos eixos. Podemos alterar a cor da linha clicando com o botão direito do mouse sobre a

linha. Também podemos alterar a cor do fundo clicando com o botão direito do mouse. O gráfico

de linha é apresentado na Figura 56.

Figura 56: exemplo de um gráfico de linha

No Excel 2007:

Após, no menu inserir, escolhemos a opção gráfico e a seguir o tipo de gráfico de linha 2 D

e executamos o procedimento conforme descrito anteriormente. Em layout do gráfico escolhemos

o layout 1 (Figura 57). Digitamos o título do gráfico e o título dos eixos. Deletamos a legenda.

Podemos alterar a cor da linha clicando com o botão direito do mouse sobre a linha e escolhemos

a opção formatar série de dados. O gráfico de linha é apresentado na Figura 58.

EaD

161


Figura 57: layout 1 do gráfico de linha (primeira figura)

Figura 58: exemplo de um gráfico de linha

resUMo da Unidade 7

Nesta unidade utilizamos os recursos estatísticos do Excel para tratar

as informações.

A aplicação dos métodos estatísticos é favorecida pela informática, no

que diz respeito a hardware e software, uma vez que geralmente neces-

sitamos trabalhar com grande quantidade de dados (n grande).

Assim, o conhecimento a respeito da utilização de um software estatístico

ou um software que fornece técnicas estatísticas é essencial para alu-

nos ou profissionais que estão iniciando seu aprendizado em Métodos

Estatísticos.

A planilha eletrônica Excel é uma boa alternativa para alunos que estão

se iniciando nos métodos estatísticos, por ser de fácil acesso, posto que

grande parte dos usuários domésticos e organizações possuem o pacote

Microsoft Office.

EaD

163


ANDRADE MARTINS, Gilberto. Estatística geral e aplicada. São Paulo: Ed. Atlas, 2002.

BATTISTI, I. E.; KIRCHNER, R. M.; FRICKE R. M. Rotinas da planilha eletrônica Excel para

uso em estatística descritiva. Ijuí: Ed. Unijuí, 2003. (Cadernos Unijuí).

BEARZOTI, E.; OLIVEIRA M. Estatística básica. Lavras, MG: Ufla, 1997.

CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. Análise multivariada para os cursos de Admi-

nistração, Ciências Contábeis e Economia. São Paulo, Ed. Atlas, 2007.

COSTA NETO, P. L. Estatística. São Paulo: Ed. Edgard Blücher, 1977.

COSTA NETO, P. L. Probabilidades. Ed. São Paulo: Edgard Blücher, 1974.

COSTA, Sérgio Francisco. Introdução ilustrada à estatística. São Paulo: Ed. Harbra, 1988.

DOWNING, D.; CLARK, J. Estatística aplicada. São Paulo: Ed. Saraiva, 2000.

FRICKE, R. M. Padrões estatísticos para descrição de dados: medidas de tendência central e de

variabilidade. Ijuí: Ed. Unijuí, 2002. (Cadernos Unijuí – Série Estatística).

FRICKE, R. M. Teoria e aplicações de amostragem, inferência, relações entre variáveis. Ijuí:

Unijuí, 2008a. Apostila.

FRICKE, R. M. Estatística aplicada aos fenômenos sociais. Ijuí: Unijuí, 2008b. Apostila.

IBGE. Diretoria de Pesquisas, Coordenação de Trabalho e Rendimento. Pesquisa mensal de

emprego, mar.2002-abr. 2008.

KAZMIER, L. J. Estatística aplicada à Economia e Administração. São Paulo: Ed.McGraw Hill,

1982.

KMENTA, J. Elementos de econometria. Teoria econométrica básica. 2. Ed. São Paulo: Ed. Atlas,

1988. V. 1.

MAGALHãES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. São Paulo: Edusp.

2002.

MEDEIROS, V. Z.; CALDEIRA, A. M.; PACHECO, G. L.; MACHADO, M. A. S. Métodos quan-

titativos com Excel. São Paulo: Ed. Cengage Learning, 2008.

MONTGOMERY, Douglas C. Probabilidad y Estadística. Universidade do Estado do Arizona;

Editora: McGraw-Hill, 2004.

Referências


164

MORETTIN, P. A.; TOLOI, C. M. Série temporais. Série Métodos Quantitativos. 2. ed. São Paulo:

Ed. Atual, 1987.

MUNIZ, J. A.; ABREU, A. R. Técnicas de amostragem. Lavras, MG: Faepe, 1999.

OLIVEIRA, S. T. Ferramentas para o aprimoramento da qualidade. 2. ed. São Paulo: Ed.Pioneira,

1996.

SILVA, N. N. Amostragem probabilística. São Paulo, SP: Edusp, 1998.

SILVER, M. Estatística para Administração. São Paulo: Ed. Atlas, 2000.

STEVENSON, W. Estatística aplicada à Administração. São Paulo: Ed. Harbra, 1981.

TRIOLA, M. Introdução à estatística. 7. ed. Rio de Janeiro: Ed. LTC, 1999.

VIEIRA, Sonia. Princípios de estatística. São Paulo: Ed. Pioneira, 1999.

métodos estatísticos e a administração

Documents