68. programa de regressao multipla (regr) de facil manipulacao e transformacao de arquivos...
DESCRIPTION
regressaoTRANSCRIPT
-
Universidade Federal de So CarlosCENTRO DE CINCIAS AGRRIAS- campus de Araras
Prof. Dr. Rubismar Stolf - [email protected] de Recursos Naturais e Proteo Ambiental
Via Anhanguera, km 174. Cx.Postal.153 CEP 13600-970 ARARAS SP BR
Acervo tcnico do Prof. Dr. Rubismar Stolf
68. STOLF, R. Programa de regresso mltipla (REGR) de fcil manipulao e transformao de arquivos eletrnicos de dados. Geocincias, So Paulo, v.15, n.2, p.425-433, 1996.
Para visualizar o trabalho v para a prxima pgina Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24).
Acesso: http://www.cca.ufscar.br/~rubismar/ ou: http://www.cca.ufscar.br/drnpa/hprubismar.htm
-
(*) Auxlio FAPESP, processo 93/2997 - 7. Trabalho apresentado no VI SIMPSIO DE QUANTIFICAO EM GEOCINCIAS, Rio Claro, 1995. (**) Depto. de Recursos Naturais e Proteo Ambiental, Centro de Cincias Agrrias, UFSCar , Campus de Araras. 13600 - Araras, SP.
PROGRAMA DE REGRESSO MLTIPLA (REGR) DE FCIL MANIPULAO E TRANSFORMAO DE ARQUIVOS ELETRNICOS DE DADOS(*)
(TEXTO ORIGINAL DO MESMO TRABALHO)
Rubismar STOLF (**)
RESUMO
O objetivo foi desenvolver um programa de regresso mltipla, especialmente desenhado para modelagem, que apresentasse facilidade e
agilidade de operao. Para atingir o objetivo proposto as seguintes caractersticas foram introduzidas no programa: a) sub rotinas autoexplicativas, curtas, com reduzida necessidade de responder perguntas/tomar decises; b) interface simples de confeco semi-automtica de grficos para deteco de
regies de desvios tendenciosos do modelo; c) submenu de manipulao e transformao matemtica de arquivos de dados com 20 opes diferentes,
permitindo o ajuste de uma gama de modelos; e) registro acumulado de todos os resultados das anlises estatsticas passadas (tabelas contendo: data da realizao da regresso; nome do arquivo; no total de dados, no
de variveis, no
de pontos; constantes da equao de regresso; coeficiente de determinao e
correlao mltipla; desvio padro de regresso, valor de F (teste F de Snedecor). Realizou-se uma reviso bibliogrfica, extraindo-se, de compndios de estatstica, 15 exemplos de aplicao. Os mesmos foram transformados em
-
2
arquivos eletrnicos de dados e incorporados ao programa. Subsequente linha
em branco do final de cada arquivo de dados (campo de observao), incluiu-se a citao bibliogrfica, e os parmetros estatsticos extrados do livro citado.
Palavras - chave: regresso mltipla, programa, computao, modelagem
INTRODUO
Programas, referentes a uma anlise especfica no campo da estatstica,
apresentam, isoladamente, um inexpressivo valor comercial pelo reduzido
nmero de usurios e pela facilidade de reproduo de suas concepes. Estes
programas, tais como os de regresso mltipla, tm sido inseridos, ultimamente,
como parte de grandes pacotes estatsticos extremamente bem desenhados.
Contudo, podem requerer tempo tanto para sua compreenso como no percurso
de sries extensas de submenus. Dessa forma, sempre que o usurio recorrer a
uma anlise especfica, das mais simples, via de regra necessitar do auxlio de
um especialista do ambiente estatstico no qual o programa se insere.
Parte da produo de programas de cientficos dentro das universidades
ocorre como atividade informal. Tais programas, mesmo sem valor comercial,
podem apresentar mrito cientfico competitivo, quando desenhado
especificamente para um tipo de aplicao. Contudo, no havendo a
preocupao por parte dos pesquisadores/programadores em criar uma interface
amigvel para usurios, bem como difundir seu trabalho, o mesmo perdido ao
-
3
longo do tempo. Por outro lado, sua divulgao cria alternativas em relao aos
pacotes multitarefas, dirigidos a um pblico amplo, indiscriminado.
A anlise de regresso mltipla uma importante ferramenta para o ajuste e seleo de modelos em geocincias. aplicada, normalmente, em situaes de difcil controle de variveis que influenciam o fenmeno, como em estudos
ambientais. Via de regra utilizada de maneira interativa com o usurio. Dessa
forma um conjunto de dados retrabalhado atravs de transformaes matemticas com acompanhamento dos parmetros de ajuste e visualizaes grficas, caractersticos da modelagem. O objetivo do presente trabalho foi desenvolver um programa que apresente agilidade e facilidade de realizar tais
operaes.
MATERIAL E MTODO
Procurou-se imprimir as seguintes caractersticas ao programa no sentido
de conferir ao mesmo agilidade e facilidade de uso: a) sub rotinas curtas, autoexplicativas, com reduzida necessidade de responder perguntas/tomar
decises; b) interface simples de confeco semi-automtica de grficos para deteco de regies de desvios tendenciosos do modelo; c) possibilidade de transformao matemtica e criao de novas variveis para estabelecimento de
modelos no lineares; e) registro acumulado de todos os resultados das anlises estatsticas passadas.
-
4
Os seguintes parmetros estatsticos e informaes foram selecionados
para apresentao na tabela de resultados: data da realizao da regresso;
nome do arquivo; no total de dados, no de variveis, no de pontos; constantes da
equao de regresso; coeficiente de determinao e correlao mltipla; desvio
padro de regresso corrigido pelo grau de liberdade, valor de F de regresso
mltipla (para o teste F de Snedecor). Utilizou-se o mtodo clssico dos mnimos quadrados para o ajuste da funo descrito em compndios de estatstica tal como em SPIEGEL (1971)(3). Neste mtodo, os coeficientes de uma dada equao so calculados de maneira a minimizar a somatria do quadrado das
diferenas entre o valor medido (real) e o estimado pela equao. Conseqentemente, minimiza-se tambm o desvio padro de regresso (erro padro), parmetro, este, normalmente utilizado como indicador do ajuste. Utilizou-se a linguagem Basic (Quick Basic, verso profissional 4.50 para DOS) Utilizou-se tambm comandos do DOS, atravs da instruo SHELL da
linguagem Basic (executa uma linha de comando DOS e retorna linha de programa). Com o objetivo de testar o programa e incorporar ao mesmo uma srie de didtica de arquivos de dados, realizou-se uma coletnea de exemplos de uso da
regresso, utilizando-se os seguintes compndios de estatstica, DIXON et al. (1)
,WILFRID et al.(2), FOX(3), LI (4), SPIEGEL (5), STEEL & TORRIE(6),
WEISKERG(7).
-
5
RESULTADOS E DISCUSSO
O programa composto de 9 arquivos. Quatro deles so resultantes do
desenvolvimento do presente trabalho, propriamente dito. Os demais, so
arquivos auxiliares, no especficos do programa, utilizados na edio e
apresentao dos resultados. Na tabela 1 so apresentados os referidos arquivos
com suas respectivas funes. O arquivo REGR.EXE comanda os demais
arquivos.
As tabelas, de 2 a 5, e figura 1 e 2 so cpias de telas do programa. Na
tabela 2 apresenta-se o menu principal com suas funes. O programa interage
com intensidade com o DOS, da maneira exposta no item material e mtodos. O
uso mais flagrante desse artifcio aparece nas chaves 1 , 2, 3, 7, 8 do
MENU do programa (tabela 2), pois a apresentao dos resultados estatsticos da regresso, a criao e edio de arquivos de dados, a reedio histrica de
anlises passadas e o caderno de anotaes do usurio so apresentados na
tela atravs do editor de texto (ascii) do prprio DOS, verso 5.0 ou posterior (EDIT.COM). Dessa forma, carregam-se diferentes informaes na tela, segundo as vrias sub rotinas do programa, colocando a disposio do usurio um editor
mundialmente conhecido como se fosse a prpria tela de apresentao do
programa.
Na tabela 3 apresenta-se a edio de um arquivo de dados. A estrutura do
arquivo em colunas. Cada coluna representa uma varivel; cada linha, as
-
6
coordenadas de um ponto. Carregando o arquivo pela chave de regresso o
programa reconhecer automaticamente o nmero de variveis e de pontos.
Alm disso denominar, seqencialmente, a 1a. coluna de varivel X1; a 2a. de
X2; a 3a. de X3; e assim sucessivamente at a penltima coluna. A ltima coluna
ser interpretada como sendo a varivel Y. Carregando-se, atravs da chave 1,
por exemplo, um arquivo de 3 colunas, o programa ajustar automaticamente o
modelo: ao+a1.x1+a2.x2=y, eliminando-se a necessidade de entrar com no de
pontos, no de variveis e nome das variveis. Tambm no sentido de agilizar as
operaes, todas as vezes que for solicitada entrada de nome do arquivo o
diretrio atual listado previamente, permitindo a busca atravs de curingas (*.*). Alm disso o nome do ultimo arquivo utilizado apresentado como opo de
carregamento automtico pressionando-se a tecla ENTER.
O programa admite at 50 variveis e um nmero de pontos praticamente
ilimitado. Durante o processo computacional estatstico, o programa encerrar
normalmente a leitura de dados caso encontre uma linha em branco (ou mais) no arquivo. Isto permite a colocao, a vontade, de observaes no final do arquivo
de dados sem necessidade de seguir um formato padro (na tabela 3, vide observaes aps dados numricos). Essas observaes, caso haja, sero automaticamente mostradas na tela, quando o arquivo de dados for carregado
para execuo da regresso.
Na tabela 4 apresenta-se o submenu de transformadas matemticas tais
com exponenciao (radiciao), transformao logartmica, trigonomtricas, trigonomtricas inversas; soma (subtrao) de uma constante, multiplicao
-
7
(diviso) por uma constante, totalizando 20 tipos. Aps a transformao pode-se optar por criar uma nova varivel (criar mais uma coluna de dados), ou fazer com que a nova varivel, substitua a varivel original. Permite tambm, manipular o
arquivo promovendo troca de posio, soma, subtrao, multiplicao ou diviso
entre 2 colunas de dados bem como eliminar uma coluna de dados.
Na tabela 5 ilustra-se a forma de apresentao dos resultados de regresso,
utilizando os dados contidos em um arquivo denominado GRADES4.DAT. Trata-
se de um modelo em quatro dimenses com coeficiente de correlao mltipla
0,89. Contudo o grfico semi-automtico, Y medido versus Y estimado (figura 1), evidencia a existncia de desvios tendenciosos nas extremidades do campo de
variao de Y do modelo. Trata-se de um indicativo de que ha um potencial de
incremento do modelo no sentido de sua linearizao. Enquanto a figura 1
representa graficamente o ajuste do modelo ao + a1.x1 + a2.x2 + a3.x3 = y, a figura
2 corresponde ao modelo ao.(x1)a1.(x2)a2 .(x3)a3 = y, este ltimo incontestavelmente superior. Com este exemplo, procurou-se evidenciar a importncia da chave 5
(confeco semi - automtica de grfico Y medido, Y estimado), no presente em programas correlatos.
Acompanha o programa uma serie didtica de 15 exemplos. Os 15 arquivos
foram assim codificados (V?_EX??.DAT): V2_EX01.DAT (exemplo 01 de 2 variveis) ... V3_EX07.DAT (stimo exemplo de 3 variveis) ... V5_EX01.DAT(exemplo 01 de 5 variveis). Na zona de observaes de cada um deles (subsequente a linha em branco do final do arquivo de dados), foram adicionadas as seguintes informaes: referncia completa sobre o livro do qual o
-
8
exemplo foi extrado; o significado fsico das variveis; e resultados estatsticos
fornecidos pelo livro correspondentes aos que o programa fornece. Dessa forma
possvel exercitar-se na utilizao do programa e conhecer algumas aplicaes.
Para cada chave de ao (1 a 8) existe uma chave especfica (help) de ajuda (F1 a F8). A chave A -Ajuda Geral lista uma apostila eletrnica sobre o programa contendo 21 telas.
O programa cria automaticamente alguns arquivos temporrios no diretrio
de trabalho. Se o programa for instalado em um diretrio protegido (como algumas reas de REDE), aps iniciar o programa mude para uma rea no protegida: no menu principal acione D - Dos e mude de diretrio/drive; aps
retorne ao programa (digite EXIT).
MULTIPLE REGRESSION COMPUTING PROGRAM (REGR) FOR EASY
MANIPULATION AND DATA FILES TRANSFORMATION
ABSTRACT
The aim of this work was to develop an easy and fast multiple regression
program, specially designed for modeling. To pursue the mentioned aim, the
following characteristics was introduced: a) short and self - explained subroutines, avoiding questions/decisions; b)semi - automatic graphical interface to detect biased deviation regions of the model. c)Sub - menu with 20 options for manipulating and transforming data files e)Accumulated historical record of the past statistical analyses ( tables with date of analyses; file name; total number of
-
9
data; number of points and variables; parameters of the fitted equation; multiple
correlation and determination coefficients; standard error; F value (Snedecor test). Through the bibliography, to accomplish training and testing purposes, 15
multiple regression examples was incorporated to the program. The literature, the
meaning of the variable and the book results, was added at the zone observation
(in the file, after the end of the numeric data). Keywords: multiple regression, soft - ware, computing, modeling
REFERNCIAS BIBLIOGRAFIAS
DIXON, Wilfrid J., MASSEY Jr, Frank J. Introduction to statistical analysis. 3ed.
New York: Mc Graw Hill, 1969. p.213-214.
FOX, J. Linear statistical models and related methods. New York: John Wiley,
l984. p.30-33.
LI, J. C. R. Statistical inference. 2ed. Ann Arbor: Edwards Brothers, l967. p.90-
95.
SPIEGEL, M. R. Estatistica. So Paulo: Mc Graw Hill do Brasil, l976. p.452-
465.
SPIEGEL, M. R. Statistical. New York: Mc Graw Hill, 1961. p.273-274, 281.
STEEL, R. G. D., TORRIE, J. H. Principles and procedures of statistics. New
York: Mc Graw Hill, l960. p.277-304.
-
10
WEISKERG, S. Applied linear regression. 2ed. New York: John Wiley, 1985.
p.34-41.
-
11
Tabela 1- Arquivos, do programa e auxiliares, com respectivas funes
ARQUIVOS DO PROGRAMA:
1) REGR.EXE (arquivo principal - ligado s funes bsicas) 2) REG-GRF1.EXE (grfico entre y estimado e y medido) 3) REG-GRF2.EXE (grfico entre 2 variveis qualquer do arquivo) 4) REG-AJUD.TXT (apostila sobre o programa)
ARQUIVOS AUXILIARES (manter no diretrio do programa, opcional/ no DOS) :
1) REG-MONO.EXE (permite confeco grfica em monitores antigos) 2) LIST.COM (leitor de textos) 3) EDIT.COM (editor de texto do DOS 5.0 em diante) 4) EDIT.HLP (texto de ajuda do editor do DOS 5.0 em diante) 5) QBASIC.EXE (necessrio para rodar o editor EDIT.COM do DOS)
Tabela 2. Tela do MENU PRINCIPAL. Chaves, de 1 a 7, so as bsicas.
-
12
Tabela 3. Tela exemplificando edio de arquivo de dados pela chave 3 do menu principal. A ltima coluna corresponde sempre varivel Y. As observaes colocadas aps linha em branco no interferem na anlise estatstica.
TABELA 4. Tela do SUBMENU de transformadas matemticas (chave 4 do MENU PRINCIPAL)
-
13
Tabela 5. Tela de apresentao dos resultados.
Figura 1. A Chave 5 do MENU PRINCIPAL. permite uma visualizao da qualidade do ajuste. No exemplo, o modelo y=a0+a1.x1+a2.x2+a3.x3 aplicado aos dados do arquivo grades4.dat provoca desvios tendenciosos.
-
14
Figura 2. O modelo y=a0. (x1)a1. (x2)a2. (x3)a3 aplicado aos dados do arquivo grades4.dat no provoca desvios tendenciosos (compare com a figura anterior).