regresion lineal multiple: introducción mario briones l. mv, msc 2005
TRANSCRIPT
REGRESION LINEAL MULTIPLE: Introducción
Mario Briones L.MV, MSc
2005
obs loc tipo BIO SAL pH K Na Zn1 OI DVEG 676 33 5 1441.67 35184.5 16.45242 OI DVEG 516 35 4.75 1299.19 28170.4 13.98523 OI DVEG 1052 32 4.2 1154.27 26455 15.32764 OI DVEG 868 30 4.4 1045.15 25072.9 17.31285 OI DVEG 1008 33 5.55 521.62 31664.2 22.33126 OI SHRT 436 33 5.05 1273.02 25491.7 12.27787 OI SHRT 544 36 4.25 1346.35 20877.3 17.82258 OI SHRT 680 30 4.45 1253.88 25621.3 14.35269 OI SHRT 640 38 4.75 1242.65 27587.3 13.682610 OI SHRT 492 30 4.6 1282.95 26511.7 11.756611 OI TALL 984 30 4.1 553.69 7886.5 9.88212 OI TALL 1400 37 3.45 494.74 14596 16.675213 OI TALL 1276 33 3.45 526.97 9826.8 12.37314 OI TALL 1736 36 4.1 571.14 11978.4 9.405815 OI TALL 1004 30 3.5 408.64 10368.6 14.930216 SI DVEG 396 30 3.25 646.65 17307.4 31.286517 SI DVEG 352 27 3.35 514.03 12822 30.1652
DESARROLLO DEL MODELO
Búsqueda de las variables a incluir en el modelo.
Se asume que hay un conjunto de variables candidatas odisponibles, el cual presumiblemente incluye todas
las variables relevantes, a partir del cual un subconjunto der variables debe elegirse para la ecuación de regresión.
Las variables candidatas pueden incluir diferentes formasde la misma variable básica, tales como X y X2 y el
proceso de selección puede incluir restriciones acerca de las variables que pueden ser incluidas. Por ejemplo,X puede ser forzada a incluirse en el modelo si X2 está en
el subconjunto seleccionado.
Hay 3 áreas problema relacionadas con esto:
1. Los efectos teóricos de la selección de variables sobre la regresión resultante.
2. Los métodos de cálculo para encontrar el “mejor”subconjunto de variables para cada tamaño de subconjunto.
3. La elección del tamaño del subconjunto (para elmodelo final), o regla de detención
Usos de la ecuación de regresión:
1. Proporcionar una buena descripción de laconducta en la variable de respuesta.
2. Predicción de respuesta futura y estimaciónde respuestas promedio.
3. Extrapolación o predicción de respuestas fuera delrango de los datos.
4. Estimación de parámetros.
5. Control de un proceso por variación de los nivele de input.
6. Desarrollo de modelos realísticos del proceso.
Cada objetivo tiene implicancias diferentes en el modocomo se coloca el énfasis en la eliminación de variables
desde el modelo, o en cuan importante es que lasvariables retenidas estén causalmente relacionadas con
la variable de respuesta.
Las decisiones acerca de causalidad y realismo debendepender de información ajena al conjunto de datos.
Por ej., modalidad de recolección de los datos yconocimiento fundamental acerca de la operación del sistema.
Objetivo: descripción de la conducta de la variablerespuesta en un conjunto particular de datos.
No tiene importancia la eliminación de variables, lasposibles relaciones causales o el realismo del modelo.
La mejor descripción de la variable respuesta, entérminos de mínima suma de cuadrados residuales,
estará dada por el modelo completo.
DEP VAR: BIO N: 45 MULTIPLE R: 0.823 SQUARED MULTIPLE R: 0.677 ADJUSTED SQUARED MULTIPLE R: .636 STANDARD ERROR OF ESTIMATE: 398.267
VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL)
CONSTANT 1252.575 1234.717 0.000 . 1.014 0.317 SAL -30.288 24.030 -0.171 0.451 -1.260 0.215 PH 305.483 87.882 0.577 0.300 3.476 0.001 K -0.285 0.348 -0.129 0.335 -0.819 0.418 NA -0.009 0.016 -0.090 0.300 -0.544 0.590 ZN -20.678 15.054 -0.259 0.232 -1.374 0.177
ANALYSIS OF VARIANCE
SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P
REGRESSION .129849E+08 5 2596984.192 16.373 0.000 RESIDUAL 6186042.238 39 158616.468
Las ecuaciones de regresión con pocas variables :
Tienen el atractivo de la simplicidad.
Son económicas por baja información necesaria.
Eliminan variables irrelevantes.
Eliminan variables con bajo aporte a laexplicación de la variable dependiente.
Los usos de PREDICCION y ESTIMACION derespuestas promedio son los más tolerantes a la
eliminación de variables. Al mismo tiempo, no esimportante si las variables están causalmente
relacionadas o el modelo es realístico.
Se asume que la predicción y la estimación van aestar en el espacio de X de los datos y que el sistemacontinua operando como cuando se recogieron los
datos.
Cualquier variable que contenga información predictivaacerca de la variable dependiente y para la cual se pueda
obtener información a bajo costo, es una variable deutilidad.
La extrapolación requiere más cuidado en laelección de las variables.
Las variables retenidas deben describir de lamanera más completa posible la conducta del
sistema.Las extrapolaciones más allá del ámbito de X son
siempre peligrosas.Debe re analizarse y agregarse continuamente
información.
Estimación de parámetros:
Se debe tener precaución al sacar variables del modelo,para evitar sesgo. Como ventaja, la eliminación de
variables realmente no relacionadas reduce la varianzade las estimaciones.
Control de un sistema:
Implica una relación de causa efecto entre las variablesindependientes y la variable de respuesta. Si se
eliminan las variables incorrectas conduce a unafalta de efecto de la intervención sobre el sistema.
El objetivo de la investigación básica es confrecuencia la construcción de modelos realísticos
La meta final es la comprensión del proceso.Existe siempre un interés en identificar las
variables importantes por su relación de causasobre el modelo.
La selección no puede basarse sólo sobre la estructura correlacional. Este análisis sirve paraidentificar clases de variables que promuevaninvestigación posterior del tipo causa efecto.
En la medida que se necesita mayor conocimiento del proceso, hay mayor interés en desarrollar modelos
cuya forma funcional refleje realísticamente laconducta del sistema.
Cuando las variables independientes en el conjunto de datos son ortogonales,
el resultado de mínimo cuadrado para cadavariable es el mismo independientemente
de cual otra variable se incorpore al modelo.
Entonces, el resultado de un solo análisis puedeser utilizado para escoger las variables
independientes que permanecen en el modelo.
En datos observacionales y por pérdida en experimentos,se produce falta de ortogonalidad y el resultado
de mínimos cuadrados de cada una es dependientede las otrad variables incluidas en el modelo.
Conceptualmente, la única manera de asegurarque se escoge el mejor modelo para cada
subconjunto, es calcular todas las posiblesregresiones.
Se puede cuando el número de variables esrelativamente pequeño, pero si hay 10 variables
independientes hay 210-1 = 1023 posibles modelos a evaluar.
PROCEDIMIENTO DE REGRESION STEPWISE
Este procedimiento identifica los modelos de lossubconjuntos agregando o borrando, según la
alternativa, la variable que tenga un mayor impactosobre la suma de cuadrados residuales.
Forward stepwise:
escoje los subconjuntos de modelos agregando unavariable a la vez al conjunto previamente elegido.
Este procedimiento comienza eligiendo como subconjunto de una variable a aquella variable
independiente que explica la mayor parte de la variación en la variable dependiente. Esta es
la con mayor correlación lineal con Y. En cadapaso sucesivo, se agrega al subconjunto aquella
variable QUE NO ESTABA en el modelo previo yque produce la mayor reducción en la suma de
cuadrados residuales.
En la práctica, es la variable que tiene la mayorcorrelación con los residuales del modelo actual.Sin una regla de término, la selección continúahasta incluir todas las variables en el promedio.
Backward elimination:
Escoge el modelo comenzando con todas las variablesy eliminando en cada paso la variable cuya eliminacióncause el mínimo incremento en la suma de cuadrados
residuales.Esta es la variable dependiente que en el modelo
actual tenga la más pequeña suma de cuadrados parciales.
Sin una regla de término, la selección continúahasta que el modelo incluye una sola variable.
Ninguno de los dos procedimientos toma en cuenta elefecto que la adición o eliminación de una variable puede tener en la contribución de las otras variables
del modelo.Una variable agregada tempranamente al modelo
en Forward selection puede hacerse irrelevante másadelante, a agregar otras variables o bien,
variables eliminadas tempranamente puedenhacerse importantes después que otras se han
eliminado del modelo.
El método llamado stepwise es una selecciónhacia delante que rechequea en cada paso la importancia
de las variables ya incluidas.
Si la suma de cuadrados parciales para cualquierade las variables incluidas previamente no
satisface un criterio mínimo para permanecer en elmodelo, el procedimiento cambia a eliminación
hacia atrás y las variables son eliminadas una a lavez hasta que todas las variables satisfacen el
criterio.Después de esto se reanuda la selección hacia
adelante.
CRITERIOS DE TERMINO DE SELECCION
SELECCIÓN HACIA ADELANTE:
Tasa de reducción en la suma de cuadrados residualesproducto de la incorporación de la siguiente variable
Nivel crítico de F para entrar o nivel de significanciaEl proceso termina cuando ninguna de las variablesfuera del modelo satisface el criterio para entrar.
SELECCIÓN HACIA ATRÁS:
Test de F para la mayor suma de cuadrados residualesde las variables que permanecen en el modelo.