analisis multivariado

MÉTODOS ESTADÍSTICOS MULTIVARIADOS P. REYES / OCT. 2006

CÁLCULO DEL COEFICIENTE DE CONFIABIL IDAD

(FIABILIDAD) ALFA-CRONBACH

Existen tres procedimientos para determinar el coeficiente “” o alfa :

1. Sobre la base de la varianza de los ítems, con la aplicación de la

En donde N representa el número de ítems de la escala, “s2 (Yi)” es

igual a la

sumatoria de las varianzas de los ítems y “s2x” equivale a la varianza

de toda la

escala.

2. Sobre la base de la matriz de correlación de los ítems, el

procedimiento

sería:

a) Se aplica la escala.

b) Se obtienen los resultados.

c) Se calculan los coeficientes de correlación r de Pearson entre todos

los ítems (todos contra todos de par en par).

d) Se elabora la matriz de correlación con los coeficientes obtenidos.

Pág. 1

ejemplo:

Los coeficientes que se mencionan como “ya fue calculado”, se

ubican en la

parte superior de las líneas horizontales (guiones). Es decir, cada

coeficiente se incluye una sola vez y se excluyen los coeficientes que

vinculan al ítem o

puntuación consigo misma (1 con 1, 2 con 2, 3 con 3 y 4 con 4).

Pág. 2

3. Mediante otra fórmula que se basa en la correlación promedio

Pág. 3

Los métodos de análisis multivariado

Los métodos de análisis multivariado son aquellos en que se analiza

la relación

entre diversas variables independientes y al menos una dependiente.

Son métodos más complejos que requieren del uso de computadoras

para efectuar los cálculos necesarios

Entre las técnicas más comunes se encuentran (1) Análisis de componentes

principales y factores comunes, (2) regresión y correlación múltiple, (3) análisis

discriminante múltiple, (4) análisis multivariado de varianza y covarianza, (5)

análisis conjunto, (6) correlación canónica, (7) análisis de clusters, (8) escala

multidimensional. Otras técnicas nuevas incluyen (9) análisis de

correspondencia, (10) modelos de probabilidad lineal tales como el logit y

probit, y (11) modelos de ecuación simultaneas / estructurales. A continuación

se describen brevemente éstas técnicas.

Análisis de componentes principales y de factores comunes

Es un método estadístico que puede usarse para analizar las interrelaciones

entre un gran número de variables y explicar esas variables en términos de sus

dimensiones subyacentes comunes. El objetivo es hallar la forma de sintetizar

la información contenida en un número de variables originales, dentro de un

Pág. 4

conjunto más pequeño de variates (factores) con mínima pérdida de

información.

Regresión múltiple

En un método de análisis adecuado cuando el problema de investigación

involucra una variable dependiente única que se presume se relaciona a dos o

más variables independientes medibles. El objetivo es predecir el cambio en la

variable dependiente de respuesta con cambios en las variables

independientes, normalmente con el método de mínimos cuadrados.

Por ejemplo se pueden predecir los montos gastados en cenas a partir de

ingresos de las familias (variable dependiente), su tamaño, y la edad del padre

(variables independientes).

Análisis discriminante múltiple (MDA)

Se aplica cuando la variable dependiente es dicotómica (vgr. hombre – mujer) o

multitómica (vgr. Alto – medio – bajo) y por tanto no medible. Como en la

regresión las variables independientes deben ser medibles. Se aplica cuando la

muestra total se puede dividir en grupos con base en una variable no medible

caracterizando varias clases conocidas. Su objetivo es comprender las

diferencias entre grupos y predecir la probabilidad de que una entidad (objeto

individual) pertenezca a una clase o grupo particular con base en varias

variables independientes medibles o métricas.

Por ejemplo el análisis discriminante se puede utilizar para distinguir entre

innovadores y no innovadores de acuerdo a su perfil demográfico y

psicográfico.

Análisis multivariado de varianza y covarianza (MANOVA)

Es un método estadístico para explorar simultáneamente la relación entre

varias variables categóricas independientes (referidas como tratamientos) y dos

o más variables dependientes medibles o métricas. Es una extensión del

ANOVA univariado. El análisis multivariado de covarianza (MANCOVA) se

Pág. 5

puede usar en conjunto con el MANOVA para remover (después del

experimento) el efecto de cualquier variable métrica independiente no

controlada (conocida como covariada) en la variable independiente.

Análisis conjunto

Se aplica a nuevos productos para evaluar la importancia de los atributos del

nuevo producto así como los niveles de cada atributo, mientras que el

consumidor evalúa solo unos pocos perfiles del producto como combinaciones

de los niveles de producto.

Por ejemplo asumir un producto con tres atributos (precio, calidad y color),

cada uno en tres niveles posibles (vgr. Rojo, amarillo y azul). En vez de tener

que evalur las 27 combinaciones posibles (3x3x3), se evalúa un subconjunto de

9 o más combinaciones con base en su atractivo para el consumidor, de

manera que el investigador no solo conozca la importancia de cada atributo,

sino además la importancia de cada nivel (atractivo del rojo vs amarillo vs azul).

Correlación canónica

El análisis de correlación puede ser visto como una extensión lógica de la

regresión múltiple. Donde se trata de correlacionar simultáneamente varias

variables dependientes medibles o métricas y varias variables independientes

medibles. El principio es establecer una combinación lineal de cada conjunto de

variables (dependientes e independientes) para maximizar la correlación entre

los dos conjuntos (obteniendo ponderacións adecuados para las variables).

Análisis de conglomerados (Clusters)

Es una técnica analítica para desarrollar sugrupos significativos de individuos u

o objetos. Específicamente, el objetivo es clasificar una muestra de entidades

(individuos u objetos) en un número más pequeño de grupos más pequeños

con base en las similitudes entre entidades. A diferencia del análisis

discriminante, los grupos no están definidos, más bien se usa para

identificarlos.

Pág. 6

Normalmente se realiza en tres pasos. El primero es la medición de alguna

forma de similitud o asociación entre las entidades para identificar cuantos

grupos realmente existen en la muestra. El segundo paso es el proceso en sí

de conglomerados, donde las entidades se particionan en grupos

(conglomerados o clusters). El paso final es perfilar las personas o variables

para determinar su composición. Muchas veces esto último se realiza con el

análisis discriminante.

Escala multidimensional

El objetivo es transformar los juicios del consumidor de similitud o preferencias

(vgr. Preferencia por tiendas o marcas) en distancias representadas en un

espacio multidimensional. Si los objetos A y B se juzgan por el consumidor

como similares, comparados con cualquier otro par de objetos, la técnica

posiciona los objetos A y B de manera que la distancia entre ellos en un

espacio multidimensional es más pequeño que la distancia entre cualquier otro

par de objetos. Al final se muestra un mapa perceptual con la posición relativa

de los objetos.

Análisis de correspondencia

Facilita tanto la reducción dimensional de objetos en un conjunto de atributos y

el mapa perceptual de objetos respecto a estos atributos. En su forma más

elemental es una tabla de contingencia o tabulación cruzada de dos variables

categóricas. Transforma los datos no métricos a un nivel medible y realiza una

reducción dimensional (similar al análisis de factores) y un mapa perceptual

(similar al análisis multidimensional).

Por ejemplo, las preferencias de marcas de los consumidores pueden ser

tabuladas contra variables demográficas (vgr. Género, categorías de ingresos,

ocupación) indicando cuanta gente prefiere cada una de las marcas que caen

en cada categoría de las variables demográficas. Por medio del análisis de

correspondencia, la asociación o “correspondencia” de marcas y las

características distintivas de aquellos que prefieren las marcas se muestran en

Pág. 7

un mapa tridimensional o bidimensional tanto de marcas como de las

características que distinguen a aquellos que prefieren cada marca.

Modelos de probabilidad lineal (Análisis Logit)

Son una combinación de regresión múltiple y análisis discrimínante. Es similar

al análisis de regresión múltiple excepto que la variable dependiente es

categórica no métrica como en el análisis discriminante.

Modelos de ecuaciones estructurales

A veces se refiere como el nombre del software LISREL, es una técnica que

permite separar las relaciones del conjunto de variables dependientes. En su

forma más sencilla proporciona el modelo más adecuado y la técnica de

estimación más eficiente para una serie de ecuaciones de regresión múltiple,

evaluadas simultáneamente. Se caracteriza por dos componentes básicos: (1)

el modelo estructural y (2) el modelo de medición.

El modelo estructural es la “vía” que relaciona variables dependientes e

independientes. El modelo de medición permite al investigador a usar varias

variables (indicadores) para una variable dependiente e independiente.

Pág. 8

Los datos para HATCO son los siguientes:

Variables / Tipo

Percepciones / Medibles (Métricas)

X1 Tiempo de entrega - entrega del producto con la orden confirmada

X2 Nivel de precios - nivel de precio percibido ponderacióndo por

proveedores

X3 Flexibilidad de precios - flexibilidad para negociar precios

X4 Imagen de la empresa - general

X5 Servicio en general - nivel necesario para mantener relaciones

X6 Imagen de la fuerza de ventas - general

X7 Calidad del producto – calidad percibida en desempeño o rendimiento

Resultados de compras / Medibles (Métricas)

X9 Nivel de utilización - que porcentaje de producto es surtido por Hatco

X10 Nivel de satisfacción – que tan satisfecho esta el cliente con Hatco

Características del comprador / No Medibles (No Métricas)

X8 Tamaño de la empresa - 1- Grande 0 - pequeño

X11 Especificación de compra - 1-Evalúa por el valor total y 0- especificación

X12 Estructura de abastecimiento – 1- centralizado 0 - descentralizado

X13 Tipo de industria - 1- industria A 0 – otras industrias

X14 Tipo de situación de compra – 1- nueva 2- modificada 0- tradicional

Pág. 9

ANOVA (análisis de varianza de k direcciones )

El ANOVA es similar a la regresión en el sentido de que se utiliza para

investigar y modelar la relación entre una variable de respuesta y una o más

variables independientes. Sin embargo, el ANOVA difiere de la regresión en

dos aspectos: las variables independientes son cualitativas (categóricas), y no

hay supuestos acerca de la naturaleza de la relación (o sea que el modelo no

incluye coeficientes para variables). En efecto el ANOVA extiende la prueba de

dos muestras con prueba t para probar la igualdad de dos poblaciones a una

hipótesis más general al comparar más de dos medias, versus que no sean

iguales.

Definición: Es una prueba estadística para evaluar el efecto de dos o

más variables independientes sobre una variable dependiente.

Responde a esquemas como el que se muestra en la figura:

Constituye una extensión del análisis de varianza unidireccional,

solamente

Pág. 10

que incluye más de una variable independiente. Evalúa los efectos

por separado de cada variable independiente y los efectos conjuntos

de dos o más variables independientes.

Variables: Dos o más variables independientes y una dependiente.

Nivel de medición de las variables: La variable dependiente (criterio)

debe estar

medida en un nivel por intervalos o razón, y las variables

independientes (factores) pueden estar en cualquier nivel de

medición, pero expresadas de manera categórica.

Interpretación y ejemplo

Hi: La similitud en valores, la atracción física y el grado de

retroalimentación

positiva son variables que inciden en la satisfacción sobre la relación

en parejas de novios.

Contexto: Muestra de parejas de adultos jóvenes (23-29 años),

pertenecientes a estratos económicos altos (n=400).

El ANOVA efectuado mediante un paquete estadístico computacional

SPSS produce los siguientes elementos básicos:

• Fuente de la variación (source of variation). Es el factor que origina

variación en la dependiente. Si una fuente no origina variación en la

dependiente, no tiene efectos.

• Efectos principales (main effects). Es el efecto de cada variable

independiente

Pág. 11

por separado; no está contaminado del efecto de otras variables

iindependientes ni de error. Suele proporcionarse la suma de todos

los efectos principales.

• Interacciones de dos direcciones (2-way interactions). Representa el

efecto

conjunto de dos variables independientes, aislado de los demás

posibles efectos de las variables independientes (individuales o en

conjuntos). Suele

proporcionarse la suma de los efectos de todas estas interacciones.

• Interacciones de tres direcciones (3-way interactions). Constituye el

efecto

conjunto de tres variables independientes, aislado de otros efectos.

proporcionarse la suma de los efectos de todas estas interacciones.

• Puede haber efecto de K-direcciones, esto dependie del número de

variables

independientes.

En nuestro ejemplo, tenemos los resultados siguientes:

TABLA ANOVA

VARIABLE DEPENDIENTE: SATISFACCIÓN EN LA RELACIÓN

Fuente de

variación

Suma de

cuadrados

Grados de

libertad

Cuadrados

medios

Estadístico F Significancia

de Fc = P

Efectos

principales

effects

22.51 .001**

SIMILITUD 31.18 0.001**

Pág. 12

ATRACCIÓ

21.02 0.001**

RETROALIM 11.84 0.004**

SIMILITUD

ATRACCIÓ

-4.32 0.04*

SIMILITUD

RETROALIM

2.18 0.11

ATRACCIO

RETROALIM

1.56 0.190

SIM –

RETROL-

ATRACCIO

8.01 0.02*

NOTA: Normalmente interesa saber si las razones “F” resultaron o no

significativas; por tanto, sólo se incluyen estos valores. Se

recomienda concentrarse en dichos valores y evitar confusiones.

Desde luego, el investigador experimentado acostumbra estudiar

todos los valores.

**— Razón “F” significativa al nivel del 0.01 (p < 0.01)

*—Razón “F” significativa al nivel del 0.05 (p < 0.05)

Como podemos ver en la tabla, la similitud, la atracción y la

retroalimentación tienen un efecto significativo sobre la satisfacción

en la relación.

Respecto a los efectos de dos variables independientes conjuntas,

sólo la similitud y la atracción tienen un efecto, hay un efecto

Pág. 13

conjunto de las tres variables independientes. La hipótesis de

investigación se acepta y la nula se rechaza. Asimismo, se recuerda al

lector que en el capítulo 5 del presente disco: Otros diseños

experimentales (en el apartado sobre diseños factoriales) se explica

la noción de interacción entre variables independientes. Cabe agregar

que el ANOVA es un método estadístico propio para los diseños

experimentales factoriales.

Ejemplo:

Un experimento se realizó para probar cuanto tiempo toma usar un modelo

nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un

problema estadístico y uno de ingeniería se les toma el tiempo para resolver el

problema. Los ingenieros se consideran como bloques en el diseño

experimental.

Hay dos factores: Tipo de problema y modelo de calculadora – cada uno con

dos niveles, se hacen experimentos donde esos niveles de los factores se

cruzan. Los datos se muestran a continuación:

SolveTime Engineer ProbType Calculator3.1 Jones Stat New7.5 Jones Stat Old2.5 Jones Eng New5.1 Jones Eng Old3.8 Williams Stat New8.1 Williams Stat Old2.8 Williams Eng New5.3 Williams Eng Old3 Adams Stat New7.6 Adams Stat Old2 Adams Eng New4.9 Adams Eng Old3.4 Dixon Stat New7.8 Dixon Stat Old2.7 Dixon Eng New5.5 Dixon Eng Old3.3 Erickson Stat New6.9 Erickson Stat Old2.5 Erickson Eng New5.4 Erickson Eng Old3.6 Maynes Stat New7.8 Maynes Stat Old

Pág. 14

2.4 Maynes Eng New4.8 Maynes Eng Old

Las instrucciones de Minitab son las siguientes:

1 Abrir la worksheet EXH_AOV.MTW.

2 Stat > ANOVA > Balanced ANOVA.

3 Responses, poner SolveTime.

4 Model, poner Engineer ProbType | Calculator.

5 En Random Factors, poner Engineer.

6 Click Results. En Display means corresponding to the terms, poner ProbType | Calculator. Click OK cada cuadro de diálogo.

Los resultados obtenidos son los siguientes:

ANOVA: SolveTime versus Engineer, ProbType, Calculator

Factor Type Levels ValuesEngineer random 6 Adams, Dixon, Erickson, Jones, Maynes, WilliamsProbType fixed 2 Eng, StatCalculator fixed 2 New, Old

Analysis of Variance for SolveTime

Source DF SS MS F PEngineer 5 1.053 0.211 3.13 0.039ProbType 1 16.667 16.667 247.52 0.000Calculator 1 72.107 72.107 1070.89 0.000ProbType*Calculator 1 3.682 3.682 54.68 0.000Error 15 1.010 0.067Total 23 94.518

S = 0.259487 R-Sq = 98.93% R-Sq(adj) = 98.36%

ProbType N SolveTimeEng 12 3.8250Stat 12 5.4917

Calculator N SolveTimeNew 12 2.9250Old 12 6.3917

ProbType Calculator N SolveTimeEng New 6 2.4833Eng Old 6 5.1667

Pág. 15

Stat New 6 3.3667Stat Old 6 7.6167

Interpretación de los resultados:

Se muestran los factores (fijos y aleatorios), niveles y valores. Después se

muestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay una

interacción significativa entre el tipo de problema y el modelo de calculadora, lo

que implica que la reducción en tiempo de proceso de la calculadora depende

del tipo de problema.

En la lista de promedios se observa un menor tiempo entre la calculadora

nueva y la anterior.

Pág. 16

ANÁLISIS MULTIVARIADO DE VARIANZA (MANOVA)

Es un modelo para analizar la relación entre una o más variables

independientes y dos o más variables dependientes. Es decir, es útil

para estructuras causales del tipo:

La técnica posee varios usos, entre los que destacan:

- Evaluar diferencias entre grupos a través de múltiples variables

dependientes

(medidas por intervalos o razón). La(s) variable(s) independiente(s)

es(son)

categórica(s) (no métricas). Tiene el poder de evaluar no solamente

las diferencias totales, sino diferencias entre las combinaciones de las

dependientes.

En este sentido representa una extensión del análisis de varianza

(ANOVA)

para cubrir casos donde hay más de una variable dependiente y/o

cuando las

Pág. 17

variables dependientes simplemente no pueden ser combinadas. En

palabras, reconoce si los cambios en la(s) variable(s)

independiente(s) tienen un efecto significativo en las dependientes.

Señala qué grupos difieren en una

variable o en el conjunto de variables dependientes.

- Identificar las interacciones entre las variables independientes y la

asociación

entre las dependientes.

Las tres clases principales del MANOVA son:

1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con más

dependientes: una variable independiente dicotómica y varias

dependientes.

2) MANOVA unidireccional. Análogo al ANOVA de una sola vía, pero

con más

dependientes: una variable independiente multicategórica y varias

dependientes.

3) MANOVA factorial. Similar al ANOVA factorial, solamente que con

dos o más dependientes: varias independientes categóricas y varias

dependientes.

Los modelos del MANOVA tienen en común que forman

combinaciones lineales de las dependientes que discriminan mejor

entre los grupos en un experimento o una situación no experimental.

Es una prueba de significancia de las diferencias en los grupos en un

espacio multidimensional donde cada dimensión está definida por

combinaciones lineales del conjunto de variables dependientes.

Pág. 18

Una pregunta que suele hacer el estudiante al revisar el MANOVA es

¿por qué

no hacemos ANOVAS separados, uno para cada dependiente? La

respuesta: las dependientes están correlacionadas muy

frecuentemente, por lo cual los

resultados de varios ANOVA pueden ser redundantes y difíciles de

integrar. He

aquí una síntesis de la explicación de Wiersma (1999) sobre este tipo

de análisis:

Al incluir dos o más variables dependientes simultáneamente no se

consideran

las diferencias entre las medias en cada variable, sino las diferencias

en variables canónicas. El interés no sólo es saber si los grupos

definidos por las variables independientes difieren en las variables

canónicas, sino conocer la naturaleza de éstas. Una variable canónica

es una variable artificial generada a partir de los datos. Representa

constructos y se compone de variables reales, las cuales deben ser

descritas en términos de variables dependientes. Lo anterior se

efectúa por medio de las ponderacións de los coeficientes de

correlación entre una variable dependiente y una variable canónica.

Si una ponderación entre la variable canónica y la dependiente es

positiva y elevada, significa que altos valores en la dependiente se

asocian con altos valores en la canónica. Por ejemplo, si una variable

dependiente consiste en puntuaciones a una prueba sobre

innovación, y dichas puntuaciones se correlacionan en forma

considerable con una variable canónica, inferimos que la variable

canónica representa un constructo que involucra esencialmente a la

innovación.

En los cálculos que se hacen en el MANOVA, se generan variables

canónicas

Pág. 19

hasta que se encuentra que no hay una diferencia estadística

significativa entre las categorías o los grupos de las variables

independientes; o bien, hasta que se agotan los grados de libertad de

las variables independientes (lo que ocurra

primero). El número de variables canónicas no puede exceder el

número de variables dependientes, pero es común que el número de

dependientes sea mayor que el de variables canónicas

estadísticamente significativas o los grados de libertad.

La hipótesis general de investigación en el MANOVA postula que las

medias de

los grupos o las categorías de la(s) variable(s) independiente(s)

difieren entre sí en las variables canónicas. La hipótesis nula postula

que dichas medias serán iguales.

Se calculan diversas estadísticas para evaluar ambas hipótesis, entre

las que

destacan: F (total, toma en cuenta el modelo completo), la prueba

Hotelling's TSquare, T2 (cuando hay dos grupos formados por las

variables independientes), Wilks' lambda, U (cuando hay más de dos

grupos formados por las variables independientes), y Pillai-Bartlett

(cuando hay coeficientes canónicos); y si resultan significativas en un

nivel de confianza, se acepta la hipótesis de investigación de

diferencia de medias. Esto indica que hay, por lo menos, una variable

canónica significativa (pero puede haber varias). Si diversas variables

canónicas son significativas, esto muestra que se presentan

diferencias en las variables canónicas en cuestión, entre los grupos o

categorías de las independientes.

Los paquetes estadísticos que contiene el MANOVA suelen posicionar

grupos de las variables independientes por puntuaciones

discriminantes; éstas son calculadas con una función discriminante,

Pág. 20

que es una ecuación de regresión para un compuesto de variables

dependientes. A cada grupo se le asigna una puntuación

discriminante en cada variable canónica. Las puntuaciones

discriminantes de una variable independiente pueden ser cero o tener

un valor positivo o negativo. Una puntuación discriminante positiva y

elevada para un grupo, indica que éste se coloca por encima de los

demás en la respectiva variable canónica. Y deben considerarse las

ponderacións, las cuales son positivas o negativas. Las puntuaciones

discriminantes son utilizadas para interpretar las separaciones de los

grupos en las variables canónicas, en tanto que las ponderacións se

usan para evaluar y ligar los resultados de las variables dependientes

(Wiersma, 1999). Un ejemplo de las ponderacións de los coeficientes

de correlación entre las variables dependientes y las variables

canónicas así como las puntuaciones discriminantes se muestran en

las tablas siguientes:

Pág. 21

Como observamos en la última tabla, se obtuvieron tres constructos

subyacentes en las puntuaciones recolectadas de la muestra:

motivación intrínseca, atribución de causalidad externa y desempeño

laboral. Vemos en la tabla que los grupos (niveles en la empresa)

están separados en las tres variables canónicas (los grupos difieren),

particularmente en la primera variable canónica (motivación

intrínseca) y los obreros ocupan la posición más baja. Las variables

dependientes enmarcadas en un recuadro en la primera variable

canónica se ponderaciónn en ella; en consecuencia, los ejecutivos

tienen las puntuaciones más altas en motivación intrínseca medida

por la escala mencionada, en atribuciones internas y en sentimientos

de éxito en el trabajo. Así se interpretan todas las variables canónicas

y dependientes.

En el MANOVA se incluyen razones F y análisis de varianza. Algunos

paquetes

estadísticos agregan una prueba denominada correlación canónica,

que es muy similar al MANOVA. Ésta es la máxima correlación que

llega a obtenerse entre los conjuntos de puntuaciones y las relaciones

entre las variables independientes, entre las variables dependientes y

entre los conjuntos de ambas (dependientes e independientes)

(Kerlinger, 1979). Las variables en el MANOVA y la correlación

Pág. 22

canónica asumen que las variables dependientes están medidas en

un nivel de intervalos o razón. Tal correlación se interpreta como

otras; pero el contexto de interpretación varía de acuerdo con el

número de variables involucradas.

Pág. 23

Ejemplo con Minitab

Se realiza un estudio para determinar las condiciones óptimas para extruir

película plástica. Se miden tres respuestas – Tear, gloss y opacity – cinco

veces en cada combinación de dos factores – tasa de extrusión y cantidad de

aditivo – cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA

balanceado para probar la igualdad de las medias.

Tear Gloss Opacity Extrusion Additive

6.5 9.5 4.4 1 1

6.2 9.9 6.4 1 1

5.8 9.6 3 1 1

6.5 9.6 4.1 1 1

6.5 9.2 0.8 1 1

6.9 9.1 5.7 1 2

7.2 10 2 1 2

6.9 9.9 3.9 1 2

6.1 9.5 1.9 1 2

6.3 9.4 5.7 1 2

6.7 9.1 2.8 2 1

6.6 9.3 4.1 2 1

7.2 8.3 3.8 2 1

7.1 8.4 1.6 2 1

6.8 8.5 3.4 2 1

7.1 9.2 8.4 2 2

7 8.8 5.2 2 2

7.2 9.7 6.9 2 2

7.5 10.1 2.7 2 2

7.6 9.2 1.9 2 2

Instrucciones de Minitab

1 Abrir el archivo EXH_MVAR.MTW.

2 Seleccionar Stat > ANOVA > Balanced MANOVA.

Pág. 24

3 En Responses, poner Tear Gloss Opacity.

4 En Model, poner Extrusion | Additive.

5 Click Results. En Display of Results, seleccionar Matrices

(hypothesis, error, partial correlations) y Eigen analysis.

6 Click OK en cada cuadro de diálogo.

Los resultados se muestran a continuación:

Results for: Exh_mvar.MTW

ANOVA: Tear, Gloss, Opacity versus Extrusion, Additive

MANOVA for Extrusion

s = 1 m = 0.5 n = 6.0

Test DF

Criterion Statistic F Num Denom P

Wilks' 0.38186 7.554 3 14 0.003

Lawley-Hotelling 1.61877 7.554 3 14 0.003

Pillai's 0.61814 7.554 3 14 0.003

Roy's 1.61877

SSCP Matrix for Extrusion

Tear Gloss Opacity

Tear 1.740 -1.505 0.8555

Gloss -1.505 1.301 -0.7395

Opacity 0.855 -0.739 0.4205

SSCP Matrix for Error

Tear Gloss Opacity

Tear 1.764 0.0200 -3.070

Gloss 0.020 2.6280 -0.552

Opacity -3.070 -0.5520 64.924

Pág. 25

Partial Correlations for the Error SSCP Matrix

Tear Gloss Opacity

Tear 1.00000 0.00929 -0.28687

Gloss 0.00929 1.00000 -0.04226

Opacity -0.28687 -0.04226 1.00000

EIGEN Analysis for Extrusion

Eigenvalue 1.619 0.00000 0.00000

Proportion 1.000 0.00000 0.00000

Cumulative 1.000 1.00000 1.00000

Eigenvector 1 2 3

Tear 0.6541 0.4315 0.0604

Gloss -0.3385 0.5163 0.0012

Opacity 0.0359 0.0302 -0.1209

MANOVA for Additive

s = 1 m = 0.5 n = 6.0

Test DF

Wilks' 0.52303 4.256 3 14 0.025

Pillai's 0.47697 4.256 3 14 0.025

Roy's 0.91192

SSCP Matrix for Additive

Tear Gloss Opacity

Tear 0.7605 0.6825 1.931

Gloss 0.6825 0.6125 1.732

Opacity 1.9305 1.7325 4.901

EIGEN Analysis for Additive

Eigenvalue 0.9119 0.00000 0.00000

Pág. 26

Proportion 1.0000 0.00000 0.00000

Cumulative 1.0000 1.00000 1.00000

Eigenvector 1 2 3

Tear -0.6330 0.4480 -0.1276

Gloss -0.3214 -0.4992 -0.1694

Opacity -0.0684 0.0000 0.1102

MANOVA for Extrusion*Additive

s = 1 m = 0.5 n = 6.0

Test DF

Wilks' 0.77711 1.339 3 14 0.302

Pillai's 0.22289 1.339 3 14 0.302

Roy's 0.28683

SSCP Matrix for Extrusion*Additive

Tear Gloss Opacity

Tear 0.000500 0.01650 0.04450

Gloss 0.016500 0.54450 1.46850

Opacity 0.044500 1.46850 3.96050

EIGEN Analysis for Extrusion*Additive

Eigenvalue 0.2868 0.00000 0.00000

Proportion 1.0000 0.00000 0.00000

Cumulative 1.0000 1.00000 1.00000

Eigenvector 1 2 3

Tear -0.1364 0.1806 0.7527

Gloss -0.5376 -0.3028 -0.0228

Opacity -0.0683 0.1102 -0.0000

Por default se muestra la tabla para las cuatro pruebas multivariadas (Wliks,

Lawley, Hotelling, Pillai y Roy) para cada uno de los términos en el modelo.

Pág. 27

Los valores s, m y n se utilizan para los cálculos de los estadísticos de prueba

Fc, el cual es exacto si s = 1 o 2 de otra forma es aproximado.

Examinando los valores P de las pruebas para Extrusión y Aditivo se observa

que son significativas para un nivel de 0.05, no así la interacción.

Las matrices SSCP se usan para evaluar la contribución a la variabilidad de

manera similar a la suma de cuadrados en la ANOVA univariada. La matriz

SSCP para Extrusion es la suma de cuadrados de la hipótesis y matriz de

productos cruzados H para las tres respuestas con el término de modelo

Extrusión. Los elementos diagonales de esta matriz, 1.740, 1.301 y 0.405 son

las sumas de cuadrados univariados para el término del modelo Extrusión

cuando las variables de respuesta son Tear, Gloss y Opacity respectivamente.

Los elementos fuera de la diagonal son los productos cruzados.

La matriz SSCP para el error es la suma de cuadrados de los errores y

productos cruzados E. Los elementos diagonales de la matriz 1.764, 2.6280, y

64.924 son las sumas de cuadrados de los errores para las variables de

respuesta Teat, Gloss y Opacity, respectivamente. Los elementos fuera de la

diagonal de esta matriz son los productos cruzados.

La matriz de correlaciones parciales para el error SSCP, se usa para evaluar

que tanto se relacionan las variables de respuesta. Las correlaciones parciales

entre Tear y Gloss son pequeñas con 0.00929 y entre Gloss y Opacity -

0.04226. Y la correlación parcial entre Tear y Opacity es de -0.28687 tampoco

es grande. Como la estructura de las correlaciones es débil, se pueden realizar

análisis univariados de ANOVA para cada una de las respuestas.

Se puede utilizar el análisis de valores característicos o Eigenvalores, para

evaluar como difieren los promedios de las respuestas entre los niveles de los

diferentes términos del modelo. El análisis de Eigenvalores es E-1 H donde E es

la matriz SCCP del error y H es la matriz SCCP de las variables de respuesta.

Estos son los eigenvalores utilizados para calcular las cuatro pruebas de

MANOVA.

Pág. 28

Poner la mayor importancia en los eigenvectores que corresponden a valores

altos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores son

pequeños, no signiicativos. Para ambos factores, Extrusion y Additive, los

primeros eigenvalores contienen información similar. Para Extrusion is 0.6541,

-0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El mayor valor

absoluto dentro de esos eigenvalores corresponde a la respuesta Tear, el

segundo a Gloss y el valor para Opacity es pequeño. Esto implica que Tear

tiene la mayor diferencia entre los dos niveles de los factores ya sea Extrusion

o Additive, el Gloss tiene las siguientes mayores diferencias y op.citp. tiene solo

pequeñas diferencias.

Para un análisis más general utilizar General MANOVA con diseños

balanceados y no balanceados, incluso si se tienen covariados.

1 Seleccionar Stat > ANOVA > General MANOVA.

2 En Responses, seleccionar hasta 50 columnas numéricas conteniendo las

variables de respuesta.

3 En Model, introducir los términos del modelo que se quiera ajustar.

4. Click OK.

Pág. 29

ANÁLISIS DE COVARIANZA

Definición: Es un método estadístico que analiza la relación entre una

variable

dependiente y dos o más independientes, con el que se elimina o

controla el

efecto de al menos una de estas independientes. Similar al ANOVA,

excepto que permite controlar la influencia de una variable

independiente, la cual con

frecuencia es una característica antecedente que puede variar entre

los grupos

(Mertens, 2005) o influir los resultados y afectar la claridad de las

interpretaciones.

Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres

perspectivas

para el análisis de covarianza:

A. Perspectiva experimental. Se aplica a aquellas situaciones en que

el interés

del investigador se centra en las diferencias observadas en la variable

dependiente, por medio de las categorías de la variable

independiente (o variables independientes). Pero el experimentador

asume que hay otras variables independientes cuantitativas que

contaminan la relación y cuya influencia debe ser controlada.

Pág. 30

Y el investigador únicamente se interesa por conocer la relación entre

variables independientes categóricas y la variable dependiente.

Desea al mismo tiempo remover y controlar el efecto de las variables

independientes cuantitativas no categóricas (continuas). Es decir,

desea tener un esquema como el de la figura

Pág. 31

El objetivo es “purificar la relación entre las independientes

categóricas y la

dependiente, mediante el control del efecto de las independientes no

categóricas o continuas”.

Ejemplos de variables independientes categóricas serían: género

(masculino,

femenino), inteligencia (alta, media, baja), ingreso (menos de un

salario mínimo, dos a cuatro salarios mínimos, cinco a 10 salarios

mínimos, 11 o más salarios mínimos).

Los niveles de medición nominal y ordinal son categóricos en sí

mismos, mientras que los niveles de intervalos y razón deben

transformarse en categorías más discretas. Estos últimos son en sí:

cuantitativos, continuos y de categorías múltiples. Por ejemplo, el

ingreso en su “estado natural” (ponderacións, dólares, euros, etc.)

varía de la categoría cero hasta la categoría (K)k, ya que puede haber

millones de categorías.

Variable categórica — unas cuantas categorías o un rango medio.

Variable continua — muchas categorías (a veces una infinidad).

A dichas variables independientes cuantitativas continuas, cuya

influencia se

controla, se les denomina “covariables”. Una covariable se incluye en

el análisis

para remover su efecto sobre la variable dependiente, e incrementar

conocimiento de la relación entre las variables independientes

categóricas de

interés y la dependiente, lo cual aumenta la precisión del análisis.

Pág. 32

En esta perspectiva, el análisis de covarianza puede ser concebido

primero

como un ajuste en la variable dependiente respecto a diferencias en

la covariable o las covariables y, posteriormente, como una

evaluación de la relación entre las variables independientes

categóricas y los valores ajustados de la variable dependiente (Wildt

y Ahtola, 1978). En términos de Creswell (2005):

El procedimiento “ajusta” las puntuaciones en la dependiente para

dar cuenta por la covarianza (por decirlo en términos sencillos: “hace

equivalentes a los grupos en la(s) covariable(s)” y controla influencias

potenciales que pueden afectar a la variable dependiente).

B. Perspectiva de interés por la covariable. Esta perspectiva se

ejemplifica con

aquellas instancias en las cuales el interés principal se centra en

analizar la relación entre la variable dependiente y la covariable

(variable cuantitativa continua) o las covariables. Aquí el enfoque es

distinto; la influencia que se remueve es la de las variables

independientes categóricas. Primero se controla el efecto (en este

caso contaminante) de estas variables y después se analiza el efecto

“purificado” de las covariables.

C. Perspectiva de regresión. En esta tercera perspectiva, tanto las

variables

independientes categóricas como las covariables resultan de interés

para el

investigador, quien puede desear examinar el efecto de cada variable

independiente (covariables y no covariables, todas) y después ajustar

o corregir los efectos de las demás variables independientes.

En cualquier caso, el análisis de covarianza elimina influencias no

deseadas

Pág. 33

sobre la variable dependiente. Se puede utilizar en contextos

experimentales y no experimentales. La mayoría de las veces la

función del ANCOVA es “remover” la varianza compartida entre una o

más covariables y la dependiente, de este modo, se valora en su justa

dimensión la relación causal entre la(s) variable(s) independiente(s)

de interés y la dependiente (Creswell, 2005).

Veámoslo conceptualmente pero de forma gráfica con un ejemplo

simple:

Ejemplo:

Estudio: Al investigador le interesa analizar el efecto en el aprendizaje

computación, por medio un nuevo método para su enseñanza a niños.

La hipótesis es: El nuevo método de enseñanza de la computación

(MA-RH) provocará un mayor aprendizaje en los niños que un método

tradicional.

Entonces, implementa el siguiente experimento: A un grupo de

infantes lo

expone al nuevo método de enseñanza de computación (MA-RHS); a

otro grupo no lo expone al nuevo método, éste aprende con el

método tradicional;

finalmente, a un tercer grupo, de control, no recibe ningún tipo de

enseñanza en computación.

La variable independiente es el tipo de método con tres categorías o

niveles

(método nuevo, método tradicional y ausencia de método), la

dependiente es el

aprendizaje en computación (medida por una prueba estandarizada a

nivel de

Pág. 34

intervalos). Se tiene un esquema como el de la figura

Con el experimento el investigador desea conocer la varianza en

común entre método y aprendizaje (cuantificarla), la relación XY

(pura). Si los niños son asignados al azar a los grupos del

experimento y tiene grupos de tamaño aceptable, por el diseño

mismo, remueve la influencia de las covariables que

pudieran afectar. Pero si no es factible hacerlo y tiene un diseño

cuasiexperimental (grupos intactos), debe remover tal influencia con

el análisis de covarianza (eliminar al mínimo posible la varianza del

aprendizaje

no explicada), para evitar que las covariables impidan ver con

claridad la relación XY. Por ejemplo, el nivel educativo tecnológico

Pág. 35

de los padres puede influir (hace variar al aprendizaje) y este efecto

debe ser controlado, al introducirlo como covariable.

Lo que el investigador desea también se puede expresar gráficamente así:

Pág. 36

Wildt y Ahtola (1978, p. 13) definen algunos usos del análisis de

covarianza:

1. Incrementar la precisión en experimentos con asignación al azar.

2. Eliminar influencias extrañas o contaminantes que pueden resultar

cuando

las pruebas o los individuos no son asignados al azar a las diferentes

condiciones experimentales (grupos de un experimento).

3. Eliminar efectos de variables que confundan o distorsionen la

interpretación

de resultados en estudios no experimentales.

Nivel de medición de las variables: La variable dependiente siempre

está medida por intervalos o razón y las variables independientes

pueden estar medidas en cualquier nivel.

Interpretación: Depende de cada caso específico, ya que el análisis de

covarianza efectuado mediante un programa estadístico

computacional, produce un cuadro de resultados muy parecido al del

análisis de varianza. Los elementos más comunes pueden obssevarse

en la tabla ANOVA.

La razón F es, igual que en el análisis de varianza, una razón de

varianzas. El

razonamiento estadístico es el mismo y F se interpreta igual, incluso

se utiliza el mismo cuadro de la distribución F. Solamente que las

inferencias y conclusiones se hacen al considerar que las medias de

la variable

dependiente, a través de las categorías de las variables

independientes, se han

Pág. 37

ajustado, de este modo eliminan el efecto de la covariable o

covariables.

Ejemplo:

Diseño de investigación que utiliza el análisis de covarianza

Hi: Los trabajadores que reciban retroalimentación verbal sobre el

desempeño de parte de su supervisor mantendrán un nivel mayor de

productividad que los

trabajadores que reciban retroalimentación sobre el desempeño por

escrito, más aún que los trabajadores que no reciban ningún tipo de

retroalimentación.

__ __ __

Hi: X1 > X2 > X3

(verbal) (por escrito) (ausencia)

El investigador plantea un diseño experimental para intentar probar

hipótesis. Sin embargo, no puede asignar aleatoriamente a los

trabajadores a los tres grupos del experimento. El diseño sería con

grupos intactos

(cuasiexperimental) y se esquematizaría así:

Asimismo, el investigador presupone que hay un factor que puede

contaminar los resultados (actuar como fuente de invalidación

interna): la

Pág. 38

motivación. Diferencias iniciales en motivación pueden invalidar el

estudio.

Como la asignación al azar está ausente, no se sabe si los resultados

se ven influidos por dicho factor. Entonces, el experimentador decide

eliminar o controlar el efecto de la motivación sobre la productividad

para conocer los efectos de la variable independiente: tipo de

retroalimentación. La motivación se convierte en covariable.

El esquema es el que se muestra en la figura

Cabe destacar que, para introducir una covariable en el análisis, de

preferencia

debe medirse antes del inicio del experimento.

El análisis de covarianza “quita” a la variabilidad de la dependiente lo

que se

debe a la covariable. Ajusta la varianza de la variable dependiente en

las categorías de la independiente, al basarse en la covariable. En el

ejemplo, ajusta la varianza de la productividad debida a la

motivación, en las categorías experimentales (tratamientos o grupos).

El ajuste se realiza sobre la base de la correlación entre la covariable

y la dependiente. Esto se muestra esquemáticamente en la tabla.

Pág. 39

Una vez realizado el análisis de covarianza, se evalúa si F es o no

significativa.

Cuando F resulta significativa se acepta la hipótesis de investigación.

Si el resultado fuera:

G1 = 35

G2 = 36

La correlación entre la calificación en motivación y las puntuaciones

productividad es la base para el ajuste.

G3 = 38

Gl entre = K – 1 = 3 – 1 = 2

Gl intra = N – K = 107

F = 1.70

Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es

igual a

3.07, y nuestra razón F a 1.70 es menor a este valor. Por lo tanto,

rechazamos la hipótesis de investigación y aceptamos la hipótesis

nula. Esto se contrasta y

profundiza con las medias ajustadas de los grupos que proporcione el

análisis de covarianza (no las medias obtenidas en el experimento por

cada grupo, sino las ajustadas con base en la covariable).

Recordemos que SPSS nos proporciona automáticamente la

significancia de F.

Ejemplo:

Pág. 40

Determinar si hay diferencia en la resistencia de una fibra

monofilamento producida por tres máquinas diferentes. El diámetro

de la fibra parece tener influencia en la resistencia como se muestra

abajo (covariado de Y).

Datos de resistencia - Y es la respuesta, X es el covariado.

Y X Maq36 20 141 25 139 24 142 25 149 32 140 22 248 28 239 22 245 30 244 28 235 21 337 23 342 26 334 21 332 15 3

La relación entre X y Y es significativa como se observa en la

siguiente gráfica:

En Minitab:

1. Stat > Regresión > Fitted line plot

2. Introducir Y y X, seleccionar Linear

Pág. 41

32.530.027.525.022.520.017.515.0

S 1.78174R-Sq 88.1%R-Sq(adj) 87.2%

Fitted Line PlotY = 14.14 + 1.080 X

Para el ANOVA con Covariados, las instrucciones de Minitab son las

siguientes:

1. Stat > ANOVA > General Linear Model

2. Introducir en Response Y, en Model X y Maquina

3. En Covariates X

4. En Results en Display Least Square Means corresponding to the terms Maq

5. En Graphs seleccionar Normal plot for residuals

General Linear Model: Y versus Maq

Factor Type Levels ValuesMaq fixed 3 1, 2, 3

Analysis of Variance for Y, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F PX 1 305.13 178.01 178.01 69.97 0.000Maq 2 13.28 13.28 6.64 2.61 0.118Error 11 27.99 27.99 2.54Total 14 346.40

Pág. 42

S = 1.59505 R-Sq = 91.92% R-Sq(adj) = 89.72%

Term Coef SE Coef T PConstant 17.177 2.783 6.17 0.000X 0.9540 0.1140 8.36 0.000

Unusual Observations for Y

Obs Y Fit SE Fit Residual St Resid 7 48.0000 45.1080 0.7489 2.8920 2.05 R

R denotes an observation with a large standardized residual.

Means for Covariates

Covariate Mean StDevX 24.13 4.324

Least Squares Means for Y

Maq Mean SE Mean1 40.38 0.72362 41.42 0.74443 38.80 0.7879

Conclusión:

Se observa que no hay diferencia en las máquinas una vez que eliminamos la

variabilidad introducida por el diámetro de la fibra, en caso de no haber tomado

en cuenta la covarianza del diámetro en la resitencia, se hubiese concluido al

revés, que si hay diferencia en las máquinas, como se muestra a continuación:

Con Minitab:

1. Stat > ANOVA > One way

2. Response Y Factor Maquina

Los resultados son los siguientes:

One-way ANOVA: Y versus Maq

Source DF SS MS F PMaq 2 140.4 70.2 4.09 0.044Error 12 206.0 17.2Total 14 346.4

S = 4.143 R-Sq = 40.53% R-Sq(adj) = 30.62%

Pág. 43

Individual 95% CIs For Mean Based on Pooled StDevLevel N Mean StDev +---------+---------+---------+---------1 5 41.400 4.827 (---------*----------)2 5 43.200 3.701 (---------*---------)3 5 36.000 3.808 (---------*---------) +---------+---------+---------+--------- 32.0 36.0 40.0 44.0

Pooled StDev = 4.143

Conclusión: Como P value es menor a 0.05 aparentemente si hay diferencia

entre máquinas.

Pág. 44

ANALISIS DISCRIMINANTE

El análisis discriminante, se aplica cuando las variables

independientes son medidas por intervalos o razón, y la dependiente

es categórica. Tal análisis sirve para predecir la pertenencia de un

caso a una de las categorías de la variable dependiente, sobre la base

de varias independientes (dos o más). Se utiliza una ecuación de

regresión llamada función discriminante. Por ejemplo, si queremos

predecir el voto obtenido por dos partidos contendientes (variable

dependiente nominal con dos categorías) sobre la base de cuatro

variables independientes, aplicaremos el análisis discriminante, para

resolver una ecuación de regresión; así se obtienen las predicciones

individuales. En el ejemplo, hay dos categorías (votar por A o votar

por B); por tanto, los valores a predecir son 0 y 1 (A y B,

respectivamente). Si el sujeto obtiene una puntuación más cercana a

cero, se predice que pertenece al grupo que votará por A; si logra una

puntuación más cercana a 1, se predice que pertenece al grupo que

votará por B. Además, se consigue una medida del grado de

discriminación del modelo.

Usar el Análisis Discrimínate para clasificar observaciones en dos o

más grupos si se tiene una muestra con grupos conocidos. Se puede

utilizar también para investigar como contribuyen las variables a la

separación de grupos.

Se pueden hacer análisis discriminantes lineales y cuadráticos. Los

lineales asumen que todos los grupos tienen la misma matriz de

covarianza, los cuadráticos no hacen este supuesto y no son bien

comprendidos.

Para el caso de clasificar las observaciones nuevas en una de dos

categorías, la regresión logística puede ser superior al análisis

discriminante.

Pág. 45

Ejemplo:

Para regular la pesca de salmón, se desea identificar si el pescado es originario

de Alaska o de Canadá. Cincuenta peces de cada lugar de origen fueron

capturados y pesados cuando vivían en agua dulce y cuando vivieron en agua

salada. El objetivo es el de poder identificar si los nuevos pescados vienen de

criaderos en Alaska o Canadá. Los datos se muestran a continuación:

SalmonOrigin Freshwater Marine SalmonOrigin Freshwater MarineAlaska 108 368 Canada 129 420Alaska 131 355 Canada 148 371Alaska 105 469 Canada 179 407Alaska 86 506 Canada 152 381Alaska 99 402 Canada 166 377Alaska 87 423 Canada 124 389Alaska 94 440 Canada 156 419Alaska 117 489 Canada 131 345Alaska 79 432 Canada 140 362Alaska 99 403 Canada 144 345Alaska 114 428 Canada 149 393Alaska 123 372 Canada 108 330Alaska 123 372 Canada 135 355Alaska 109 420 Canada 170 386Alaska 112 394 Canada 152 301Alaska 104 407 Canada 153 397Alaska 111 422 Canada 152 301Alaska 126 423 Canada 136 438Alaska 105 434 Canada 122 306Alaska 119 474 Canada 148 383Alaska 114 396 Canada 90 385Alaska 100 470 Canada 145 337Alaska 84 399 Canada 123 364Alaska 102 429 Canada 145 376Alaska 101 469 Canada 115 354Alaska 85 444 Canada 134 383Alaska 109 397 Canada 117 355Alaska 106 442 Canada 126 345Alaska 82 431 Canada 118 379Alaska 118 381 Canada 120 369Alaska 105 388 Canada 153 403Alaska 121 403 Canada 150 354Alaska 85 451 Canada 154 390Alaska 83 453 Canada 155 349Alaska 53 427 Canada 109 325Alaska 95 411 Canada 117 344Alaska 76 442 Canada 128 400Alaska 95 426 Canada 144 403Alaska 87 402 Canada 163 370Alaska 70 397 Canada 145 355Alaska 84 511 Canada 133 375

Pág. 46

Alaska 91 469 Canada 128 383Alaska 74 451 Canada 123 349Alaska 101 474 Canada 144 373Alaska 80 398 Canada 140 388Alaska 95 433 Canada 150 339Alaska 92 404 Canada 124 341Alaska 99 481 Canada 125 346Alaska 94 491 Canada 153 352Alaska 87 480 Canada 108 339

Las intrucciones de Minitab son las siguientes:

1 Abrir la worksheet EXH_MVAR.MTW.

2 Stat > Multivariate > Discriminant Analysis.

3 En Groups, poner SalmonOrigin.

4 En Predictors, poner Freshwater Marine. Click OK.

Los resultados obtenidos se muestran a continuación:

Discriminant Analysis: SalmonOrigin versus Freshwater, Marine

Linear Method for Response: SalmonOrigin

Predictors: Freshwater, Marine

Group Alaska CanadaCount 50 50

Summary of classification

True GroupPut into Group Alaska CanadaAlaska 44 1Canada 6 49Total N 50 50N correct 44 49Proportion 0.880 0.980

N = 100 N Correct = 93 Proportion Correct = 0.930

Squared Distance Between Groups

Alaska CanadaAlaska 0.00000 8.29187Canada 8.29187 0.00000

Linear Discriminant Function for Groups Alaska CanadaConstant -100.68 -95.14Freshwater 0.37 0.50Marine 0.38 0.33

Summary of Misclassified Observations SquaredObservation True Group Pred Group Group Distance Probability 1** Alaska Canada Alaska 3.544 0.428

Pág. 47

Canada 2.960 0.572 2** Alaska Canada Alaska 8.1131 0.019 Canada 0.2729 0.981 12** Alaska Canada Alaska 4.7470 0.118 Canada 0.7270 0.882 13** Alaska Canada Alaska 4.7470 0.118 Canada 0.7270 0.882 30** Alaska Canada Alaska 3.230 0.289 Canada 1.429 0.711 32** Alaska Canada Alaska 2.271 0.464 Canada 1.985 0.536 71** Canada Alaska Alaska 2.045 0.948 Canada 7.849 0.052

Interpretando los resultados

El Análisis Discriminante identificó correctamente 93 de los 100 peces, a pesar

de que la probabilidad de clasificar correctamente un pez de Alaska fue menor

(44/50 o 88%) que la probabilidad de clasificar correctamente un pez de

Canadá (49/50 o 98%). Para identificar el origen de un pez recientemente

capturado depende de cual valor discriminante sea mayor. Se puede correr el

análisis discriminante de nuevo y predecir a que grupo pertenecen las nuevas

observaciones.

El resumen de las observaciones mal clasificadas muestra la distancia al

cuadrado desde el punto mal clasificado a los centroides del grupo (vectores

medios) y las probabilidades posteriores. Las observaciones son asignadas al

grupo con la mayor probabilidad posterior.

Si en Options introducimos en Predict membership for: 100 130, la

clasificación aparece como:

Prediction for Test Observations SquaredObservation Pred Group From Group Distance Probability 1 Canada Alaska 78.448 0.000 Canada 55.194 1.000

Pág. 48

ANÁLISIS DE CONGLOMERADOS

Se cuenta también con el análisis de conglomerados o clusters (técnica paraagrupar los casos o elementos de una muestra en grupos con base en una omás variables).

Usar Análisis de componentes principales para ayudar a comprender la

estructura de datos y/o a formar un pequeño número de variables no

correlacionadas (por ejemplo para evitar multicolinealidad en la regresión).

Ejemplo:

Se registran las siguientes características para 14 censos: Población total (Pop), mediana de años escolares (School), empleo total (Employ),empleo en servicios de salud (Health), y valor mediano del valor de la casa (Home). Los datos se muestran a continuación:

Pop School Employ Health Home5.935 14.2 2.265 2.27 2.911.523 13.1 0.597 0.75 2.622.599 12.7 1.237 1.11 1.724.009 15.2 1.649 0.81 3.024.687 14.7 2.312 2.5 2.228.044 15.6 3.641 4.51 2.362.766 13.3 1.244 1.03 1.976.538 17 2.618 2.39 1.856.451 12.9 3.147 5.52 2.013.314 12.2 1.606 2.18 1.823.777 13 2.119 2.83 1.81.53 13.8 0.798 0.84 4.25

2.768 13.6 1.336 1.75 2.646.585 14.9 2.763 1.91 3.17

Se realiza un análisis de components principales para comprender la estructura de datos subyacente. Se usa la matriz de correlación para estandarizar las mediciones dado que no se mide con la misma escala.

2 Stat > Multivariate > Principal Components.

3 En Variables, Pop-Home.

Pág. 49

4 En Type of Matrix, seleccionar Correlation.

5 Click Graphs y seleccionar Scree plot.

6 Click OK en cada cuadro de diálogo.

Principal Component Analysis: Pop, School, Employ, Health, Home

Eigenanalysis of the Correlation Matrix

Eigenvalue 3.0289 1.2911 0.5725 0.0954 0.0121Proportion 0.606 0.258 0.114 0.019 0.002Cumulative 0.606 0.864 0.978 0.998 1.000

Variable PC1 PC2 PC3 PC4 PC5Pop -0.558 -0.131 0.008 0.551 -0.606School -0.313 -0.629 -0.549 -0.453 0.007Employ -0.568 -0.004 0.117 0.268 0.769Health -0.487 0.310 0.455 -0.648 -0.201Home 0.174 -0.701 0.691 0.015 0.014

Component Number

Eigenvalu

Scree Plot of Pop, ..., Home

Interpretando los resultados

El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el

60.6% de la varianza total. Los coeficientes para el PC1 muestran como

calcular el nivel del componente principal.

PC1 = .558 Pop .313 School .568 Employ .487 Health + .174 Home

Notar que la interpretación de los components principales es subjetiva, sin

embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podría

Pág. 50

pensar que el primer componente represente el efecto del tamaño de la

población total, el nivel de escolaridad, empleo y servicios de salud, dado que

los coeficientes de estos términos tienen el mismo signo y no son cercanos a

El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la

variabilidad de los datos. Se calcula de los datos originales usando los

coeficientes listados en PC2. Este componente podría ser pensado como nivel

de contraste de escolaridad y valor de la casa con salud y empleo de alguna

manera.

Juntos el primero y segundo componentes representan el 86.4% y 97%,

respectivamente, de la variabilidad total. Así, la mayoría de la estructura de

datos puede ser capturada en dos o tres dimensiones relevantes. Los

componentes remanentes solo tienen una menor proporción de probabilidad y

no son importantes. La gráfica Scree proporciona una visión gráfica de lo

anterior.

Pág. 51

ANÁLISIS FACTORIAL

El análisis factorial es un método cuyo propósito principal es definir la

estructura subyacente de una matriz de datos. Atiende el problema de analizar

la estructura de las interrelaciones (correlaciones) entre un gran número de

variables (vgr. Respuestas de cuestionarios) al definir un conjunto de

dimensiones subyacentes comunes, conocidas como factores. Con el análisis

factorial se identifican las dimensiones separadas de la estructura y después se

determina que tanto cada variable es explicada por cada dimensión. Una vez

que se determinan las dimensiones y se explican las variables por cada

dimensión, se puede hacer un resumen y reducción de datos.

El análisis factorial es una técnica de interdependencia en la cual todas las

variables son consideradas de manera simultanea, cada una relacionada a las

otras, y empleando el concepto de variate, composición lineal de variables. De

hecho las variates (factores) se forman para maximizar su explicación de todo

el conjunto de variables, no para predecir una variable dependiente(s). Una

variate (factor) es una variable dependiente que es función del conjunto total de

variables.

Se usa el Análisis factorial, de manera similar al análisis de componentes

principales, para resumir la estructura de covarianza de los datos en una pocas

dimensiones de los mismos. Sin embargo, el énfasis en análisis factorial es la

identificación de los “factores subyacentes” que pueden explicar las

dimensiones asociadas con la gran variabilidad de los datos.

Se pueden tener tres tipos de datos de entrada:

Columnas de datos unitarios

Una Matriz de correlaciones o covarianzas

Columnas conteniendo ponderaciones de factores

Con los datos del ejemplo anterior de Componentes principales, realizar un

análisis factorial como sigue:

Pág. 52

Nos gustaría investigar que “factores” pueden explicar la mayor parte de la

variabilidad. Como primer paso del análisis factorial, se utiliza la extracción de

componentes principales y se examinan los eigenvalores en gráfica como

ayuda para decidir el número de factores.

PROCESO DE DECISIÓN DE ANÁLISIS FACTORIAL

Paso 1. Objetivos del Análisis factorial

El propósito es encontrar una forma de condensar (resumir) la información

contenida en un cierto número de variables originales, en un grupo más

pequeño de dimensiones nuevas, compuestas o variates (factores) con un

mínimo de pérdida de información.

Por ejemplo si hay datos de 100 cuestionarios en 10 características, el análisis

factorial se aplica a la matriz de correlación de variables y se denomina

Análisis Factorial R, para identificar las dimensiones que están latentes o no

son fácilmente observables.

El análisis factorial también se puede aplicar a una matriz de correlación de los

cuestionarios individuales basados sus características, referido como Análisis

Factorial Q, es un método de condensar o combinar un grupo grande de gente

en diferentes grupos distintos dentro de una población grande, para esto se

utiliza el análisis de conglomerados (clusters).

Paso 2. Diseño del análisis factorial

Incluye tres decisiones básicas: (1) cálculo de los datos de entrada (una matiz

de correlación) para cumplir con los objetivos especificados de agrupar

variables o cuestionarios; (2) el diseño del estudio en términos del nñumeor de

variables, propiedades de medición de las variables, y el tipo de variables

permitidas y (3) el tamaño de muestra necesario (al menos 5 veces el númro de

variables analizadas), ambos en términos absolutos y como función de del

número de variables en el análisis.

Paso 3. Supuestos del análisis factorial

Pág. 53

Es deseable algún grado de multicolinealidad entre variables dado que el

objetivo es identificar conjuntos de variables interrelacionadas, no son tan

importantes la normalidad, homoestacidad y linealidad a menos que

disminuyan significativamente las correlaciones observadas.

La matriz de correlación debe indicar valores mayores a 0.3 para aplicar el

análisis de correlación. También si las correlaciones parciales entre variables

(correlación entre variables cuando el efecto de las otras variables se toma en

cuenta) son pequeñas dado que la variable puede explicada por los factores

(variates con ponderacións para cada una de las variables). Si las

correlaciones parciales son altas, no hay factores subyacentes “verdaderos” y

el análisis factorial es inapropiado.

La prueba de esfericidad de Bartlett mide la presencia de correlaciones entre

las variables, proporciona la probabilidad de que la matriz de correlación tenga

correlaciones significativas en algunas de las variables. Otro indicador es el

“Measure of Sampling Adequacy (MSA)”, con rango de 0 a 1, donde 0.8 o más

es meritorio; 0.07 o más es regular; 0.60 o más es mediocre; 0.50 o más

miserable y debajo de 0.50 inaceptable.

El supuesto básico en el análisis factorial es que existe una estructura

subyacente en el conjunto de variables seleccionadas.

Paso 4. Identificando factores y evaluando el ajuste del modelo

Una vez que se especifican las variables y se prepara la matriz de correlación,

se toman decisiones en relación a (1) el método de extracción de los factores

(análisis de factores comunes versus análisis de componentes) y (2) el número

de factores seleccionados para representar la estructura subyacente en los

datos.

Análisis de componentes

El análisis de componentes se usa cuando el objetivo es resumir la mayor parte

de la información original (varianza) en un mínimo número de factores para

Pág. 54

propósitos de predicción. Considera la varianza total y determina factores que

contienen pequeñas proporciones de varianza única y, en algunos casos,

varianza del error.

Análisis factorial

En contraste el análisis de factores comunes se utiliza para identificar los

factores subyacentes o dimensiones que reflejan aquello que las variables

comparten en común.

En este método se tienen tres tipos de varianzas: (1) común, (2) específica

(única), y (3) error. La varianza común se define como la varianza en una

variable que es compartida por todas las demás variables. La varianza

específica es la varianza asociada solo con una variable específica. La

varianza del error es la varianza debida a la incertidumbre en el proceso de

recolección de datos, errores de medición, o componente aleatorio en el

fenómeno medido.

Criterios para el número de factores a extraer

El método primero extrae la combinación de variables explicando la mayor

cantidad de varianza y después continua con combinaciones que representan

menos y menos cantidades de varianza.

La selección de factores a extraer equivale a enfocar un microscopio

normalmente se hace por prueba y error contrastando los resultados.

Criterio de Raíz Latente: su racional es que cualquier factor individual debe

contener la varianza de al menos una variable. Como cada variable contribuye

con 1 al eigenvalor total o raíz latente. Se seleccionan solo los factores con

eigenvalores mayores a uno, cuando se tienen menos de 20 variables, los

factores extraídos son pocos.

Criterio a Priori: en este método el investigador ya tiene una idea clara de los

factores a extraer y así lo indica en la computadora.

Pág. 55

Criterio de porcentaje de varianza: Enfoque basado en lograr un porcentaje

acumulado de varianza total extraído por factores sucesivos. Normalmente el

proceso para al acumular 95%.

Criterio Scree Test: Se usa para identificar el número óptimo de factores que

pueden ser extraídos antes de que la cantidad de varianza única empiece a

dominar la estructura de varianza común.

Paso 5. Interpretando los factores

Se obtiene la matriz no rotada para estimar el número de factores a extraer. La

matriz de factores contiene ponderacións de factores para cada variable en

cada factor. El primer factor puede verse como la mejor combinación lineal

incluida en los datos, con cada factor con ponderacións significativos y acumula

la mayor parte de a varianza; el segundo factor es la segunda mejor

combinación lineal de variables, sujeta a que es ortogonal al primer factor, se

basa en la porción residual de la varianza una vez removido el primero, así

sucesivamente.

Los ponderacións de los factores representan la correlación de cada una de las

variables y el factor, entre mayores sean, mayor será la representatividad del

factor por la variable.

Pág. 56

Eigenvalor

Número de factores

La rotación de los factores más simple es una rotación ortogonal, en la cual

se mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los

90 grados entre los ejes de referencia. Cuando no hay restricción de

ortogonalidad, el procedimiento de rotación se denomina rotación oblicua.

Fig. 1 Rotación ortogonal de factores (observar la ponderación o ponderación de factores I y

II en la variable V2, es más clara cuando se rotan los factores)

En la figura se observan dos conglomerados de variables (V1 y V2) y (V3, V4 y

V5), sin embargo con los factores sin rotar no es muy obvia su ponderación o

ponderación de los factores I y II. Después de la rotación de los ejes de

factores, las variables 3, 4 y 5 tienen una ponderación o ponderación fuerte de

factor I, y las variables 1 y2 tienen una ponderación o ponderación fuerte en el

factor II. Siendo más obvia la distinción entre conglomerados en dos grupos.

Métodos de rotación ortogonal

En la práctica el objetivo de todos los métodos de rotación es simplificar las

filas y columnas de la matriz de factores para facilitar la interpretación. En una

matriz de factores las columnas representan factores, con cada renglón

correspondiente a la ponderación de las variables a través de los factores. Al

simplificar los renglones, se hacen tantos valores en cada fila tan cercanos a

cero como sea posible (i.e. maximizando la ponderación de una variable con un

Pág. 57

+1 Factor II sin rotar

+1 Factor I sin rotar

+1 Factor I rotado

+1 Factor II rotado

factor único). Simplificando las columnas, se hacen tantos valores en las

columnas tan cercanos a cero como sea posible (i.e. hacer el máximo número

de ponderacións “altas” como sea posible). Se han desarrollado tres métodos

para lo anterior como sigue:

Quartimax: para simplificar las filas de la matriz; o sea, que Quartimax se

enfoca a rotar los factores iniciales de manera que las variables tengan la

mayor ponderación posible de un factor y la mínima de los otros. Aunque este

método no ha sido eficiente.

Varimax: se centra en simplificar las columnas de la matriz factorial. La

máxima simplificación posible se logra cuando solo hay 1’s y 0’s en la columna.

Es decir que VARIMAX maximiza la suma de variancias de ponderacións

requeridas de la matriz factorial. Este método ha probado ser un método

analítico efectivo para obtener una rotación ortogonal de factores.

Equimax:

Es un compromiso entre las anteriores. Trata de simplificar los renglones y las

columnas, no se utiliza frecuentemente.

Métodos de rotación oblicua:

Estos métodos son similares a las rotaciones ortogonales excepto que permiten

factores correlacionados en vez de mantener la independencia de los factores

rotados.

En general no hay reglas para seleccionar uno de los métodos anteriores.

Criterios para la significancia de ponderación de factores en las variables

De manera práctica si las ponderacións son de 0.30 se considera que

cumplen el nivel mínimo; ponderacións de 0.40 son importantes; 0.50 o

mayores son significativas en la práctica. Como la ponderación del factor es la

correlación de la variable y el factor, la ponderación al cuadrado es la cantidad

representada de la varianza total por el factor. De esta forma con 0.3 se tiene

Pág. 58

un 10% de explicación y un 0.5 de ponderación denota que un 25% de la

varianza es representada por el factor.

Evaluando la significancia estadística

Con base en un nivel de significancia de 0.05, un nivel de potencia del 80% y

errores estándar asumidos se el doble de los coeficientes de correlación

convencionales, se tiene la tabla siguiente:

Ponderación

del factor

Tamaño de

muestra requerida

para tener

significancia

0.30 350

0.35 300

0.40 250

0.45 200

0.50 150

0.55 100

0.60 85

0.65 70

0.70 60

Resumiendo las guías para la significancia de los factores son:

(1) entre mayor sea el tamaño de muestra, el valor de ponderación

significativo se reduce.

(2) Entre más variables sean consideradas en el análisis, más pequeña es

la ponderación que se considera significativa.

(3) Entre más factores haya, mayor es la ponderación en los factores

adicionales para que sea considerada significativa.

Cada columna de números en la matriz representa un factor por separado. Las

columnas de números representan las ponderacións para cada una de las

variables. Identificar la más alta ponderación para cada variable. Recordar que

Pág. 59

para tamaños de muestra similares a 100 se considera significante 0.3. La

comunalidad para cada variable representa la cantidad de varianza

considerada por la solución factorial para cada variable. Evaluar la comunalidad

de las variables, es decir identificar las que tengan más del 50%, ya que las

que tengan menos no tienen suficiente explicación. El nombre de los factores

se desarrolla de manera intuitiva, con base en las variables con una mayor

ponderación se consideran más importantes y tienen una mayor influencia para

el nombre seleccionado para representar al factor.

Validación del análisis factorial

Se trata de evaluar el grado de generalización de los resultados en la población

y la influencia potencial de casos individuales en los resultados totales.

El alfa de Cronbach es una medida del coeficiente de confiabilidad que evalua

la consistencia de toda la escala. Este índice es la relación positiva del número

de ítems en la escala, donde 0.7 se considera adecuado.

Pág. 60

Ejemplo con datos de HATCO

Prueba de la adecuación del modelo, utilizando Minitab:

1. Stat > Basic statistics > Correlation

2. Variables X1, X2, X3, X4, X6, X7

3. Display p values

Correlations: X1, X2, X3, X4, X6, X7

X1 X2 X3 X4 X6X2 -0.349 0.000

X3 0.476 -0.472 0.000 0.000

X4 0.050 0.272 -0.095 0.618 0.006 0.347

X6 0.077 0.186 -0.015 0.788 0.446 0.064 0.880 0.000

X7 -0.483 0.470 -0.407 0.200 0.177 0.000 0.000 0.000 0.046 0.078

Cell Contents: Pearson correlation P-Value

De la matriz, 7 de 15 correlaciones son significativas estadísticamente. El valor

de MSA de 0.665 cumple con con el criterio para aplicar el análisis factorial.

Análisis factorial con Minitab:

1 Cargar los datos de HATCO.

2 Stat > Multivariate > Factor Analysis.

3 En Variables, X1, X2, X3, X4, X6, X7

4 En Number of factors to extract, 2.

5 En Method of Extraction, seleccionar Principal components

6 En Type of Rotation, seleccionar Varimax.

7 Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.

Pág. 61

8 Click Results y seleccionar Sort loadings. Click OK en cada uno de los cuadros de diálogo.

Factor Analysis: X1, X2, X3, X4, X6, X7

Principal Component Factor Analysis of the Correlation Matrix

Unrotated Factor Loadings and Communalities

Variable Factor1 Factor2 CommunalityX1 0.618 -0.517 0.649X2 -0.763 0.079 0.588X3 0.695 -0.357 0.610X4 -0.502 -0.793 0.881X6 -0.434 -0.827 0.873X7 -0.761 0.170 0.609

Variance 2.4664 1.7425 4.2089% Var 0.411 0.290 0.701

El primer factor contiene la mayor parte de la varianza y es un factor general

con alta ponderación en cada variable. Las ponderacións para el segundo

factor muestra tres variables que también tiene alta ponderación (X1, X4 y X6).

La interpretación es sumamente difícil y sin significado, por lo que se debe

considerar la rotación de factores como sigue:

Rotated Factor Loadings and CommunalitiesVarimax Rotation

Variable Factor1 Factor2 CommunalityX1 -0.783 0.188 0.649X2 0.718 0.268 0.588X3 -0.781 0.010 0.610X4 0.097 0.934 0.881X6 0.020 0.934 0.873X7 0.758 0.186 0.609

Variance 2.3231 1.8858 4.2089% Var 0.387 0.314 0.701

Las variables X1, X2 y X3 ponderaciónn significativamente al factor 1 y las

variables X4 y X6 ponderaciónn significativamente al factor 2.

Si se considera como punto de corte las ponderacións con 0.55 o más, el

factor 1 tiene cuatro ponderacións significativas y el factor 2 tiene 2. Para el

factor 1, se ven dos grupos de variables. Las primeras son el nivel de precios

Pág. 62

(X2) y la calidad del producto (X7) ambas con signos positivos y varían como

conjunto. Las otras dos, tiempo de entrega (X1) y flexibilidad de precios (X3)

tienen signos negativos también varían como conjunto.

En el factor 1, ambos grupos varían en sentido contrario, tal vez este factor sea

el valor básico y representa un compromiso entre percepciones de precio o

calidad del producto y percepciones de tiempo de entrega y flexibilidad de

precios.

En el factor 2, la variable X4 (imagen de fabricación) y X6 (imagen de la fuerza

de ventas) tal vez se pueda agrupar en imagen, ambas variables tienen el

mismo signo, actuando en la misma dirección.

La variable X5 (servicio en general) no se incluyó en al análisis.

Se tienen ahora dos factores como combinación lineal de las variables para

efectos de realización de estudios:

Factor Score Coefficients

Variable Factor1 Factor2X1 -0.356 0.154X2 0.297 0.097X3 -0.343 0.058X4 -0.020 0.498X6 -0.054 0.503X7 0.320 0.050

Para verificar la validez del modelo se pueden hacer dos grupos de 50

observaciones y comparar sus matrices rotadas.

Data 1 – 50: Rotated Factor Loadings and CommunalitiesVarimax Rotation

Variable Factor1 Factor2 CommunalityX1_1 -0.827 0.085 0.691X2_1 0.603 0.376 0.506X3_1 -0.686 -0.177 0.502X4_1 0.156 0.919 0.869

Pág. 63

X6_1 0.136 0.924 0.871X7_1 0.702 0.201 0.533

Variance 2.0548 1.9178 3.9726% Var 0.342 0.320 0.662

Data 51 – 100: Rotated Factor Loadings and CommunalitiesVarimax Rotation

Variable Factor1 Factor2 CommunalityX1_2 0.741 -0.313 0.647X2_2 -0.785 -0.190 0.652X3_2 0.815 -0.154 0.688X4_2 -0.041 -0.949 0.903X6_2 0.052 -0.923 0.854X7_2 -0.824 -0.154 0.703

Variance 2.5127 1.9338 4.4466% Var 0.419 0.322 0.741

Como se ve las dos rotaciones VARIMAX son comparables en términos de

ponderacións y comunalidades para las seis percepciones. Así se puede

asegurar que los resultados son estables dentro de la muestra.

De la gráfica Scree Plot con los Eigenvalores de los factores se tiene:

Factor Number

Eigenvalu

654321

Scree Plot of X1, ..., X7

Sólo dos factores serán mantenidos si se toma como referencia el Eigenvalor

de 1 o tres si se toma como referencia el criterio Scree.

La gráfica de ponderacións por variables se muestra a continuación,

identificando tres grupos de variables:

Pág. 64

First Factor

0.50.0-0.5-1.0

Loading Plot of X1, ..., X7

En resumen se identifican dos dimensiones Valor básico e Imagen, ahora se

pueden hacer planes alrededor de estas dos dimensiones en lugar de

considerar todas las variables separadas.

Ejemplo con datos del archivo EXH_MVAR

Se registran las siguientes características de 14 regiones censadas: población total (Pop), promedio de escolaridad (School), empleo total (Employ), empleo en servcios de salud (Health), y valor promedio de casa (Home). Se desea investigar que “factores” podrían explicar la mayor parte de la variabilidad. Como primer paso del análisis factorial, se usa el método de extracción de componentes principales y se examina la gráfica de eigenvalores (Scree) para apoyarnos en decidir sobre el número de factores.

Pop School Employ Health5.935 14.2 2.265 2.271.523 13.1 0.597 0.752.599 12.7 1.237 1.114.009 15.2 1.649 0.814.687 14.7 2.312 2.58.044 15.6 3.641 4.512.766 13.3 1.244 1.036.538 17 2.618 2.396.451 12.9 3.147 5.523.314 12.2 1.606 2.183.777 13 2.119 2.831.53 13.8 0.798 0.84

2.768 13.6 1.336 1.756.585 14.9 2.763 1.91

Pág. 65

3 En Variables, poner Pop-Home.

4 Click Graphs y seleccionar Scree plot. Click OK in each dialog box.

Factor Analysis: Pop, School, Employ, Health, Home

Principal Component Factor Analysis of the Correlation Matrix

Variable Factor1 Factor2 Factor3 Factor4 Factor5 CommunalityPop -0.972 -0.149 0.006 0.170 -0.067 1.000School -0.545 -0.715 -0.415 -0.140 0.001 1.000Employ -0.989 -0.005 0.089 0.083 0.085 1.000Health -0.847 0.352 0.344 -0.200 -0.022 1.000Home 0.303 -0.797 0.523 0.005 0.002 1.000

Variance 3.0289 1.2911 0.5725 0.0954 0.0121 5.0000% Var 0.606 0.258 0.114 0.019 0.002 1.000

Variable Factor1 Factor2 Factor3 Factor4 Factor5Pop -0.321 -0.116 0.011 1.782 -5.511School -0.180 -0.553 -0.726 -1.466 0.060Employ -0.327 -0.004 0.155 0.868 6.988Health -0.280 0.272 0.601 -2.098 -1.829Home 0.100 -0.617 0.914 0.049 0.129

Factor Number

Eigenvalu

Scree Plot of Pop, ..., Home

Interpretación de resultados

Pág. 66

Cinco factores describen estos datos perfectamente, pero la meta es reducir el

número de factores requeridos para explicar la variabilidad de los datos. La

proporción de la variabilidad explicada por los dos últimos factores es mínima

(0.019 y 0.002 respectivamente) y pueden ser eliminadas sin afectar al

resultado. Los primeros dos factores juntos representan 86% de la variabilidad

mientras que tres factores representan 98% de la variabilidad. La cuestión es si

usar dos o tres factores, se requieren otras corridas para decidir si usar dos o

tres factores.

Se seleccionan dos factores como el número que representa los datos del

censo en base al análisis de componentes principales. Se realiza una

extracción de máxima verisimilitud y rotación varimax para interpretar los

factores.

3 En Variables, Pop-Home.

4 En Number of factors to extract, 2.

5 En Method of Extraction, seleccionar Maximum likelihood.

6 En Type of Rotation, seleccionar Varimax.

7 Click Graphs y seleccionar Loading plot for first 2 factors.

8 Click Results y seleccionar Sort loadings. Click OK en cada uno de los

cuadros de diálogo.

Factor Analysis: Pop, School, Employ, Health, Home

Maximum Likelihood Factor Analysis of the Correlation Matrix

* NOTE * Heywood case

Variable Factor1 Factor2 CommunalityPop 0.971 0.160 0.968School 0.494 0.833 0.938

Pág. 67

Employ 1.000 0.000 1.000Health 0.848 -0.395 0.875Home -0.249 0.375 0.202

Variance 2.9678 1.0159 3.9837% Var 0.594 0.203 0.797

Rotated Factor Loadings and CommunalitiesVarimax Rotation

Variable Factor1 Factor2 CommunalityPop 0.718 0.673 0.968School -0.052 0.967 0.938Employ 0.831 0.556 1.000Health 0.924 0.143 0.875Home -0.415 0.173 0.202

Variance 2.2354 1.7483 3.9837% Var 0.447 0.350 0.797

Sorted Rotated Factor Loadings and Communalities

Variable Factor1 Factor2 CommunalityHealth 0.924 0.143 0.875Employ 0.831 0.556 1.000Pop 0.718 0.673 0.968Home -0.415 0.173 0.202School -0.052 0.967 0.938

Variance 2.2354 1.7483 3.9837% Var 0.447 0.350 0.797

Variable Factor1 Factor2Pop -0.165 0.246School -0.528 0.789Employ 1.150 0.080Health 0.116 -0.173Home -0.018 0.027

First Factor

1.000.750.500.250.00-0.25-0.50

HomeHealth

Employ

School

Loading Plot of Pop, ..., Home

Pág. 68

Estos resultados indican un caso Heywood (las varianzas menores al límite de

convergencia especificado se ponen a cero y sus comunalidades a 1).

Se tienen tres tablas de ponderaciones y comunalidades: no rotadas, rotadas,

ordenadas y rotadas. Los factores no rotados explican el 79.7 de la variabilidad

de los datos y los valores de comunalidad indican que todas las variables sin

Home están bien representadas por esos dos factores (comunalidad son 0.202

para Home, 0.875 – 1.0 para otras variables). El porcentaje de la variabilidad

total representada por los factores no cambia con la rotación, sino después de

rotar, pero después de rotar, estos factores son mas claramente balanceados

en el porcentaje de variabilidad que ellos representan, siendo 44.7% y 35%,

respectivamente.

El ordenamiento es realizado por la ponderación máxima absoluta para

cualquier factor. Las variables que tienen la mayor ponderación absoluta en el

factor 1 se muestran primero en orden. Después las variables con la

ponderación mayor en el factor 2 y así sucesivamente. El factor 1 tiene su

ponderación mayor positiva en Health (0.924), Employ (0.831) y Pop (0.718), y

-0.415 en Home, mientras que la ponderación en School es baja. El factor 2

tiene una ponderación positiva en School de 0.967 y ponderación de 0.556 y

0.673 en Employ y Pop respectivamente, y una ponderación pequeña en

Health y Home.

Se pueden ver las ponderaciones rotadas gráficamente en la gráfica de

ponderaciones (load graph). Ahí se muestra para factor 1 con ponderaciones

altas en Pop, Emply, y Health y ponderación negativa en Home. School tiene

una ponderación alta positiva para el factor 2 y algo menor para Pop y Employ.

De los resultados se puede pensar en que el factor 1 sea un factor relacionado

con “Cuidado de la salud – tamaño de la población”. El factor 2 puede ser

considerado como un factor relacionado con “educación – tamaño de la

población”.

En forma adicional Minitab muestra una tabla de coeficientes del factor.

Muestran como se calculan los factores. Minitab calcula los valores

Pág. 69

multiplicando los coeficientes y los datos después de corregirlos centrándolos

al restarle sus medias.

Pág. 70

ANÁLISIS DE REGRESIÓN MÚLTIPLE

Es una técnica estadítica que se puede usar para analizar la relación entre una

variable dependiente simple (respuesta, criterio) y varias variables

independientes cuyos valores son conocidos para predecir la variable

dependiente. Los pesos denotan la contribución relativa de las variables

independientes a la predicción general y facilitar la interpretación de la

influencia de cada variable en la predicción, lo que se complica si hay

correlación de las variables independientes.

El conjunto de variables independientes con sus pesos forma el Variate de

regresión, ecuación de regresión o modelo de regresión, que es una

combinación lineal de las variables independientes que mejor predicen la

variable dependiente.

Los supuestos de un análisis de regresión múltiple son los siguientes:

Linealidad del fenómeno medido

Varianza constante de los términos de error

Independencia de los términos de error

Normalidad de la distribución de los términos de error.

Pág. 71

Ejemplo:

Familia Tarjetas Tamano Ingreso

1 4 2 14

2 6 2 16

3 6 4 14

4 7 4 17

5 8 5 18

6 7 5 21

7 8 6 17

8 10 6 25

Las instrucciones de Minitab para correr el ejemplo son:

1 Cargar datos en Minitab.

2 Stat > Regression > Regression.

3 En Response, seleccionar Tarjetas.

4 En Predictors, seleccionar Tamano e Ingreso.

5 Click Graphs.

6 En Residuals for Plots, seleccionar Standardized.

7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.

8 Click Options. en Display, seleccionar PRESS y predicted R-square. Click OK en cada uno de los cuadros de diálogo.

Pág. 72

Standardized Residual

3210-1-2-3

605040

Normal Probability Plot of the Residuals(response is Tarjetas)

Regression Analysis: Tarjetas versus Tamano, Ingreso

The regression equation isTarjetas = 0.48 + 0.632 Tamano + 0.216 Ingreso

Predictor Coef SE Coef T PConstant 0.482 1.461 0.33 0.755Tamano 0.6322 0.2523 2.51 0.054Ingreso 0.2158 0.1080 2.00 0.102

S = 0.780990 R-Sq = 86.1% R-Sq(adj) = 80.6%

PRESS = 8.02177 R-Sq(pred) = 63.54%

Analysis of Variance

Source DF SS MS F PRegression 2 18.9503 9.4751 15.53 0.007Residual Error 5 3.0497 0.6099Total 7 22.0000

Source DF Seq SSTamano 1 16.5143Ingreso 1 2.4360

Interpretación de resultados

Salida de sesión

El valor P en la tabla de ANOVA (0.000) muestra que el modelo estmado

por el procedimiento de regresión es significativo a un alfa de 0.05,

indicando que al menos un coeficiente es diferente de cero.

Pág. 73

Los valores P de los coeficientes estimados para tamano es de 0.054

indicando que es significativo a un nivel alfa de 0.054. Sugiriendo que el

modelo de regresión simple es adecuado.

El valor de R cuadrado indica que los predoctores explican el 87.4% de

la varianza en Tarjetas. La R cuadrada ajustada es 85.9%, que

representa la contribución del número de predictores en el modelo.

Ambos valores indican que el ajuste es adecuado.

El valor pronosticdo R cuadrado es 78.96%, dado que es parecido a R

cuadrado y r cuadrado ajustado, el modelo no parece estar

sobreajustado y tiene una buena habilidad de predicción

Las observaciones 4 y 22 se identifican como no usuales dado que el

valor estandarizado de los residuos es mayor a 2. Indicando puntos

aberantes o outliers.

Salida gráfica

El histograma de los residuos muestra un patrón consistente con la

distribución normal. El histograma es más efectivo para grupos de más

de 50 observaciones. La gráfica de probabilidad normal es más fácil de

interpretar con pequeñas muestras.

En la gráfica normal también sobresalen los outliers 4 y 22.

La gráfica de residuos contra valores de predicción muestra que los

residuos son más pequeños conforme conforme los valores ajustados se

incrementan, indicando que no tienen varianza constante.

Pág. 74

Ejemplo con datos de Hatco

Hacer un estudio de correlación entre las variables independientes:

2 Stat > Basic statistics > Correlation

3 Variables X1 – X7 X9 indicar Show P value

Los resultados son los siguientes:

Correlations: X1, X2, X3, X4, X5, X6, X7, X9

X1 X2 X3 X4 X5 X6 X7X2 -0.349 0.000

X3 0.476 -0.472 0.000 0.000

X4 0.050 0.272 -0.095 0.618 0.006 0.347

X5 0.612 0.513 0.064 0.299 0.000 0.000 0.524 0.003

X6 0.077 0.186 -0.015 0.788 0.241 0.446 0.064 0.880 0.000 0.016

X7 -0.483 0.470 -0.407 0.200 -0.055 0.177 0.000 0.000 0.000 0.046 0.586 0.078

X9 0.676 0.083 0.556 0.225 0.701 0.257 -0.192 0.000 0.412 0.000 0.024 0.000 0.010 0.055

Cell Contents: Pearson correlation P-Value

La variable X5 (servicio en general) está más correlacionado con la respuesta

X9 con r = 0.701. X1 también está correlacionada con la respuesta sin embargo

tiene correlación con X5 por lo que el uso de ambas es cuestionable.

Las instrucciones de Minitab para correr el ejemplo son:

2 Stat > Regression > Regression.

Pág. 75

3 En Response, seleccionar X9 (utilización del producto).

4 En Predictors, seleccionar X1 – X7.

5 Click Graphs.

6 En Residuals for Plots, seleccionar Standardized.

7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.

Regression Analysis: X9 versus X1, X2, X3, X4, X5, X6, X7

The regression equation isX9 = - 9.25 + 1.96 X1 + 1.28 X2 + 3.27 X3 - 0.004 X4 + 4.60 X5 + 1.23 X6 + 0.426 X7

Predictor Coef SE Coef T PConstant -9.255 4.949 -1.87 0.065X1 1.956 2.045 0.96 0.341X2 1.280 2.155 0.59 0.554X3 3.2702 0.4059 8.06 0.000X4 -0.0039 0.6714 -0.01 0.995X5 4.600 4.012 1.15 0.255X6 1.2305 0.9537 1.29 0.200X7 0.4261 0.3557 1.20 0.234

S = 4.45075 R-Sq = 77.2% R-Sq(adj) = 75.5%

PRESS = 2144.13 R-Sq(pred) = 73.20%

Analysis of Variance

Source DF SS MS F PRegression 7 6177.81 882.54 44.55 0.000Residual Error 92 1822.44 19.81Total 99 8000.26

Source DF Seq SSX1 1 3659.76X2 1 927.88X3 1 1424.10X4 1 80.48X5 1 18.20X6 1 38.97X7 1 28.43

Unusual Observations

Obs X1 X9 Fit SE Fit Residual St Resid 7 4.60 46.000 58.734 1.379 -12.734 -3.01R 11 2.40 32.000 41.365 1.014 -9.365 -2.16R 14 3.70 38.000 47.833 1.098 -9.833 -2.28R 22 3.40 35.000 34.870 2.711 0.130 0.04 X 55 3.80 39.000 33.433 2.712 5.567 1.58 X100 2.50 33.000 43.721 1.049 -10.721 -2.48R

R denotes an observation with a large standardized residual.X denotes an observation whose X value gives it large influence.

Pág. 76

Normplot of Residuals for X9

Standardized Residual

3210-1-2-3

80706050403020

Normal Probability Plot of the Residuals(response is X9)

Fitted Value

ized R

6050403020

Residuals Versus the Fitted Values(response is X9)

Pág. 77

analisis multivariado

Documents

anÁlisis multivariado introducciÓn

solucionario multivariado

calculo multivariado (presencial)

propedeutica calculo multivariado

anÁlisis multivariado de caracteres craneomÉtricos …

análisis de datos multivariado - cap 4 - hair

parcial 2 caculo multivariado junio 2002

analisis multivariado de la variacion morfologica de...

multivariado matlab

analisis multivariado computacional

ejemplo de analisis multivariado con r

cálculo multivariado

análisis de la variación intraespecífica análisis...

9 analisis multivariado aplicando...

marketing y análisis multivariado

huracán patricia: análisis multivariado temporal de

analisis multivariado

calculo multivariado

v. análisis multivariado y modelo econométrico de la...

27 - análisis multivariado