tema 2 - introducci´on tema 1. an´alisis de datos...

39
1 Tema 2 - Introducci´ on Tema 1. An´ alisis de datos univariantes Representaciones y gr´ aficos. Resumen num´ erico. Transformaci´ on de variables. Tema 2. An´ alisis de datos bivariantes Representaciones y gr´ aficos. Resumen num´ erico. Relaciones entre variables. Introducci´ on a la Estad´ ıstica Andr´ es M. Alonso

Upload: others

Post on 20-Feb-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

1

Tema 2 - Introduccion

Tema 1. Analisis de datos univariantesRepresentaciones y graficos.Resumen numerico.Transformacion de variables.

Tema 2. Analisis de datos bivariantesRepresentaciones y graficos.Resumen numerico.• Relaciones entre variables.

Introduccion a la Estadıstica Andres M. Alonso

Page 2: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

2

Tema 2 Analisis de datos bivariantes

Los contenidos a desarrollar en este tema son los siguientes:

Distribucion de frecuencias de dosvariables.

Distribuciones conjuntas, marginalesy condicionadas.

Media condicionada para variablesdiscretas.

Histograma tridimensional.

Diagrama de dispersion.

Diagramas de caja para lacomparacion de sub-poblaciones.

Frequency Table for INPROD by GRUPOEMPR Row GE GOTROS GUE NO Total ----------------------------------------------------- No | 57 | 2 | 3 | 48 | 110 | 45.24% | 1.59% | 2.38% | 38.10% | 87.30% ----------------------------------------------------- Si | 9 | 0 | 0 | 7 | 16 | 7.14% | 0.00% | 0.00% | 5.56% | 12.70% ----------------------------------------------------- Column 66 2 3 55 126 Total 52.38% 1.59% 2.38% 43.65% 100.00%

log10(INNOVA)

log10(VENTAS)

GE

GOTROS

GUE

NO

Box-and-Whisker Plot

3 4 5 6 7 8

log10(INNOVA)

GR

UP

OE

MP

R

INPROD

frequency

Barchart for INPROD by FACE1

FACE1AltaMediaBajaNo relevante

0

1

2

3

4

5

6(X 1000)

1 2

Lecturas recomendadas: Capıtulos 7 y 10 del libro de Pena y Romo (1997).

Introduccion a la Estadıstica Andres M. Alonso

Page 3: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

3

Conjuntos de datos reales

HOGARES: 18 variables medidas en 75 hogares o unidades de gastos mediantela Encuesta de Presupuestos Familiares realizada por el I.N.E. en 1974–1975.

Disponible como material adicional al libro de Pena y Romo (1997).

Variable Descripcion Variable Descripcion

TMUN Tamano del municipio ITOTAL Suma de ingresos

CAPITAS Numero de personas AHRR Ahorro

L14 Numero de menores de 14 anos GTINE Gasto total (INE)

SOC Categorıa socioeconomica CAR Gasto en transporte

SITPROF Situacion profesional G1 Gasto en alimentacion, bebidas

y tabaco

EDC Nivel educativo G2 Gasto en vestido y calzado

NPER Numero de perceptores G4 Gasto en menaje

M2V m2 de la vivienda G6 Gasto en comunicaciones

IT Ingreso total (INE) G7 Gasto en esparcimiento y

ensenanza

Introduccion a la Estadıstica Andres M. Alonso

Page 4: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

4

Conjuntos de datos reales

INGRESOS: 6 variables medidas en 224 empresas cuyos ingresos del ultimotrimestre de 1989 fueron publicados en The Wall Street Journal.

Disponible como material adicional al libro de Levin, R.I. y Rubin, D.S. (1997) Estadısticapara Administracion y Economıa, Editorial Prentice Hall, Mexico.

Variable DescripcionEXCHANGE Bolsa de valores donde se negocian las acciones de la

empresaLQ89 Ingresos del ultimo trimestre de 1989LQ88 Ingresos del ultimo trimestre de 1988CHANGE Cambio en los ingresos (LQ89 - LQ88)GRLQ89 Ingresos agrupados del ultimo trimestre de 1989 (el valor

del ingreso se redondea al cuarto de dolar mas cercano)GRLQ89 Ingresos agrupados del ultimo trimestre de 1988

Introduccion a la Estadıstica Andres M. Alonso

Page 5: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

5

Conjuntos de datos reales

INNOVA2000: 150 variables medidas en 11778 empresas espanolas mediantela Encuesta sobre Innovacion Tecnologica realizada por el I.N.E. en el ano2000.

Disponible en http://www.ine.es

Empresas agrupadas en 52 ramas tecnologicas52 conjuntos

diferentes

Otra informaci ón en INEbase

Encuesta sobre Innovación Tecnológica en las EmpresasAño 2000 Formato fichero Tamaño ficheroDiseño de registro y valores v álidos de las variables WORD comprimido ZIP 15 Kb Fichero de microdatos ASCII comprimido ZIP 468 Kb Cuestionario PDF 124 Kb

Aviso Legal

Buscar

Productos y servicios Ficheros de microdatos

Introduccion a la Estadıstica Andres M. Alonso

Page 6: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

6

INNOVA2000: Grupos de variables incluidas en la Encuesta sobre InnovacionTecnologica.

Objetivos de las empresas innovadoras.La estructura del proceso de innovacion.La accion de los poderes publicos en la innovacion industrial.Origen de ideas innovadoras y obstaculos a la innovacion.Productos y efectos de la innovacion.Ventas debidas a los productos en fase de introduccion en el mercado.Informacion descriptiva de los resultados de la innovacion.Difusion de las innovaciones.Cooperacion en I+D.

Patentes. 11 grupos diferentes

Balanza de pagos tecnologicos.

Documentos entregados: (A) Metodologıa de la encuesta; (B) Diseno de registro de la encuesta.

Introduccion a la Estadıstica Andres M. Alonso

Page 7: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

7

Introduccion

En el tema anterior estudiamos metodos graficos y numericos para describiruna variable que podıa ser cualitativa o cuantitativa (discreta o continua).

• Distribucion.• Valores centrales.• Dispersion, asimetrıa, curtosis y concentracion.

Pero esto es solo el principio. Nos interesa describir el comportamientoconjunto de dos o mas variables. Por ejemplo, en los conjuntos de datos

anteriores: HOGARES

• ¿Existe relacion entre la situacion profesional y el nivel educativo?

INGRESOS

• ¿El cambio en los ingresos de la empresa depende del tipo de mercadodonde se negocian sus acciones?

INNOVA2000

• ¿La pertenencia a un grupo empresarial favorece la innovacion?

Introduccion a la Estadıstica Andres M. Alonso

Page 8: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

8

Distribucion de frecuencias de dos variables

Ejemplo 1. Supongamos que queremos estudiar si las empresas quepertenecen a un grupo empresarial son mas proclives a invertir en la innovacionde productos.

Para ello empezamos representando en una tabla de doble entrada, respectoal tipo de grupo empresarial, los valores obtenidos en la Encuesta de InnovacionTecnologica a la pregunta:

Durante el periodo 1998-2000, ¿ha introducido su empresa en el mercadoproductos (bienes o servicios) nuevos o sensiblemente mejorados?

Frequency Table for INPROD by GRUPOEMPR Row GE GOTROS GUE NO Total -----------------------------------------------------No | 1367 | 170 | 431 | 7039 | 9007 -----------------------------------------------------Si | 653 | 144 | 349 | 1625 | 2771 -----------------------------------------------------Column 2020 314 780 8664 11778

Introduccion a la Estadıstica Andres M. Alonso

Page 9: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

9

Distribucion conjunta

En caso que queramos comparar estas tablas con otras tomadas en encuestasprevias o en otros paıses; o queramos comparar entre ramas tecnologicas esnecesario utilizar las frecuencias relativas, fij = nij/n.

Ejemplo 2. Supongamos que en el ejemplo anterior queremos comparar sihay diferencias entre las ramas “MAQUINAS DE OFICINA Y EQUIPOSINFORMATICOS” y “SOFTWARE” en cuanto a:

Innovacion de productos o servicios en 1998–2000.

Pertenencia al grupo empresarial.

Ambas variables conjuntamente.

Introduccion a la Estadıstica Andres M. Alonso

Page 10: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

10

Distribucion conjuntaFrequency Table for INPROD by GRUPOEMPRRAMA = MAQUINAS DE OFICINA Y EQUIPOS INFORMÁTICOS Row GE GOTROS GUE NO Total -----------------------------------------------------No | 1 | 3 | 0 | 17 | 21 | 2,63% | 7,89% | 0,00% | 44,74% | 55,26% -----------------------------------------------------Si | 6 | 1 | 1 | 9 | 17 | 15,79% | 2,63% | 2,63% | 23,68% | 44,74% -----------------------------------------------------Column 7 4 1 26 38Total 18,42% 10,53% 2,63% 68,42% 100,00%

Frequency Table for INPROD by GRUPOEMPRRAMA = SOFTWARE Row GE GOTROS GUE NO Total -----------------------------------------------------No | 20 | 4 | 10 | 50 | 84 | 11,76% | 2,35% | 5,88% | 29,41% | 49,41% -----------------------------------------------------Si | 23 | 5 | 15 | 43 | 86 | 13,53% | 2,94% | 8,82% | 25,29% | 50,59% -----------------------------------------------------Column 43 9 25 93 170Total 25,29% 5,29% 14,71% 54,71% 100,00%

Introduccion a la Estadıstica Andres M. Alonso

Page 11: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

11

Ejemplo 3. El Centro de Idiomas Fernando Lazaro Carreter tiene el objetivode fomentar el interes de los alumnos universitarios por los idiomas y coordinar,de un modo efectivo, todas las tareas relativas a su ensenanza.

Se realiza una encuesta para planificar la oferta de cursos de los idiomas:INGLES, ALEMAN, FRANCES, ITALIANO y JAPONES.

A continuacion mostramos los resultados en una muestra de 40 alumnos deAdministracion de Empresas, Economıa, Ingenierıa y Otras titulaciones a losque se le pregunta a cual examen de idioma se presentaran:

(O,ALE) (I,ING) (I,ING) (I,ING) (A,FRA) (A,ING) (I,JAP) (A,FRA)

(E,ING) (I,ING) (A,FRA) (O,ING) (E,ING) (I,ING) (O,ING) (E,ING)

(I,ING) (O,ING) (A,FRA) (I,ING) (E,ITA) (O,JAP) (O,ING) (I,ING)

(I,ING) (I,ING) (I,ING) (A,FRA) (O,ING) (E,ING) (E,ITA) (A,ING)

(I,ING) (I,ITA) (I,JAP) (I,JAP) (I,ING) (A,FRA) (I,ING) (E,ING)

Resumimos estos datos en una tabla de doble entrada.

Introduccion a la Estadıstica Andres M. Alonso

Page 12: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

12

Tabla de doble entrada:

Construimos una tabla mostrando las frecuencias de cada combinacion.

TitulacionA E I O

ING 2 5 14 5FRA 6 0 0 0

Idioma ALE 0 0 0 1ITA 0 2 1 0JAP 0 0 3 1

40

I Es decir que tenemos 5 alumnos en la muestra que cursan Economıa y seexaminaran de Ingles.

I Podemos convertir esta tabla en una tabla de frecuencias relativas, dividiendocada frecuencia por 40.

Introduccion a la Estadıstica Andres M. Alonso

Page 13: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

13

Tabla de frecuencias relativas:

TitulacionA E I O

ING ,050 ,125 ,350 ,125FRA ,150 ,000 ,000 ,000

Idioma ALE ,000 ,000 ,000 ,025ITA ,000 ,050 ,025 ,000JAP ,000 ,000 ,075 ,025

1

I Vemos que un 12,5 % = 540 de los alumnos en la muestra son de Economıa

y se examinaran de ingles.

I Supongamos que solo nos interesan el idioma del que se examinaran losalumnos. Podemos calcular la distribucion marginal de esa variable.

Introduccion a la Estadıstica Andres M. Alonso

Page 14: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

14

Distribucion marginal de idioma:

TitulacionA E I O

ING ,050 ,125 ,350 ,125 ,650FRA ,150 ,000 ,000 ,000 ,150

Idioma ALE ,000 ,000 ,000 ,025 ,025ITA ,000 ,050 ,025 ,000 ,075JAP ,000 ,000 ,075 ,025 ,100

1,000

I Es decir, un 65 % de los alumnos en la muestra se examinaran de ingles, un15 % de frances, 2.5 % aleman, 7.5% italiano y un 10% de japones.

I Igualmente, podemos anadir la distribucion marginal de la titulacion quecursan los alumnos.

Introduccion a la Estadıstica Andres M. Alonso

Page 15: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

15

Distribuciones marginales de idioma y titulacion:

TitulacionA E I O

ING ,050 ,125 ,350 ,125 ,650FRA ,150 ,000 ,000 ,000 ,150

Idioma ALE ,000 ,000 ,000 ,025 ,025ITA ,000 ,050 ,025 ,000 ,075JAP ,000 ,000 ,075 ,025 ,100

,200 ,175 ,450 ,175 1,000

I Es decir que un 20 % de los alumnos en la muestra estudian Administracion,17.5% Economıa, ...

I Si se quisiera impartir cursos de idioma con el perfil de una titulacionconcreta. Entonces, nos interesa la distribucion de idiomas solo para losalumnos de esa titulacion.

Introduccion a la Estadıstica Andres M. Alonso

Page 16: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

16

Distribucion condicionada:

Por ejemplo queremos la frecuencia de los idiomas a examinar por los estudi-antes de ingenierıa.

IngenierıaING 14FRA 0ALE 0ITA 1JAP 3

18

IngenierıaING 14

18FRA 0ALE 0ITA 1

18JAP 3

18

1

I Por ejemplo, 1418 de los alumnos de ingenierıa, en la muestra, se examinaran

de ingles.

Introduccion a la Estadıstica Andres M. Alonso

Page 17: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

17

Calculo a traves de la tabla de frecuencias relativas:

Supongamos que queremos la distribucion de las titulaciones de los alumnosque se examinaran de ingles.

A E I OING ,050 ,125 ,350 ,125 ,650

I Dividimos todas las entradas por la frecuencia total (,650).

A E I OING ,077 ,192 ,538 ,192 1

I Casi un 54 % de los alumnos que se examinaran de ingles provienen deingenierıa.

Introduccion a la Estadıstica Andres M. Alonso

Page 18: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

18

Formulacion General

Supongamos que medimos los valores de dos variables X e Y con k y pdistintas categorıas o valores (c1, . . . , ck e d1, . . . , dp) en una muestra de nindividuos.

La tabla de doble entrada de frecuencias absolutas es la siguiente

Y

X d 1 … d p

c 1 n 1 1 … n 1 p

M M O M c k n k 1 … n k p

Distribución conjunta de X e Y

donde nij es el numero de veces que ocurre la pareja (ci, dj) y n =∑ki=1

∑pj=1 nij.

Introduccion a la Estadıstica Andres M. Alonso

Page 19: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

19

Formulacion General

La tabla de doble entrada de frecuencias relativas es la siguiente

Y

X d 1 … d p

c 1 f 1 1 … f 1 p

M M O M c k f k 1 … f k p

Distribución conjunta de X e Y

donde fij =nij

n es la frecuencia relativa de la pareja (ci, dj).

Introduccion a la Estadıstica Andres M. Alonso

Page 20: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

20

Tablas de frecuencias marginales

Y

X d 1 L d p

c 1 n 1 1 L n 1 p n 1.

M M O M M c k n k 1 L n k p

n k.

n .1 L n .p n

Distribución marginal de X Distribución marginal de X

X

c 1 f 1.

M M c k

f k . 1

X

c 1 n 1.

M M c k

n k. n

I Las frecuencias absolutas marginales son ni• =∑p

j=1 nij.

I Las frecuencias relativas marginales son fi• = ni•n .

¿Formulas para Y ?

Introduccion a la Estadıstica Andres M. Alonso

Page 21: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

21

Tablas de frecuencias condicionadas

Y

X d 1 L d p

c 1 n 1 1 L n 1 p n 1. M M O M M

c k n k 1 L n k p n k. n .1 L n . p n

Distribución condicionada de X dado que Y = dp

X| Y = dp

X

c 1 n 1 p

M M

c k n k p

n . p

Distribución condicionada de X| Y = dp

X

c 1 n 1 p / n . p M M

c k n k p / n . p 1

La distribucion condicionada de X dado Y = dp es

f1|p = f(X = c1|Y = dp) =n1p

n•p, . . . , fk|p = f(X = ck|Y = dp) =

nkp

n•p

¿Formulas para Y |X = x?

Introduccion a la Estadıstica Andres M. Alonso

Page 22: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

22

Variables discretas:

I Con dos variables discretas, de igual modo, se pueden construir las distribu-ciones conjuntas, marginales y condicionadas:

Ejemplo 4. La siguiente tabla proporciona el numero de veces (X) que unamuestra de 50 estudiantes de Economıa han tenido que repetir Introduccion ala Estadıstica y el numero de anos que han tardado en acabar la licenciatura(Y ).

Y4 5 6 7

0 15 5 3 21 4 8 2 1

X 2 0 2 1 33 0 0 0 4

50

Introduccion a la Estadıstica Andres M. Alonso

Page 23: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

23

Frecuencias absolutas (conjuntas y marginales):

Y4 5 6 7

0 15 5 3 2 251 4 8 2 1 15

X 2 0 2 1 3 63 0 0 0 4 4

19 15 6 10 50

Frecuencias relativas (conjuntas y marginales):

Y4 5 6 7

0 ,3 ,1 ,06 ,04 ,51 ,08 ,16 ,04 ,02 ,3

X 2 0 ,04 ,02 ,06 ,123 0 0 0 ,08 ,08

,38 ,3 ,12 ,2 1

Introduccion a la Estadıstica Andres M. Alonso

Page 24: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

24

¿Cual es la distribucion del numero de ano tardado en hacer la licenciatu-ra suponiendo que un estudiante tiene que repetir dos veces la asignaturaIntroduccion a la Estadıstica?

I Queremos calcular fy|2 = f(Y |X = 2).

I Miramos la fila con X = 2 y dividimos las frecuencias por la frecuenciamarginal:

Y 4 5 6 7f(Y |X = 2) 0 ,333 ,166 ,5

I La mitad de los alumnos que han repetido dos veces esa asignatura hantardado 7 anos en acabar la carrera.

Introduccion a la Estadıstica Andres M. Alonso

Page 25: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

25

Si comparamos esta distribucion condicional:

Y 4 5 6 7f(Y |X = 2) 0 ,333 ,166 ,5

con la distribucion marginal de Y :

Y 4 5 6 7f(Y ) ,38 ,3 ,12 ,2

I Vemos que conociendo la informacion de que X = 2, las frecuencias relativasde los distintos valores de Y son muy distintas. Por ejemplo, el 20 % de losalumnos demora 7 anos frente al 50% entre los alumnos que repiten dos veces.

I Este hecho nos proporciona una idea de la dependencia entre X e Y .

Introduccion a la Estadıstica Andres M. Alonso

Page 26: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

26

Media y varianza

Ademas, para variables discretas, es posible hallar la media y varianza. Parahacerlo, usamos la formula para tablas de frecuencias relativas que estudiamosen el tema anterior.

Ejemplo 5. Volvemos al Ejemplo 4.

Tenemos

x = ,5× 0 + ,3× 1 + ,12× 2 + ,08× 3 = ,78

s2x = ,5× 02 + ,3× 12 + ,12× 22 + ,08× 32 − ,782 = 0,8916

sx ≈ 0,9442

y = ,38× 4 + ,3× 5 + ,12× 6 + ,2× 7 = 5,14

s2y = ,38× 42 + ,3× 52 + ,12× 62 + ,2× 72 − 5,142 = 1,2804

sy ≈ 1,1315

Introduccion a la Estadıstica Andres M. Alonso

Page 27: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

27

Media y varianza condicionada

Ejemplo 6. Continuamos con los datos del ejemplo 4.

Tenemos la distribucion condicionada de Y dado X = 2.

Y 4 5 6 7f(Y |X = 2) 0 ,333 ,166 ,5

Podemos calcular la media condicionada de Y dado X = 2 a traves de estatabla:

4× 0 + 5× ,333 + 6× ,166 + 7× ,5 = 6,166

La varianza condicionada es

42 × 0 + 52 × ,333 + 62 × ,166 + 72 × ,5− 6,1662 ≈ ,806

La desviacion tıpica condicionada es√

,806 ≈ 0,898.

Introduccion a la Estadıstica Andres M. Alonso

Page 28: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

28

Tema 2 Analisis de datos bivariantes

Distribucion de frecuencias de dos variables. XDistribuciones conjuntas, marginales y condicionadas. XMedia condicionada para variables discretas. X

Histograma tridimensional.

Diagrama de dispersion.

Diagramas de caja para lacomparacion de sub-poblaciones.

log INNOVAPC by log VENTASPC

log INNOVAPClog VENTASPC

percentage

01020304050

0.75 2.25 3.75 5.25 6.752.25 3.75

5.25 6.75 8.25

log10(INNOVA)

log10(VENTAS)

GE

GOTROS

GUE

NO

Box-and-Whisker Plot

3 4 5 6 7 8

log10(INNOVA)G

RU

PO

EM

PR

INPROD

frequency

Barchart for INPROD by FACE1

FACE1AltaMediaBajaNo relevante

0

1

2

3

4

5

6(X 1000)

1 2

Introduccion a la Estadıstica Andres M. Alonso

Page 29: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

29

Representacion grafica

I Si tenemos dos variables categoricas, podemos usar diagramas de tartas odiagramas de barra comparativos.

Ejemplo 7. Se han preguntado a varios hombres y mujeres trabajadoras surespuesta a la pregunta ¿piensan que el tratamiento de ambos sexos en eltrabajo es igual? La tabla resume las respuestas.

SexoH M

Si 500 100 600Opinion No 200 600 800

No se 300 300 6001000 1000 2000

Introduccion a la Estadıstica Andres M. Alonso

Page 30: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

30

Diagramas de tarta comparativos:

Piechart for Hombres

Opinión

Si

No

No sé

50,00%

20,00%

30,00%

Piechart for Mujeres

Opinión

Si

No

No sé

10,00%

60,00%

30,00%

I Vemos que las proporciones son muy distintas entre hombres y mujeres.

Introduccion a la Estadıstica Andres M. Alonso

Page 31: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

31

Diagramas de barra comparativos:

perc

enta

geBarchart

Hombres

Mujeres

0

5

10

15

20

25

30

Si No No sé

I Vemos que las proporciones son muy distintas entre hombres y mujeres.

Introduccion a la Estadıstica Andres M. Alonso

Page 32: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

32

Multiples diagramas de caja

I Si tenemos una variable categorica y una variable cuantitativa, podemosusar multiples diagramas de caja.

Ejemplo 8. El diagrama muestra la inversion en innovacion por empleado

segun la pertenencia a un grupo empresarial. Archivo innovacion2000.sf3 .

GE

GOTROS

GUE

NO

Box-and-Whisker Plot

0 2 4 6 8

LOG10(INNOVAPC)

GRUP

OEMP

R

Introduccion a la Estadıstica Andres M. Alonso

Page 33: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

33

Histogramas tridimensionales

I Con dos variables cuantitativas (continuas), se pueden construir histogramastridimensionales.

Ejemplo 9. Con los datos de la Encuesta de Innovacion Tecnologica delejemplo 1 se obtiene el siguiente histograma de las variables inversion y ventaspor empleado.

log INNOVAPC by log VENTASPC

log INNOVAPC

log VENTASPC

perc

entag

e

0

10

20

30

40

50

0.75 2.25 3.75 5.25 6.752.25

3.755.25

6.758.25

Introduccion a la Estadıstica Andres M. Alonso

Page 34: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

34

Diagramas de dispersion

I Se representan los valores de dos variables cuantitativas en el plano XY .

0 0.2 0.4 0.6 0.8 11

1.5

2

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

1.2

1.4

0 0.2 0.4 0.6 0.8 1

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

Introduccion a la Estadıstica Andres M. Alonso

Page 35: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

35

Ejemplos de diagramas de dispersion:

Ejemplo 10. En la Encuesta de Presupuestos Familiares realizada por elI.N.E. en 1974–1975, se registraba el ingreso total (ITOTAL) declarado y una

estimacion del ingreso total (IT). Archivo hogares.sf3 .

Plot of ITOTAL vs IT

IT (estimado por el INE)

ITOT

AL

0 2 4 6 8(X 100000)

0

2

4

6

8(X 100000)

Introduccion a la Estadıstica Andres M. Alonso

Page 36: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

36

Ejemplos de diagramas de dispersion:

Ejemplo 10.

Plot of GTINE vs IT

0 2 4 6 8(X 100000)

IT

0

2

4

6

8

10(X 100000)

GTIN

E

I Se observa una relacion positiva entre el ingreso total estimado y el gastototal de los hogares.

Introduccion a la Estadıstica Andres M. Alonso

Page 37: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

37

Ejemplos de diagramas de dispersion:

Ejemplo 10.

I Se observa una relacion positiva (¿lineal?) entre el ingreso total estimado yel gasto en esparcimiento de los hogares.

Introduccion a la Estadıstica Andres M. Alonso

Page 38: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

38

Ejemplos de diagramas de dispersion:

Ejemplo 11. La esperanza de vida al nacer (tanto en hombres como enmujeres) esta relacionada negativamente con la tasa de mortalidad infantil.

Archivo paises.sf3 .

Multiple X-Y Plot

0 30 60 90 120 150 180

MORT INF

38

48

58

68

78

88 Variables

ESP M

ESP H

Introduccion a la Estadıstica Andres M. Alonso

Page 39: Tema 2 - Introducci´on Tema 1. An´alisis de datos univarianteshalweb.uc3m.es/esp/Personal/personas/amalonso/esp/ietema2.pdf · Disponible como material adicional al libro de Levin,

39

Tema 2. Analisis de datos bivariantesRepresentaciones y graficos.Resumen numerico.• Relaciones entre variables.

Extension a dos variablescuantitativas

Tema 3. Correlacion y regresionCovarianza y correlacion.Propiedades y relacion con el diagrama dedispersion.Regresion.

Introduccion a la Estadıstica Andres M. Alonso