12 estadistica 1 con excel v12 (rev 23.04.12)

116
UNIVERSIDAD DE VALPARAÍSO - FACULTAD DE CIENCIAS DEPARTAMENTO DE ESTADÍSTICA ESTADÍSTICA 1 ESTADÍSTICA DESCRIPTIVA PROF. ALBERTO CARO MARTÍN V12 VALPARAÍSO, ABRIL DE 2012

Upload: mario-viveros

Post on 16-Feb-2015

50 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

UNIVERSIDAD DE VALPARAÍSO - FACULTAD DE CIENCIAS

DEPARTAMENTO DE ESTADÍSTICA

ESTADÍSTICA 1 ESTADÍSTICA DESCRIPTIVA

PROF. ALBERTO CARO MARTÍN

V12

VALPARAÍSO, ABRIL DE 2012

Page 2: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

PRESENTACIÓN

El material que se presenta a continuación corresponde a los contenidos de Estadística Descriptiva. En esta versión se ha incorporado el empleo de Excel para la presentación de los temas, con la intención que los estudiantes puedan emplear esta herramienta en su trabajo académico y no sólo en la asignatura de Estadística. También se presentan ejemplos de aplicación de las estadísticas básicas en temas asociados a Evaluación y Medición, por medio de ejemplos de análisis descriptivo de notas de alumnos, confiabilidad y estandarización. Además, se agregaron más gráficos para apoyar la interpretación de los resultados. Si bien el enfoque central es descriptivo, en la medida que es posible, se incorpora el análisis inferencial empleando gráficos y tablas apropiadas. La finalidad de estos temas es incorporar el lenguaje inferencial y permitir que el alumno vislumbre la potencialidad des esta forma de análisis, que se estudia en profundidad, más adelante. Se espera ir complementando los ejercicios y agregando las soluciones de los mismos, para que sirvan de guía a los estudiantes que intentan su solución. Valparaíso, abril de 2012.

Page 3: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

INDICE

1. La Estadística 1.1. Definición 1 1.2. Estadística descriptiva e Inferencia 1 1.3. Estadística y Método Científico 1 1.4. Tipos de estudios 2 1.5. Selección de muestras aleatorias 3 2. Organización y Resumen de la Información 2.1. Variables y datos 4 2.2. Tabulación de datos cualitativos o categóricos 6 2.3. Tabulación de datos cuantitativos discretos 7 2.4. Tabulación de datos cuantitativos continuos 9 2.5. Gráficos de frecuencias de datos continuos 11 2.6. Uso de Excel: funciones y Procedimiento Análisis de datos 18 2.7. Uso de Excel para tabular datos 21 2.8. Uso de Excel para graficar datos 24 2.9. Ejercicios 33 3. Estadísticas de Posición 3.1. Tipos de estadísticas de resumen 36 3.2. Media Aritmética 37 3.3. Fractilas 40 3.4. Mediana 40 3.5. Gráfico de "Caja" o "Cajón con Bigotes" 42 3.6. Percentiles y Puntos Centiles 43 3.7. Moda 46 3.8. Centro del Recorrido 47 3.9. Comparación de la Media Aritmética, la Mediana y la Moda 47 3.10 Ubicación de Estadísticas de Posición en Gráficos 48 3.11. Ejercicios 48 4. Estadísticas de Dispersión 4.1. Varianza 50 4.2. Desviación Estándar 52 4.3. Recorrido y Recorrido Intercuartílico 53 4.4. Coeficiente de Variación 53 4.5. Error típico (o de Muestreo) y Error de Estimación 54 4.6. Gráficos 54 4.7. Estadísticas de Resumen con Excel 56 4.8. Ejercicios 58 5. Estadísticas de Simetría y Apuntamiento 5.1. Momentos respecto a la Media. Definición y Cálculo 59 5.2. Características de Distribuciones Simétricas y Asimétricas 60 5.3. Análisis Gráfico de la Simetría 61 5.4. Coeficientes de Simetría 62 5.5. Tablas del Coeficiente de Simetría de Pearson 63 5.6. Estadísticas de Apuntamiento (Curtosis) 63 5.7. Coeficiente de Apuntamiento de Pearson (B2) y Tablas 64 5.8. Observaciones sobre Simetría y Apuntamiento 64

5.9. Coeficientes de Simetría y Apuntamiento con Excel 65 5.10. Ejercicios 66

Page 4: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

5. Uso de las Estadísticas de Resumen 5.1. Ejemplo de Análisis Descriptivo usando Excel 68 5.2 Ejercicio sobre Análisis Descriptivo 76 5.3 Coeficiente de Confiabilidad 77 5.4. Ejercicios sobre Confiabilidad 79 5.5. Estandarización de Variables 80 5.6. Escalas Derivadas 82 5.7. Puntajes Estandarizados y Percentiles 82 5.8. Ejercicios sobre Estandarización 84 6. Correlación 6.1. Datos Bivariantes y Relación de Variables 85 6.2. La asociación entre Variables 85 6.3. Coeficiente de Correlación de Pearson 86 6.4. Propiedades del Coeficiente de Pearson 86 6.5. Cálculo del Coeficiente de Correlación de Pearson 87 6.6. Ejercicios 84 6.7. Significación del Coeficiente de Correlación 89 6.8. Otros Coeficientes Asociados con el de Pearson 90 6.9. Correlación y Confiabilidad 92 6.10. Ejercicios 93 7. Regresión Lineal 7.1 Relaciones entre Variables 95 7.2 Modelo de Regresión Lineal 96 7.3. Estimación de la Función de Regresión 96 7.4. Uso de Excel para estimar Recta de Regresión (de ajuste) 97 7.5. Uso de datos originales para estimar Recta de Regresión 97 7.6. Estimación de valores con la Recta de Regresión 98 7.7. Gráfico de Regresión usando Excel 99 7.8. Ejercicios 103 8. Tasas e índices 8.1 Definición de Tasa 104 8.2. Definición de índice Simple (de base fija) 105 8.3. Definición de Serie Indexada 105 8.4. Ejercicios 106 9. BIBLIOGRAFÍA 107 APÉNDICES Apéndice 1: Formulario 108

Apéndice 2: Tablas de Coeficientes de Simetría y Apuntamiento 109 Apéndice 3: Tabla de Valores críticos del Coeficiente de Correlación de Pearson 110

Apéndice 4: Valores de la Función de Distribución Normal Estándar 111 Apéndice 5: Valores de la Función de Distribución F 112

Page 5: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 1

1. LA ESTADISTICA 1.1. DEFINICIÓN

La palabra "estadística" se ha asociado a listados de números, gráficos, oficinas recolectoras de información de tipo demográfico (nacimientos, defunciones, etc.). Se afirma que el término deriva de "estado" y esa caracterización recuerda la función del estado como recolectora de información. Hay noticias de recuentos de este tipo desde el 2.000 A.C. en China y desde 1.200 A.C. entre los incas. Sin embargo, en la actualidad la Estadística es una disciplina científica, que se clasifica como una rama de la Matemática Aplicada.

La Estadística tiene como objeto el estudio de los fenómenos aleatorios, esto es, aquellos en que la

ocurrencia de algún evento no puede ser predicho con certeza. Esta ocurre porque las conclusiones: a) Son inciertas pues se basan en datos incompletos (uso de muestras). b) Están afectas a variabilidad, pues se han empleado observaciones repetidas de un suceso, como

ocurre en la investigación cuando se usan sujetos de las mismas o similares características (sexo, edad, peso, estatura, CI etc.) a los cuales se les aplica un test, o se les somete a algún estímulo especial.

Una definición de Estadística indica que es "un cuerpo de conceptos y métodos usados para recolectar

e interpretar datos referentes a un área particular de investigación y extraer conclusiones en situaciones en que la incertidumbre y la variación están presentes". Otra definición escueta indica que es "la ciencia que transforma los datos en información".

Por su objetivo, la Estadística encuentra aplicación en todos los campos en que se realizan mediciones,

esto es, todas las áreas asociadas con la investigación científica o tecnológica como en la Psicología, Biología Marina, Educación, Medicina, Economía, Sociología, Meteorología, Ingeniería, Bibliotecología etc. Además, las aplicaciones estadísticas en ciertas disciplinas han generado áreas nuevas como: Psicometría, Econometría, Biometría, etc.. 1.2. ESTADÍSTICA DESCRIPTIVA E INFERENCIA

Los datos brutos generalmente no permiten obtener conclusiones. Ellos deben procesarse mediante las

técnicas que suministra la ESTADISTICA DESCRIPTIVA para organizarlos y presentarlos en tablas y gráficos y obtener información relevante y resumida mediante algunos valores o "estadísticas" representativos.

Cuando los datos corresponden sólo a una parte (son una "muestra") de un colectivo mayor que

interesa estudiar (o "población") se necesita la INFERENCIA, la cual se apoya en la teoría de las PROBABILIDADES para obtener conclusiones sobre la "población". 1.3. ESTADÍSTICA Y MÉTODO CIENTÍFICO

Se afirma que la Estadística es el soporte del método científico, el cual caracteriza la ciencia y la

tecnología. En el método científico pueden reconocerse diversas etapas. Una simplificación de las mismas y del aporte de la Estadística sería:

a) Planteamiento del problema: Es más responsabilidad del investigador. b) Formulación de hipótesis. Hay aportes en el planteamiento de hipótesis estadìsticas c) Obtención de la información: La Estadística suministra métodos apropiados. c) Análisis de los datos: Es responsabilidad de la Estadística. d) Obtención de conclusiones: Hay aportes tanto de la Estadística como del investigador.

Page 6: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 2

ÁREAS DE LA ESTADÍSTICA

Datos

ORGANIZACIÓN Y RESUMEN (Estadística Descriptiva)

- Tablas - Gráficos - Medidas de Resumen

Interpretación

¿Los datos son toda la población

o sólo una muestra de ésta?

POBLACIÓN Conclusiones referentes a los

Parámetros Poblacionales µ : Media Poblacional σ : Desv. Estándar Poblacional

2σ : Varianza Poblacional

Censo

MUESTRA -Probabilidades -Inferencia Estimadores muestrales

X : Media muestral S: Desv. Estándar S2: Varianza muestral

Muestreo

1.4. TIPOS DE ESTUDIOS Existen diferentes formas de clasificar los estudios científicos, los que requieren diversos métodos para el análisis de la información que generan. Entre ellos se encuentran los siguientes:

a) Estudio Descriptivo. Es aquel cuyos datos provienen de toda una población de interés (censo) y su objetivos es el describir el conjunto. Ej. Censo de Población; Gasto semanal en transporte (tercera semana de marzo) de los alumnos del curso de Estadística.

b) Estudio Inferencial. Es aquel en que interesa obtener conclusiones sobre una población

empleando una muestra aleatoria de la misma. Las encuestas (políticas, opinión, marketing, audiencias, telefónicas, etc.) corresponden a esta clasificación. Ej. Gasto semanal en transporte (en tercera semana de marzo) de los alumnos de la carrera usando como muestra a los alumnos de asignatura de Estadística.

c) Estudio Transversal. Es aquel que se realiza en un momento específico y que planificadamente no

se pretende replicar (o repetir) en el tiempo. El mencionado antes sobre estudio del gasto semanal en transporte de los alumnos de Estadística o de la carrera.

d) Estudio Longitudinal. Es aquel estudio que se realiza planificadamente en diferentes instantes de

tiempo, generalmente para hacer comparaciones o evaluaciones temporales del fenómeno bajo análisis. Hacer el estudio sobre gasto semanal en transporte durante la tercera semana de marzo, en los 5 años a partir del actual.

Page 7: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 3

1.5. SELECCIÓN DE MUESTRAS ALEATORIAS En los estudios inferenciales o Encuestas es necesario seleccionar muestras aleatorias de la población. Para que una muestra sea aleatoria debe cumplir con algunos requisitos. La forma más simple corresponde al caso en que cada unidad de la población tiene la misma opción de ser seleccionada (muestreo aleatorio simple). Para realizar la selección se debe emplear algún procedimiento que garantice lo anterior, como por ejemplo tómbolas o números aleatorios. La tómbola significa representar todos los elementos de la población (por ejemplo con números o nombres escritos en papelitos) los que se mezclan y de los cuales se extraen algunos que serán los elementos que integraran la muestra. Esto es útil con poblaciones pequeñas. Si la población es grande es preferible el empleo de números aleatorios, los que consisten en listados de números que no se repiten cíclicamente o no siguen algún patrón. Se pueden obtener en Tablas o se pueden generar con la calculadora, con la tecla “RAN#” Al pulsar la tecla “RAN#” de la calculadora, la pantalla presenta números de tres dígitos decimales como los siguientes: 0,023 0,245 0,123 0,637 0,456 0,079 0,237 0,562 etc. Para el empleo, se consideran los dígitos de la parte decimal, decidiéndose por el empleo de uno, dos o tres (o más) según el tamaño de la población. Si la población tiene 10 elementos se emplea 1 dígito aleatorio. Si la población tiene 100 elementos se emplearán dos dígitos aleatorios. SI la población tiene 1.000 elementos se emplearan tres dígitos aleatorios, etc. Ejemplo: Del listado siguiente se desea seleccionar una muestra aleatoria de tres integrantes

1. Juan 2. Teresa 3. María 4. Tito 5. Antonio 6. Araceli 7. Carla

8. Martina 9. Enrique 10. Manuel 11. Edgardo 12. César 13. Elisa

Si se decide emplear los dos primeros dígitos de los números aleatorios anteriores, entonces los números que se emplearan son:

02 Elige a persona Nº2: Teresa 24 No sirve 12 Elige a persona Nº12: César 63 No sirve 45 No sirve 07 Elige a persona Nº7: Carla 23 No sirve 56 No sirve

Por lo tanto, la muestra aleatoria seleccionada estará integrada por Teresa, César y Carla.

Page 8: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 4

2. ORGANIZACIÓN Y RESUMEN DE LA INFORMACIÓN

La organización de los datos comprende la tabulación (obtención de la distribución de frecuencias empírica de los datos) y graficación de los mismos. Algunas finalidades de este proceso son:

a) Evidenciar la variable estudiada e identificar su forma. b) Analizar, controlar y mostrar las capacidades de los procesos de los que derivan sus datos. c) Ayudar a determinar las estadísticas de resumen respectivas. d) Ayudar a especificar la distribución teórica que se puede ajustar a la distribución empírica de los

datos.

Las tabulación facilita la comprensión intuitiva de la forma de una distribución así como del estado de un proceso. Hay que prestar atención a la interpretación de las distribuciones, formulándose preguntas como::

a) ¿Hay algunos huecos (espacios que faltan), o subidas y bajadas repentinas en la distribución? b) ¿Hay algunos puntos aislados fuera del cuerpo principal de la distribución? c) ¿Son aceptables los valores máximo y mínimo de la distribución? d) ¿La distribución se aprecia simétrica o no? e) ¿La distribución es muy chata o muy apuntada? f) ¿Está el promedio de la distribución en una posición adecuada? g) ¿Cómo es la dispersión de la distribución respecto al promedio?

Después de realizar la organización de los datos, se realiza el resumen que tiene dos propósitos: por

una parte, obtener una expresión numérica (estadísticas de resumen) de las características más importantes de una distribución de datos, para facilitar la comparación de esas características entre diversas distribuciones. Por otra parte, posibilitar que se puedan reproducir las características gráficas de una distribución a partir de la interpretación de las estadísticas de resumen calculadas.

Las estadísticas de resumen se pueden clasificar en: de posición, de dispersión, de simetría y de apuntamiento.

Tanto la organización como el resumen de la información se pueden facilitar mediante el empleo del

software estadístico. Excel también permite realizar estas operaciones. En las páginas siguientes se describe el empleo de Excel con ese objetivo. 2.1. VARIABLES Y DATOS

Una variable estadística es cualquier característica o atributo que es deseable conocer acerca de las

unidades de análisis (u.a.) y que se espera que varíe de una unidad de análisis a otra. Un dato estadístico es la medición, observación o conteo de una variable estadística sobre la unidad

de análisis. Las variables pueden clasificarse según diversos criterios.

2.1.1. Según la Naturaleza VARIABLE CUALITATIVA o CATEGÓRICA: Se expresan como características de las unidades de

análisis. Se subdividen en: a) Variables nominales: Es aquella cuyos valores posibles definen categorías o clases excluyentes. Ej.: Sexo, carrera a la que pertenece un estudiante de la universidad b) Variables ordinales: Las categorías pueden ordenarse respecto a algún criterio. Ej.: respuesta a una pregunta de un cuestionario con alternativas de acuerdo, indiferente, en desacuerdo. Jerarquías administrativas (Gerente, Director, empleado), militares, religiosas.

VARIABLE CUANTITATIVA o NUMËRICA: Es aquella cuyos valores posibles se expresan por

números. Se clasifican en: a) Variable discreta: Es aquella cuyos valores posibles son un conjunto finito o infinito numerable. Ej.: número de hermanos, número de respuestas correctas en un test, número de zapato.

Page 9: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 5

b) Variable continua: Es aquella que puede tomar todos los valores en un intervalo de números reales. Ej.: peso de estudiantes, tiempo empleado en realizar una prueba.

2.1.2. Según Escala de Medición

ESCALA DE ATRIBUTOS: se expresan como características de las unidades de análisis. Se subdividen

en nominales y ordinales, y corresponden a las mismas clasificaciones de las variables cualitativas o categóricas antes mencionadas.

ESCALA DE VARIABLES: Se expresan en forma numérica. Se subdividen en: a) Escala de intervalos: Son variables que tienen un cero relativo. permiten comparaciones válidas por diferencias. Ej. Temperatura, inteligencia, liderazgo. b) Escala de razón: Son variables que tiene un cero absoluto. permiten comparaciones válidas también por cuociente. Ej. número de hermanos, peso, estatura, ingresos.

2.1.3. Según el Orden de Ocurrencia Según interese o no el orden en que ocurren y se registran las observaciones, se distinguen: SERIES TEMPORALES: Interesa el orden en que se registran los valores de la variable (ej. Asistencia

a clases y fecha; Producción nacional de cobre y año) SERIES ATEMPORALES: No interesa el orden de ocurrencia de los valores de la variable (ej. Peso de

los alumnos del curso, estatura de los alumnos, número de hermanos de los alumnos del curso, etc.).

2.1.4. Según el Número de Variables A su vez, los datos pueden clasificarse según el número de variables de interés que se

consideran en las unidades de análisis o de observación: UNIVARIANTES: Interesa una sola variable. Ej.: peso, estatura, sexo, puntaje en la PAA de los

alumnos universitarios, región de la que provienen los mismos. BIVARIANTES: Interesan dos variables. Ej.: peso y estatura de estudiantes, sexo y puntaje

PAA, promedio notas E. Media y puntaje PAA. Otros ejemplos: producción de cobre en Chile y año, total importaciones del país y año, IPC y mes).

MULTIVARIANTES: Interesan más de dos variables. Ej.: peso, estatura y sexo de estudiantes;

puntaje en PAA, promedio notas de E. Media, tipo de establecimiento de egreso y sexo. 2.1.5. Ejercicios 1. Señale ejemplos de valores y clasifique las siguientes variables según Naturaleza y según Nivel de

Medición. Se indica la población asociada como referencia:

a. Personas: Profesión o actividad que desarrolla b. Estudiantes universitarios: Región en que reside habitualmente c. Administrativos: Número de cursos de capacitación realizados en los últimos 5 años d. Estudiantes universitarios: Nivel de interés en los estudios e. Administrativos. Tiempo que se demora la atención de un trámite f. Dueñas de casa: Marca de detergente para lavar ropa preferido g. Dueñas de casa: Opinión sobre calidad del detergente marca XXX h. Alcaldes y concejales: Nivel de liderazgo medido por un test i. Valparaíso: Temperatura diaria máxima registrada en los últimos 3 años j. Valparaíso: Tonelaje anual movilizado por el puerto en los últimos 10 años k. Valparaíso: Número de patentes de automóviles vendidas en los últimos 10 años l. Estudiantes universitarios: Gasto semanal en transportarse a la universidad m. Estudiantes universitarios varones: Número de camisa

Page 10: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 6

2. Clasifique las variables anteriores según orden de ocurrencia, atendiendo a la forma en que se obtuvieron

sus datos. 3. Empleando las variables anteriores, u otras, señale ejemplos de datos bivariantes y multivariantes. 4. Señale ejemplos, relacionados con su especialidad, de variables nominales, ordinales, discretas y

continuas; de escala de intervalos y de razón; de series temporales y atemporales. 5. Para obtener los datos asociados con las variables del ejercicio 1, indique el tipo de estudio que seria

necesario realizar considerando las clasificaciones excluyentes: Descriptivo o Inferencial y Transversal o Longitudinal.

2.2. TABULACIÓN DE DATOS CUALITATIVOS O CATEGÓRICOS

La tabulación de estos datos consiste en determinar el número de veces que se repite cada categoría (frecuencias absolutas). El peso de cada categoría se expresado como porcentaje del total de datos. Los gráficos apropiados para representar las frecuencias son los de barra, sectores circulares. Ejemplo En una investigación, a un grupo de 20 alumnos universitarios se les solicita que señalen su grado de acuerdo con la aseveración “Me gusta la carrera que estoy estudiando” en que las respuestas son MA (Muy de acuerdo); A (De acuerdo); I (Indiferente); D (En desacuerdo); MD (Muy en desacuerdo). Los resultados son:

A MA D I MA A MD MA MA A MA A I MA A A MA I D MA La tabulación de los datos se presenta a continuación:

ALUMNOS SEGÚN RESPUESTA A PREGUNTA “Me gusta la carrera que estoy estudiando”

RESPUESTAS (Variable)

Nº ALUMNOS Frec. Absoluta (fi)

PORCENTAJE (%)

Muy de Acuerdo 8 40,0 De Acuerdo 6 30,0 Indiferente 3 15,0 En Desacuerdo 2 10,0 Muy en Desacuerdo 1 5,0 TOTAL 20 100,0

Los gráficos de Barras y de Sectores Circulares (o de Torta), elaborados en Excel, se presentan a

continuación:

Gráfico de barras

ALUMNOS SEGÚN RESPUESTAS A "Me gusta la carrera que estoy estudiando"

0 2 4 6 8 10

Muy de Acuer.

De Acuerdo

Indiferente

En Desacuerd.

Muy en Desac.

Alumnos

Gráfico de Sectores Circulares (Torta)

ALUMNOS SEGÚN RESPUESTAS A"Me gusta la carrera que estoy estudiando"

Muy de AcuerdoDe AcuerdoIndiferenteEn DesacuerdoMuy en Desacuerdo

Page 11: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 7

Como interpretación de los resultados anteriores se podría afirmar que los estudiantes, del grupo estudiado, manifiestan agrado con la carrera que están estudiando. Esto puede concluirse al comparar los porcentajes de alumnos que señalan acuerdo con la aseveración (70%) respecto a los que indican desacuerdos (15,0%). Si los Indiferentes, por el hecho de no manifestar desacuerdo explícito, se agregan a los acuerdos se tiene que el 85,0% estaría de acuerdo con la carrera que estudia y sólo el 15,0% manifiesta algún grado de desacuerdo.

Preguntas: a. ¿En qué circunstancias la la investigación del ejemplo sería de tipo descriptivo? b. ¿En qué caso sería inferencial?. c. ¿Según la descripción, corresponde a una investigación transversal o longitudinal?. Justifique.

2.3. TABULACIÓN DE DATOS CUANTITATIVOS DISCRETOS

Sea una variable X entre cuyos "n" valores sólo hay "m" distintos, los que se representan como X1, X2,...,Xm . Los valores diferentes se repiten respectivamente f1, f2,..., fm veces. Las repeticiones fi se denominan "frecuencias absolutas". A partir de éstas se definen las siguientes frecuencias:

"Frecuencia relativa i-ésima" al cuociente hi= fi/n (i= 1, 2,...,m). "Porcentajes i-ésimo" de repeticiones a ci = 100.hi "Frecuencia absoluta acumulada i-ésima" a la suma Fi = f1 + f2 +…+ fi "Frecuencia relativa acumulada i-ésima" a la suma Hi = h1 + h2 +...+hi = Fi /n "Porcentaje acumulado i-ésimo" a Ci = 100.Hi =(100.Fi )/n

Ejemplo.

En una investigación sobre características sociales de los estudiantes universitarios interesaba medir la variable X: "número de hermanos". Con este objeto, se consultó sobre el particular a los 25 alumnos de un curso, obteniéndose las siguientes respuestas:

2 0 1 0 0 1 1 1 4 1 3 2 2 1 1 2 0 3 1 4 2 3 2 6 2 Se observa que m=6 pues sólo hay 6 valores diferentes de la variable, que son: 0; 1; 2; 3; 4 y 6.

Además n=25 (número de observaciones). La tabla de frecuencias es la siguiente:

ALUMNOS SEGÚN NÚMERO DE HERMANOS

NÚMERO HERMANOS

NÚMERO ALUMNOS % NÚMERO

ALUMNOS %

(Variable) Frec. Absol. Porcent. Frec. Absol. Acumulada

Porcent. Acumul.

Frec. Relativa

Frec.Relat. Acumulada

(Xi) (fi) (ci) (Fi) (Ci) (hi) (Hi) 0 4 16 4 16 0,16 0,16 1 8 32 12 48 0,32 0,48 2 7 28 19 76 0,28 0,76 3 3 12 22 88 0,12 0,88 4 2 8 24 96 0,08 0,96 6 1 4 25 100 0,04 1,00

TOTAL 25 100 1,00

Como ejemplos de interpretación de las frecuencias, se puede decir que: f3 = 7 (tercer valor de las frecuencias absolutas). Significa que hay 7 alumnos que tienen 2 hermanos

Page 12: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 8

c3 = 28% (tercer valor de los porcentajes). Significa que 28% de los alumnos que tienen 2 hermanos F3 = 19 (tercer valor de las frecuencias absolutas acumuladas). Significa que hay 19

alumnos que tienen 2 o menos hermanos C3 = 76% (tercer valor de los porcentajes acumulados). Significa que hay 76% de alumnos

que tienen 2 o menos hermanos. Las frecuencias relativas así como las relativas acumuladas se expresan como “tantos por uno”

y por ello se prefiere usar los porcentajes, que suministran la misma información y son de más fácil lectura e interpretación. Sirven para estimar probabilidades y se emplearán más adelante.

Por último, es importante señalar que en un informe u otra presentación de datos,

corrientemente sólo interesa presentar la tabla con las columnas de variable, frecuencias absolutas y porcentajes, las que contienen la información básica y son valores simples de interpretar.

Los gráficos específicos que se emplean para presentar este tipo de datos son el Histograma

(para frecuencias simples) y la Ojiva (para frecuencias acumuladas). Estos gráficos se presentarán en el punto siguiente. También puede emplearse el gráfico de sectores. Histograma Ojiva

Nº Alumnos10

8

6

4

2

0 1 2 3 4 5 6Nº Hermanos

Alumnos según número de hermanos

Nº Alumnos25

20

15

10

5

0 1 2 3 4 5 6Nº Hermanos

Alumnos según número de hermanos

Page 13: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 9

2.4. TABULACIÓN DE DATOS CUANTITATIVOS CONTINUOS

Las variables continuas se caracterizan por presentar una diversidad de valores diferentes. Por ello, la tabulación se realiza definiendo intervalos de valores de la variable y contar el número de observaciones que están contenidas en dichos intervalos. Esta forma de tabular datos se empelará para variables que son de naturaleza continua así como para variables discretas que tengan muchos valores distintos (p.ej. puntajes en un test de 120 ítems, cada uno de los cuales tiene respuesta correcta o incorrecta, siendo el puntaje el “número de respuestas correctas”) 2.4.1. Diagrama de Tallo y Hoja Este diagrama permite un análisis exploratorio de los datos para conocer la estructura de los mismos así como algunas características de agrupación, que pueden emplearse para decidir como tabularlos. El diagrama consiste en la expresión de los datos tomando las cifras comunes de los mismos (que serán los tallos) y escribiendo las cifras diferentes en forma más compacta (hojas). El proceso para realizar el diagrama se presenta a continuación, mediante un ejemplo. Ejemplo

Como parte de una investigación sobre estudiantes de Educ. Media se obtuvo las estaturas (en cm) de

un grupo de 40 de ellos, que se emplearan para desarrollar los ejemplos siguientes: . 138 164 150 132 144 125 149 157 146 158 140 147 136 148 152 144 168 126 138 178 163

116 154 165 146 173 142 147 135 153 140 135 161 145 135 142 150 156 145 128. Considerando como “tallos” los dos dígitos iniciales (11, 12,..) se pueden arreglar los datos como sigue:

11 6 12 5 6 8 13 8 2 8 5 5 6 5 14 4 9 6 6 2 2 5 0 7 7 8 0 4 5 15 0 7 8 4 0 6 3 2 16 4 3 5 1 8 17 8 3

Ordenando los datos dentro de cada fila de la “hoja” se obtiene el diagrama final:

11 6 12 5 6 8 13 2 5 5 5 6 8 8 14 0 0 2 2 4 4 5 5 6 6 7 7 8 9 15 0 0 2 3 4 6 7 8 16 1 3 4 5 8 17 3 8

Esta simple ordenación de datos permite observar la concentración de los mismos en el intervalo de 140 cm a 149 cm, así como la distribución, relativamente simétrica, de los mismos en torno al intervalo señalado. Este diagrama es entregado por el software estadístico, como SPSS y otros, el que aporta más información gráfica con el diagrama.

Page 14: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 10

2.4.2. Tabulación empleando Intervalos de Igual Amplitud

Para representar a los intervalos, se define la variable Xi denominada "marca de clase del intervalo i-ésimo", la cual corresponde al punto medio del intervalo.

Se define como "frecuencia absoluta del intervalo i-ésimo" al número de observaciones contenidas en

el intervalo. Se representa como fi. Se emplean las definiciones dadas anteriormente para "frecuencias relativas", "porcentajes" y también

para las frecuencias acumuladas (absolutas , relativas y porcentajes). a. Cálculo de Amplitud Común de Intervalos

El proceso de definir la amplitud común de los intervalos que se usarán consiste en: 1. Determinar el NUMERO DE INTERVALOS que se utilizará (denotado como "m").

2. Determinar el RECORRIDO = Xmax - Xmin ; definido como la diferencia entre el valor mayor

(Xmax) y el menor (Xmin) de los valores de los datos analizados. 3. Determinar la AMPLITUD común "a" de los intervalos con: a = (Xmax - Xmin )/m 4. Ajustar el valor obtenido para "C", de ser necesario, para utilizar un valor cómodo e

interpretable. En este caso, si se modifica el recorrido de los datos, debe cuidarse de contener al recorrido original.

5. Definir los límites de los intervalos que se emplearán. 6. Definir el criterio que se utilizará para clasificar a aquellas observaciones que coinciden con los

extremos de los intervalos e indicarlo en la tabla que se realiza. Por ej. si extremos de intervalos son:116 - 125; 125 - 134; etc. a) Si se decide asignar 125 al segundo intervalo, la indicación puede ser: 116-124,9; 125 -

133,9; etc. También: 116 - 124; 125 - 133; etc. si los datos son enteros. b) Si se decide asignar 125 al primer intervalo, la indicación puede ser: 116 - 125; 125,1 -

134; etc. También: 116 - 125; 126 - 134; etc. si los datos son enteros. Ejemplo (Variable Continua) Empleando los datos de estaturas de 40 estudiantes de Educ. Media, del ejemplo anterior. En consideración a la diversidad de valores, se tabularán en 7 intervalos de igual amplitud. Se observa que Xmax= 178 cm y que Xmin= 116 cm. La amplitud C, siendo m=7 entonces se tiene que C = (178 – 116)/7 = 62/7 Luego C= 8,875.. cm. Para facilitar la definición de los intervalos, se aproxima C=9 cm. Para esto es necesario tener un Recorrido de 63 cm, por lo cual se empleará Xmax=179 cm manteniendo el valor de Xmin= 116 cm pues (179-116=63). Por lo tanto, los intervalos tendrán como extremos:

116-125; 125-134; 134-143; 143-152; 152-161; 161-170; y 170-179. Para evitar la ambigüedad en la definición de los intervalos, se adoptará el criterio de clasificar las observaciones que coinciden con el extremo superior del intervalo en dicho intervalo. La tabla de frecuencias terminada se presenta en página siguiente:

Page 15: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 11

ALUMNOS SEGÚN ESTATURAS ESTATURAS (cm) MARCA

DE CLASE

NÚMERO ALUMNOS

% NÚMERO ALUMNOS

%

(Variable) (Variable) Frec. Absol. Porcent. Frec. Absol.

Acumulada Porcent. Acumul.

Frec. Relativa

Frec.Relat. Acumulada

Linf - Lsup (Xi) (fi) (ci) (Fi) (Ci) (hi) (Hi) 116,0 - 125,0 120,5 2 5,0 2 5,0 0,050 0,050 125,1 - 134,0 129,5 3 7,5 5 12,5 0,075 0,125 134,1 - 143,0 138,5 10 25,0 15 37,5 0,250 0,375 143,1 - 152,0 147,5 13 32,5 28 70,0 0,325 0,700 152,1 - 161,0 156,5 6 15,0 34 85,0 0,150 0,850 161,1 - 170,0 165,5 4 10,0 38 95,0 0,100 0,950 170,1 - 179,0 174,5 2 5,0 40 100,0 0,050 1,000

TOTAL 40 100,0 1,000 b. Interpretación del significado de las frecuencias.

La interpretación de los resultados de la tabla es semejante a lo indicado para variable discreta. Como ejemplo se presenta la interpretación para las frecuencias del tercer intervalo (134 a 143 cm):

f3 = 10 (tercer valor de las frecuencias absolutas). Significa que hay 10 alumnos que tienen estaturas entre 134 y 143 cm. c3 = 25% (tercer valor de los porcentajes). Significa que 25% de los alumnos que tienen estaturas entre 134 y 143 cm. F3 = 15 (tercer valor de las frecuencias absolutas acumuladas). Significa que hay 15

alumnos que tienen estaturas de 134 cm o menos (o entre 116 cm y 134 cm). C3 = 37,5% (tercer valor de los porcentajes acumulados). Significa que hay 37,5% de

alumnos que tienen estaturas de 134 cm o menos (o entre 116 cm y 134 cm. 2.4.3. Intervalos de Diferente Amplitud

En este caso, la amplitud de los intervalos es arbitraria pero se deben tener las mismas precauciones

con la definición de los extremos de los intervalos indicados antes. Las frecuencias se definen, calculan y grafican en forma análoga al caso de intervalos de igual amplitud. 2.5. GRÁFICOS DE LAS FRECUENCIAS DE DATOS CONTINUOS

Los gráficos utilizados son: histograma, polígono de frecuencias (para frecuencias simples) y la ojiva

(para frecuencias acumuladas). En todos los gráficos, el eje de las abscisas (eje X) se emplea para representar la variable y el eje de las ordenadas (eje Y) se emplea para representar las frecuencias (simples o acumuladas). 2.5.1. Histograma

El HISTOGRAMA consiste en la representación de las frecuencias simples mediante áreas de rectángulos. Se debe definir un área unitaria (correspondiente a la frecuencia unitaria), la que debe aplicarse tantas veces como sea la frecuencia que se desea representar.

INTERVALOS DE IGUAL AMPLITUD. En este caso, el área unitaria corresponde al rectángulo de base

igual a la amplitud común del intervalo y de altura igual a la frecuencia unitaria. La representación de diferentes frecuencias se realiza variando la altura de los rectángulos de acuerdo a la frecuencia representada.

Page 16: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 12

Ejemplo de Histograma de Frecuencias Absolutas (Datos de estaturas)

Nº ALUMNOS15

12

9

6

3

0116 125 134 143 152 161 170 179

ESTATURA (cm) 2.5.2. Polígono de frecuencias

El Polígono de Frecuencias consiste en la representación de frecuencias simples (absolutas, porcentajes o relativas) mediante una poligonal obtenida al unir los puntos definidos por los pares:

(Marca de clase; Frecuencia del intervalo).

Se completa la poligonal considerando intervalos adicionales al comienzo y al final de la distribución con

frecuencias cero. Esto permite hacer equivalentes el área encerrada por la poligonal con aquella encerrada por el Histograma respectivo

En el ejemplo siguiente, sobre estaturas de 40 estudiantes, se aprecia la concentración de los datos en

torno a la marca de clase 147,5 y la simetría de la distribución respecto a ese valor.

Ejemplo de Polígono de Frecuencias absolutas

Nº ALUMNOS15 POLÍGONO DE FRECUENCIAS

107 116 125 134 143 152 161 170 179 188ESTATURA (cm)

12

9

6

3

0

.

Page 17: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 13

2.5.3. Ojiva

Se emplea para representar frecuencias acumuladas. Consiste en la poligonal obtenida al unir los

puntos definidos, en cada intervalo, por:

(Extremo superiordel intervalo, Frecuencia acumulada del intervalo) Se completa la poligonal uniendo el extremo inferior del primer intervalo al gráfico anterior.

En el ejemplo siguiente, sobre estaturas de 40 estudiantes, se aprecia el aumento gradual de las frecuencias acumuladas a medida que aumenta la estatura, lo que es característico de las distribuciones simétricas.

Ejemplo de Ojiva de Frecuencias Absolutas Acumuladas REVISR Nº ALUMNOS OJIVA

107 116 125 134 143 152 161 170 179 188ESTATURA (cm)

40

8

0

32

24

16

2.5.4. Gráficos para Intervalos de Diferente Amplitud

Para graficar el Histograma es conveniente definir un área de graficación unitaria, como un rectángulo unitario cuya base es una fracción común de las amplitudes de los intervalos y cuya altura corresponde a la frecuencia unitaria. La altura de los otros rectángulos para representar las otras frecuencias puede determinarse por la relación:

Frecuencia del IntervaloALTURA DEL RECTANGULO = Nº Amplitudes Unitarias del Intervalo

Ejemplo:

Los datos siguientes corresponden a pesos de 40 personas, tabulados en intervalos de amplitudes arbitrarias como se aprecia en la tabla:

PESO Nº PERSONAS 50,0 - 60,0 6 60,1 - 70,0 8 70,1 - 80,0 12 80,1 - 100,0 8 100,1 - 130,0 6

Page 18: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 14

En el gráfico del Histograma se empleó un rectángulo unitario de 10 k. de base y 1 persona de alto Se aprecia que los rectángulos que representan frecuencias iguales tienen áreas iguales, como ocurre en los intervalos de 50 a 60 k y de 100 a 130 k, que tienen frecuencia 6, pero la altura del rectángulo del intervalo de 100 a 130 es la tercera parte del primero. Algo similar ocurre con los intervalos de 60 a 70 k y de 80 a 100 k que tienen frecuencia 8, en que se representó el segundo con un rectángulo cuya altura es la mitad del primero.

En el Polígono de Frecuencias se empleó una base de 10 k con el objeto de compensar áreas. Por ello los puntos empleados para realizar el gráfico empleando (Marca de clase, Frecuencia absoluta) son:

(45;0), (55;6), (65;8), (75;12), (85;4), (95;4), (105;3), (115;3), (125;3), (135;0).

El primer y el último punto emplean intervalos ficticios, noque no están en la tabla y sirven para cerrar el

gráfico por ello tienen frecuencia 0.

Nº PERSONAS

15

12

9

6

3

050 60 70 80 90 100 110 120 130

PESO (K)

Histograma

Nº PERSONAS

15

12

9

6

3

040 50 60 70 80 90 100 110 120 130 140

PESO (K)

Polígono de Frecuencias 2.5.5. Uso de los gráficos: áreas y valores representados. El primer esquema de la página siguiente representa los 24 alumnos que tienen estatura 151 cm o menos y el área asociada a ese valor. En el Histograma esa área corresponde a los rectángulos hasta el valor 151 cm. Sería posible comprobar que son 24 alumnos contando los rectángulos unitarios. En el Polígono de Frecuencias es el área encerrada por la poligonal y el eje X hasta 151 cm. En la Ojiva, el área equivalente al número de alumnos se lee directamente en el eje Y mediante la proyección levantada en el valor 151 del eje X hasta cortar el gráfico. El segundo esquema representa a los 26 alumnos que tienen estaturas entre 138,5 cm y 165,5 cm y el área asociada a este intervalo de valores de estaturas. En el Histograma esa área se destaca con color rosado. Sería posible comprobar que equivale a 26 rectángulos unitarios. El el Polígono de Frecuencias, es el área encerrada por la poligonal y el eje X entre los valores 138,5 y 165,5. En la Ojiva la frecuencia corresponde a la diferencia de los valores de las frecuencias acumuladas asociadas a las proyecciones para 165,5 cm (36 alumnos) y para 138,5 cm (10 alumnos).

Page 19: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 15

a. Área asociada a la estatura 151 cm o menos

Nº ALUMNOS15 HISTOGRAMA

107 116 125 134 143 152 161 170 179 188ESTATURA (cm)

Nº ALUMNOS15 POLÍGONO DE FRECUENCIAS

107 116 125 134 143 152 161 170 179 188ESTATURA (cm)

Nº ALUMNOS OJIVA

107 116 125 134 143 152 161 170 179 188ESTATURA (cm)

24 alum.

24

16

8

0

3

0

40

32

0

12

9

6

12

9

624

alum.3

151

151

151

Page 20: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 16

b. Área asociada al intervalo 138,5 cm a 165,5 cm de estatura

Nº ALUMNOS15 HISTOGRAMA

107 116 125 134 143 152 161 170 179 188ESTATURA (cm)

Nº ALUMNOS15 POLIGONO DE FRECUENCIAS

107 116 125 134 143 152 161 170 179 188ESTATURA (cm)

Nº ALUMNOS OJIVA

107 116 125 134 143 152 161 170 179 188ESTATURA (cm)

12

9

6

3 26 ALUMNOS

0

0

40

32

24

16

8

0

12

9

6

3

36

10

138,5

138,5 165,5

165,5

138,5 165,5

26 ALUMNOS

Page 21: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 17

2.5.6. Empleo de la Ojiva para determinar Mediana y Cuartiles Se puede emplear la Ojiva para estimar algunos valores de la variable característicos y representativos de la distribución de la misma, como Mediana, Cuartiles y Percentiles.

La MEDIANA es el valor de la variable tal que, dicho valor o menos, tienen el 50% de los datos. Para estimarlo mediante la Ojiva, se calcula el 50% de las frecuencias (0,5n) y se ubica dicho punto en el eje que representa frecuencias (eje Y o de abscisas). Por dicho punto, se traza una paralela al eje X (que representa la variable) hasta cortar la Ojiva. Desde dicha intersección, se traza una paralela al eje Y (abscisas) hasta cortar el eje X (variable). El punto definido en el eje de la variable corresponde a la Mediana. En el ejemplo siguiente, sobre estaturas de los 40 alumnos, se aprecia que el 50% de los datos, o sea, 0,5n=(0,5)(40)=20 alumnos. La estimación de la Mediana (Me) corresponde a 146,5 cm. El PRIMER CUARTIL es el valor de la variable tal que, dicho valor o menos, tiene el 25% de los datos. El TERCER CUARTIL es el valor de la variable tal que, dicho valor o menos, tiene el 75% de los datos. Para estimarlos se procede en forma análoga a lo indicado para la Mediana. En el gráfico se presentan las estimaciones, que corresponden a 138,5 cm y 155,0 cm respectivamente. En forma análoga, se pueden estimar valores de la variable asociados con porcentajes de la distribución, denominados PERCENTILES. Por ejemplo, la Mediana corresponde al Percentil 50.

También, es posible estimar la frecuencia acumulada asociada con un valor de la variable. En el gráfico (flecha ancha, en verde) se aprecia que con 165 cm de estatura o menos hay 36 alumnos. Como 36 alumnos corresponden al 90% del total de los 40 alumnos, la estatura 165 cm se denomina el PERCENTIL 90 (denotándose como P(0,90)).

ESTATURA DE ALUMNOSNº ALUMNOS

116 125 134 143 152 161 170 179ESTATURA (cm)

32

40

0

8

16

24

0,25n=10

0,50n=20

0,75n=30

138,5 146,5 155,0 165

36

2.5.7. Ejercicios Usando el gráfico anterior estime lo siguiente:

a) Percentil 10, percentil 30, percentil 70 y percentil 90 b) El percentil asociado con estaturas 132 cm, con 138 cm, con 172 cm c) Estime el intervalo de estaturas entre el percentil 90 y el percentil 10; entre el percentil 70 y el

percentil 30. d) Estime el número de alumnos entre 132 cm y 172 cm

Page 22: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 18

2.6. USO DE EXCEL: FUNCIONES Y PROCEDIMIENTO ANÁLISIS DE DATOS Para realizar la tabulación y graficación de datos, esto es la organización de los datos, se pueden utilizar diferentes funciones que tiene Excel implementadas, empleando alguna de las formas siguientes: a) Escribiendo textos de funciones estadísticas

b) Insertando las funciones estadísticas b) Empleando Herramientas para Análisis

Antes de escribir o insertar una función se requiere tener escritos, en una página de Excel, el conjunto de datos que se desea analizar, pues las funciones emplean direcciones. Además, el resultado aparecerá en el lugar en que se encuentra ubicado el cursor al momento de insertar o escribir la función. 2.6.1. Escribir Funciones Estadísticas

Consiste en escribir el texto del comando respectivo (en mayúscula o minúsculas), algunos de los cuales se señalan a continuación, empezando por el signo “=”. Es necesario indicar la dirección donde se encuentran los datos o escribir los datos. El resultado Excel lo escribe en la casilla donde se ubica el cursor. En “Ayuda” se pueden ver los textos de comandos en caso de duda.

En el ejemplo siguiente se aplica la función PROMEDIO para obtener la Media Aritmética o Promedio

de un conjunto de datos:

En los ejemplos de comandos siguientes, con "número" o con "matriz" se indica un valor numérico

(Ej:64) o un rango donde se encuentran los datos, Ej. c2:c26. Observe que las direcciones que requiere Excel sólo corresponden a aquella de los datos y se excluye el nombre de las variables. a. Número de valores

=CONTAR(ref1; ref2; …) Cuenta la cantidad de números en dirección indicada =CONTARA(ref1; ref2; …) Cuenta el número de casillas ocupadas en dirección indicada b. Suma de valores =SUMA(número1; número2; …) Suna los valores de la referencia c. Mínimo y máximo =MIN(número1; número2; …) =MAX(número1; número2; ...) d. Media Aritmética =PROMEDIO(número1; número2;...) e. Desviacion Estándar =DESVEST(númerol; número2; ... ) Desv. Est. Muestra¡ =DESVESTP(númerol; número2;...) Desv. Est. Poblacional f. Varianza =VAR(númerol; número2; ... ) Varianza muestra¡ =VARP(númerol; número2; ... ) Varianza poblacional g. Mediana =MEDIANA(númerol; núrnero2;...)

Page 23: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 19

h. Moda =MODA(númerol; número2;...) i. Cuartiles =CUARTIL(matriz; cuartil) Matriz: rango de datos Cuartil: 0 = valor mínimo 1 = primer cuartil percentil 25 2 = Mediana, segundo cuartil, percentil 50 3 = tercer cuartil, percentil 75 4 = valor máximo j. Percentiles =PERCENTIL(matriz; k) Matriz: rango de datos

k = valor decimal entre 0 y 1 Por ej. k=0,25 para Percentil 25

k. Correlación lineal

=COEF.DE.CORREL(matriz 1; matriz 2) matriz 1 y matriz 2 son rangos numéricos que deben contener el mismo número de valores

2.6.2. Insertar Funciones Estadísticas Para insertar la función, se selecciona el menú “Insertar” y dentro de este “Función”

Se presenta el menú siguiente. En “Seleccionar una Categoría” hay opciones de tipos de funciones. En el ejemplo se seleccionó “Estadísticas”, dentro de él se destacó el “PROMEDIO”, ya usada antes.

Page 24: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 20

Al pulsar ACEPTAR se presenta el menú para calcular el promedio. Se debe ingresar la (o las) dirección de los datos que se analizan. En el ejemplo B3:B7. Se aprecia que el valor del promedio se presenta en este menú (5,16). En la “Barra de Fórmulas” se presenta el texto de la función, tal como se usó antes.

Al pulsar “Aceptar” se obtiene el resultado del promedio en la casilla donde se encuentra el cursor. 2.6.3. Procedimiento Análisis de Datos a. Activación

La Herramienta “Análisis de Datos” posibilita el empleo de diversos procedimientos estadístico en Excel de forma más eficiente que empleando los comandos respectivos.

Debe verificarse que la opción esté activa, desplegando el menú Herramientas. Si aparece “Análisis de

Datos”, como se aprecia en el gráfico siguiente, ello indica que esta activa.

En caso que no aparezca “Análisis de Datos”, se debe activar. Para ello, en el menú de Herramientas, debe seleccionarse el menú de “Complementos”. Dentro de las opciones que ofrece éste, debe activarse el “Análisis de Datos” para lo cual se marca la alternativa respectiva, tal como se aprecia a continuación. Según la versión de Excel, este puede requerir el disco de Office para cargar dicho complemento.

Page 25: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 21

b. Empleo de Funciones Para Análisis Si en “Herramientas” se selecciona “Análisis de Datos” se presenta un conjunto de “Funciones para Análisis” disponibles, como se aprecia a continuación:

En general, los menús de las “Funciones para Análisis” tienen algunos elementos en común. Se distinguen dos partes, la superior generalmente presenta las “Opciones de entrada” donde se pide ingresar el o los rangos donde se ubican los datos, si se usan rótulos, etc. La parte inferior presenta las “Opciones de salida” donde ubicar los resultados: rango (si es en la misma hoja activa), en una hoja nueva o en un libro nuevo. Hay otras opciones según la función En lo que se sigue, se encontraran ejemplos del empleo de esta herramienta. 2.7. USO DE EXCEL PARA TABULAR DATOS A continuación se presenta el empleo de Excel para desarrollar algunos de los procedimientos presentados antes. 2.7.1. Uso de la función FRECUENCIA para Tabular datos discretos o continuos Para tabular un conjunto de datos con Excel se puede emplear la función FRECUENCIA o la función para análisis HISTOGRAMA

Para tabular deben determinarse los intervalos que se usarán. En el ejemplo (el mismo del Apunte) se tabulan 40 estaturas (en cm) de estudiante.

En primer lugar se definen los intervalos que se emplearán, como se ilustra a continuación. Se usará

una amplitud de 9 cm, definiéndose los intervalos a partir del valor mínimo, 115 cm. Para usar la función FRECUENCIA se requiere escribir los extremos de los intervalos en una columna,

como se aprecia en ejemplo, entre A16 y A22. A continuación se selecciona (ennegrece) un conjunto de casillas equivalente al de extremos escritos (esto se realizó entre B16 y B22). Luego se escribe función, señalándose donde se encuentran los datos (A6:G11) y los extermos de intervalos (A16:A22). Luego, se deben pulsar teclas: MAYÜSCULA+CONTROL+ENTER

Page 26: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 22

El resultado es el siguiente, a partir del cual se pueden completar con porcentajes y frecuencias acumuladas, según se requiera.

2.7.2. Uso de la Función HISTOGRAMA para Tabular datos discretos o continuos Como se aprecia en la figura siguiente, previamente se han definido los extremos de los intervalos. Se escriben estos extremos en una columna. Se selecciona “Análisis de Datos” del menú de Herramientas. Dentro de éste, se selecciona la función HISTOGRAMA. Se completan los campos solicitados por el menú, indicándose el rango donde se encuentran los datos (A6:G11) y donde está la definición de los intervalos incluyendo su rótulo (A15:A22). También se señala donde se escribirán los resultados (C15). Se activa “Rótulos” en menú de Histograma para identificar los resultados.

Page 27: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 23

El proceso anterior se ilustra a continuación.

La tabla se completa con Marcas de Clase y otras frecuencias

Page 28: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 24

2.8. USO DE EXCEL PARA GRAFICAR DATOS 2.8.1. Graficación del Polígono de Frecuencias a.. Diseño del Borrador del Gráfico

Para realizar gráficos en Excel es conveniente preparar una tabla con los datos que se usarán, a partir de la tabla de Frecuencias.

El Polígono de Frecuencias es un gráfico que emplea el área encerrada para representar un conjunto

de datos Para graficar el Polígono de Frecuencias se emplean las Marcas de Clase y frecuencias simples (en el

ejemplo, la frecuencia absoluta). Como se aprecia en el ejemplo, se agregan dos Marcas de Clase con frecuencia 0, para cerrar el gráfico.

Antes de seleccionar la opción de gráfico que se usará, se marcan los datos incluyendo rótulos, aunque ello no influye en el resultado.

Page 29: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 25

Se emplea el “Asistente para Gráficos” del menú. Entre los tipos de gráficos, se selecciona “XY (Dispersión)”, y entre los subtipos, se elige la última, como se aprecia en gráfico siguiente:

El resto del proceso se ilustra con los gráficos que siguen. El paso 2 permite seleccionar los datos:

El Paso 3 permite poner títulos a ejes. También permite eliminar la “leyenda”al seleccionar pestaña respectiva. El Paso 4 permite ubicar el gráfico en una hoja nueva. También se puede optar por insertarlo en la hoja de los datos, aunque esta opción no es muy versátil para mejorar la apariencia del gráfico (títulos, fondos etc.) como se hace a continuación.

Page 30: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 26

b. Diseño del Gráfico Definitivo Una vez ubicado el gráfico en una hoja, se puede realizar el gráfico definitivo mejorando la apariencia y presentación del borrador. En general, al poner el cursor en cualquier sector del gráfico (área de trazado o área del gráfico) o elemento (ejes, títulos) etc. se puede modificar dicho sector o elemento.

Page 31: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 27

Para mejorar la presentación del “Eje de valores X “ se ubica el cursor sobre algún valor del Eje. Se hace doble clic con el mouse y se presenta el menú que se presenta a continuación, en que se seleccionó la pestaña “Escala”, la que muestra los valores que Excel empleó para el borrador del gráfico, los que se pueden modificar para mejorar la presentación, como se aprecia en gráfico siguiente.

Ahí se aprecia que se cambiaron los valores para ajustarlos a las valores de marcas de clase, dejando

espacio antes del primer valor y luego del último de las marcas de clase efectivas. Por ello el mínimo se asigna el valor 102,5 que corresponde a 111,5-9; al máximo se le asigna el valor 192,5 que corresponde a 183,5+9. Como unidad mayor se usa 9, que es el valor de la amplitud de los intervalos y como unidad menor se usa 1.

Page 32: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 28

Los efectos de estos cambios se aprecian en gráfico siguiente:

Para cambiar los fondos del gráfico se modificaron las “Áreas de Trazado” (área interior al polígono) y “Ärea de Gráfico” (área exterior a los ejes), usando texturas como se aprecian en figuras siguientes:

Page 33: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 29

Para modificar el aspecto de la línea de la poligonal se ubica cursor en ella y se ingresa al menú respectivo, para cambiar el grosor de línea y su color.

Page 34: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 30

c. Impresión del Gráfico Definitivo El diseño del gráfico terminado es conveniente adecuarlo a la página para su impresión, pues si no ocupará una hoja completa. En el menú “Archivo” empleando las opciones de “Configurar Página” se pueden asignar márgenes adecuados para lograr una presentación impresa conveniente. En las figuras siguientes se indican las modificaciones realizadas con ese objetivo.

El resultado final, para imprimir se presenta en la figura de página siguiente.

Page 35: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 31

2.8.2. Graficación de la Ojiva a. Diseño del Borrador del Gráfico

La Ojiva se emplea para representar frecuencias acumuladas. Se usan los extremos de los intervalos y las frecuencias acumuladas respectivas. También se agregan dos intervalos falsos para completar el gráfico. En el ejemplo se emplean las frecuencias absolutas acumuladas. La tabla con los datos que se usarán, a partir de la tabla de Frecuencias, es la que sigue:

En general, el procedimiento es el mismo indicado para el Polígono de Frecuencias. Los cambios importantes son en la definición del eje X, para lo que se emplean los valores siguientes para que en el gráfico se aprecien los extremos de los intervalos.

Page 36: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 32

La apariencia de la Ojiva resultante, para imprimirla, es la siguiente:

Page 37: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 33

2.9. EJERCICIOS EJERCICIOS DE PRUEBAS A. Para responder, marque alternativa V (verdadero) o F (Falso) que estime adecuada. (Se indica con X alternativa correcta) Para los siguientes datos sobre puntajes en un test (en puntos):

72 81 34 41 51 62 73 84 86 75 63 53 43 43 53 55 64 65 57 69 57 33 41 50 61 32 40 50 61 70 63 42 51 42

1. El diagrama de tallo y hoja (ordenado)de los datos anteriores tiene una fila 7 | 0 2 3 5 VX F

2. El recorrido original de los datos es de 32 cm a 86 cm V FX

3. Para tabular en siete intervalos de igual amplitud, los intervalos 4º y 5º podrían Tener como extremos: 55,4 - 63,2 ; 63,2 – 71,0 VX F

4. Para tabular en 8 intervalos se podría usar una amplitud de 6,8 VX F

B. Los ejercicios siguientes no se relacionan entre sí ni tampoco con ejercicios anteriores, su objetivo es la comprensión de la terminología y asociada con las frecuencias.

5. Una distribución de frecuencias puede tener los valores siguientes H4 = 0,35 ; H5 = 0,25 ; n=80 V Fx

6. Una distribución de frecuencias puede tener los valores siguientes h2 = 0,40 ; n = 60 ; f1 = 15 VX F

8. La ojiva puede realizarse con datos discretos VX F 9. El histograma se realiza empleando frecuencias y valores de los extremos de los intervalos. VX F

10. El gráfico de sectores circulares (torta) sirve para graficar frecuencias simples VX F

C. La tabla siguiente corresponde a ingresos en miles de pesos (M$) de un grupo de personas

INGRESOS (M$)

PERSONAS

12. En la tabla anterior el quinto % es 25 VX F

200,0 – 250 7 250,1 – 300 8 13. En la tabla anterior F4 tiene el valor de 37 VX F 300,1 – 350 10 350,1 – 400 12 14. La cuarta marca de clase es 375 M$ VX F 400,1 – 450 30 450,1 – 500 25 15. Se puede afirmar que aproximadamente 31% de

las personas tiene ingresos de $400.000 o menos

VX F 500,1 – 550 18

550,1 – 600 10 EJERCICIOS PARA DESARROLLAR 1. Los datos siguientes corresponden a las respuestas a la pregunta "La Estadística es muy importante en

la formación de los profesionales universitarios" formulada a un grupo de estudiantes universitarios. Las respuestas son en MA (Muy de acuerdo), A (De acuerdo), I (Indiferente), D (En desacuerdo), MD (Muy en descuerdo) y N (No responde).

a. Identifique el tipo de variable. Tabule las respuestas, calcule % y grafique. b. ¿Cómo pueden interpretarse los resultados respecto al acuerdo o no del grupo con la aseveración? MA A A MA MA I D MD A MA I A A MA I I MD D A MD I A A MA D MD MA A MA D N

MA A A D MD D I I N MA MA A A MA D MD D A D D A D A D D A A MA MD MD I I MD MA MA A A A N I N A A I N A D MD A

Page 38: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 34

2. Los siguientes son los resultados (en puntos) obtenidos por escolares en una prueba: 143 178 156 152 176 186 187 169 158 179 201 195 205 220 210 205 183 210 177 170 167 202 210 178 140 190 208 198 215 177 164 175 190 227 183 160 180 150 185 172 187 165 205 220 219 197 185 210 192 209 205 207 220 227 180 253 219 210 195 195 230 195 184 210 195 214 198 240 178 229 245 196 235 190 241 196 236 183 199 250 a. Tabule en 10 intervalos de igual amplitud los 80 datos. Calcule frecuencias simples y

acumuladas. b. Los primeros 50 datos corresponden a escolares de 14 años y los últimos 30 datos a escolares

de 16 años. Tabule cada conjunto de datos empleando los mismos intervalos definidos en (a). Calcule frecuencias simples y acumuladas.

c. Compare los resultados por edad empleando gráficos. Estime Mediana y Cuarteles. Realice una apreciación sobre las distribuciones: cual tiene valores mayores, cual es más simétrica etc.

3. En un estudio sobre el tiempo empleado en efectuar una tarea por 45 trabajadores se registraron los

resultados siguientes (en segundos): 12,4 13,1 12,0 11,6 11,0 12,5 11,9 10,7 11,2 11,3 11,0 11,4 10,9 9,6 12,0 11,5 11,0 11,5 10,9 10,7 10,9 12,6 12,5 12,8 12,9 13,2 9,8 10,6 12,1 12,4 12,1 13,0 11,8 10,9 11,2 12,5 9,9 9,6 11,7 12,2 10,3 11,2 11,7 10,9 11,5 a. Realice el diagrama de tallo y hoja. Tabule los datos en 8 intervalos de igual amplitud. b. Grafique histograma, polígono de frecuencias y ojiva. En los gráficos ubique gráficamente

Mediana, Cuartiles y percentil 60.e interprete su significado.

5. Los puntajes obtenidos por un grupo de estudiantes en un test fueron tabulados en la tabla siguiente, con 4 intervalos de igual amplitud. Calcule los valores de intervalos y frecuencias faltantes indicadas con letras desde A hasta T.

PUNTAJES (Intervalos)

Xi (Marca de Clase)

fi (Estudiantes)

ci (%) (Porcentaje)

Fi (Estudiantes)

Ci (%) (Porcentaje)

225 - A G J L 16 R B - C H 20 M O 45,0 D - E 350 K 42,5 P S

F - 425 I 10 N Q T 5. Determine para cada uno de los conjuntos de los valores siguientes si son posibles de ser obtenidos o

no en una tabla de frecuencias. Justifique su respuesta. Cada conjunto es independiente de los otros a. H4 = 0,30 ; n = 10 ; f3 = 31

b. h1 = 4 ; h3 = 12 ; H4 = 15 c. h2 = 0,40 ; n = 50 ; f1= 20 d. h1 + h2 + h3 + h4 = 1 ; f6= 3 ; H5 = 1 e. H4 = 0,20 ; H5 = 0,12 ; h5 = -0,08

6. La tabla siguiente corresponde a la distribución de pesos (en k) de un grupo de personas.

Pesos (k) Nº Personas 40,1 - 50,0 50,1 - 60,0 60,1 - 70,0 70,1 - 80,0 80,1 - 90,0

90,1 - 100,0 100,1 - 110,0

10 13 35 38 16 15 9

Total 136

Page 39: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 35

Mediante interpolaciones o mediante algún gráfico de frecuencias, estime lo siguiente: a. Personas que pesan menos de 52 k. b. Personas que pesan más de 64,5 k. c. Personas que pesan entre 46 y 64 k. d. El peso que tiene el 25% de los más delgados del grupo (Primer cuartil). e. El peso que tiene el 10% de los más gordos del grupo (Percentil 90). f. Si Jorge pesa 63,4 k determine cual es su posición relativa en el grupo. g. Realice una nueva tabulación de los datos, empleando sólo 5 intervalos de igual amplitud (14 k),

cuyos límites sean : 40 a 54; 54 a 68; 68 a 82; 82 a 96 y 96 a 110.

7. La tabla siguiente presenta la distribución de los puntajes de un grupo de 50 personas, en los

intervalos de diferente amplitud que se indican. Gráfique el histograma, el polígono de frecuencias y la ojiva de los datos. (Recuerde los principios que se deben emplear para graficar los datos).

Puntajes Nº Personas 50,0 - 60,0 5 60,1 - 70,0 8 70,1 - 90,0 12 90,1 - 110,0 10 110,1 - 140,0 15

Total 50 8. Una distribución simétrica se caracteriza por presentar frecuencias de valores iguales respecto al centro

de la distribución (que sería el eje de simetría). Reconstruya la distribución simétrica de 5 intervalos si se sabe que (siendo Xi marcas de clase): X1= 10 X5= 90 f1= 4 f3= 20 f2 - f5= 2

9. Una empresa desea modificar su sistema de compensaciones económicas, reemplazando los

incentivos basados en antigüedad por incentivos basados en productividad. Los incentivos actuales según la antigüedad en la empresa, y que son acumulables, son: 1) Al cumplir 5 años: asignación mensual de un 10% del sueldo base. 2) Al cumplir 10 años: financiamiento de estudios superiores. 3) Al cumplir 20 años: asignación de casa (pago de arriendo) 4) Al cumplir 25 años: bono anual equivalente a 2 sueldos mensuales. 5) Al cumplir 30 años: vacaciones pagadas por la empresa.

El Departamento de Recursos Humanos debe realizar un estudio para medir el impacto del cambio. Las antigüedades de los trabajadores (en años) son las siguientes:

22 3 12 35 3 9 6 11 19 2 31 27 29 18 6 11 7 29 31 37 14 18 8 23 19 26 31 33 28 18 9 11 13 17 12 22 16 27 30 25 24 14 19 31 35 15 9 17 21 21 33 5 8 17 12 34 28 23 27 30 19 14 7 21 21 20 14 13 11 32 19 20 7 18 26 20 12 22 34 30 25 31 15 2 1

Tabule los datos en intervalos apropiados para responder lo siguiente (justifique su respuesta): a) ¿Cuántos trabajadores no han obtenido actualmente algún beneficio por antigüedad? b) ¿Qué porcentaje de trabajadores perdería el beneficio de las vacaciones pagadas? c) ¿Qué porcentaje de trabajadores perdería el beneficio de asignación de casa? d) ¿Cuántas personas perderían el beneficio del bono anual? e) ¿Cuántas personas perderían algún beneficio y a qué % del total corresponden?

Page 40: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 36

3. ESTADÍSTICAS DE POSICIÓN

3.1. TIPOS DE ESTADÍSTICAS DE RESUMEN El resumen de la información tiene dos propósitos: por una parte, obtener una expresión numérica (estadísticas de resumen) de las características importantes de una distribución de datos, para facilitar la comparación de esas características entre diversas distribuciones. Por otra parte, posibilitar que se puedan reproducir las características gráficas de una distribución a partir de la interpretación de las estadísticas de resumen calculadas. A continuación se presentan las estadísticas de resumen de los datos del ejemplo que se ha utilizado en tabulación, sobre Estaturas de 40 estudiantes, realizado con Excel y con SPSS. Más adelante, se trata con detalle cada una de las estadísticas de resumen más relevantes.

Las estadísticas de resumen se pueden clasificar como: de posición, de dispersión, de simetría y de apuntamiento.

Las estadísticas de posición (o de tendencia central) sirven para caracterizar una distribución determinando valores representativos del conjunto de datos. Pertenecen a este grupo la Media Aritmética y la Moda. La Mediana, los Cuartiles y los Percentiles si bien pertenecen a este grupo se les denomina “estadísticas de orden” por la forma en que se definen. Menos usadas son la Media Geométrica y la Media Armónica.

En su rol de representantes de los datos, las estadísticas de posición tienen algunas propiedades

generales, que son: 1. Se expresan en la misma unidad de la variable, pues son valores posibles de ésta. 2. Su valor se encuentra entre el mínimo y el máximo de los datos (el recorrido de éstos).

Estas dos propiedades generales se aprecian, como ejemplo, en el resumen de la página siguiente donde se ha ubicado la Media Aritmética y Mediana de los datos, como puntos del eje X , donde se presenta la variable Estatura.

Las estadísticas de dispersión caracterizan una distribución respecto a la variabilidad que presentan los datos respecto a alguna estadística de posición. Como ejemplos están la Varianza y la Desviación Estándar (asociadas con la media aritmética), el Recorrido y el Recorrido Intercuartílico.

Las estadísticas de simetría sirven para caracterizar la simetría de una distribución respecto a un eje

imaginario. Como ejemplos están el coeficiente de Borden y el coeficiente de Pearson. Las estadísticas de apuntamiento sirven para comparar el grado de elevación de la distribución, esto

es, si es más alta o más aplastada que la "distribución normal" asociada (ver histograma de ejemplo). Un representante es el “Coeficiente de Pearson”.

Estadísticas de resumen con Excel

ESTATURAS

Media 146,78Error típico 2,11Mediana 146,00Moda 135,00Desviación estándar 13,34Varianza de la muestra 177,92Curtosis 0,10Coeficiente de asimetría 0,16Rango 62Mínimo 116Máximo 178Suma 5871Cuenta 40Mayor (1) 178Menor(1) 116Nivel de confianza (95,0%) 4,27

Estadísticas de resumen con SPSS

40178,00116,00146,78146,00135,00125,05138,00155,50172,75

62,0013,34

2,11177,92

RecuentoMáximoMínimoMediaMedianaModaPercentil 5Percentil 25Percentil 75Percentil 95RangoDesviación típ.Error t ípico de la mediaVarianza

ESTATURAS

Page 41: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 37

3.2. MEDIA ARITMÉTICA

3.2.1. Definición Sea una variable X cuyos valores son X1, X2, X3,...,Xn. Se define como Media Aritmética a:

M(X)= X =1

1 n

ii

Xn = 1 2 3 Suma de los Datos

Numero de Datos nX X X X

n+ + + +

=

Para datos agrupados:

M(X)= X =1

1 n

i ii

X fn =

1

n

i ii

X h con Xi=Marca de clase; fi= Frecuencia absoluta ; hi= Frecuencia relativa

La variable debe ser al menos de nivel de intervalo.

3.2.2. Ejemplos Ejemplo 1.

El número de hermanos de 6 alumnos son: 0, 2, 3, 1, 4, 1 La Media Aritmética es : M(X)= X =(0+2+3+1+4+1)/6 = 11/6 = 1,83 hermanos Aunque la variable no admite valores fraccionarios, si los admite la Media Aritmética. La interpretación

del resultado indica que su cada alumno “tuviera” 1,83 hermanos, entre todos reúnen también los 11 hermanos. (La Media Aritmética es una medida que “compensa” los aportes, de modo que los valores altos

“reparten” a los valores bajos para equilibrar los aportes de cada uno a la suma total).

Ejemplo 2. Empleando la tabulación de las estaturas, realizada anteriormente:

ALUMNOS SEGÚN ESTATURAS

ESTATURAS

(cm) MARCA DE

CLASE NÚMERO

ALUMNOS FREC.

RELATIVA

Linf - Lsup (Xi) (fi) Xi fi (hi) Xi hi 116,0 - 125,0 120,5 2 241,0 0,050 6,03

125,1 - 134,0 129,5 3 388,5 0,075 9,71

134,1 - 143,0 138,5 10 1.385,0 0,250 34,63

143,1 - 152,0 147,5 13 1.917,5 0,325 47,94

152,1 - 161,0 156,5 6 939,0 0,150 23,48

161,1 - 170,0 165,5 4 662,0 0,100 16,55

170,1 - 179,0 174,5 2 349,0 0,050 8,73

TOTAL 40 5.882,0 1,000 147,07

M(X) = X = 1

1 n

i ii

X fn = (5.882)/40 = 147,05 = 147,1 cm

M(X) = X = 1

n

i ii

X h = 147,07 = 147,1 cm

Por lo tanto, la estatura media del grupo es 147,1 cm. Esto es (en teoría) si cada alumno tuviera esa estatura, entre los 40 reunirían el mismo total de 5.882 cm que es la suma de todas las estaturas originales.

Ejemplo 3. Compruebe los resultados de los ejemplos anteriores empleando su calculadora.

Page 42: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 38

3.2.3. Propiedades de la Media Aritmética La Media Aritmética tiene algunas propiedades interesantes, que pueden facilitar el cálculo de la misma, o comprobar los resultados obtenidos.

Prop. 1. La media aritmética de una constante es igual a la constante: M(c)=c

Esta propiedad señala que si todos los valores de los datos son iguales, la M.A. también tendrá ese

mismo valor. Por ejemplo, si un alumno tiene notas: 5, 5, 5, 5 la M.A. será 5.

Prop. 2. La media aritmética de una suma de variables es igual a la suma de las medias aritméticas de

las variables: M(X+Y) = M(X) + M(Y) Esta propiedad indica que si existe una variable tal que cada valor es la suma (o diferencia) de otros

dos, la M.A. de la primera se puede obtener como suma (diferencia) de las M.A. de las partes de ese total. Por ejemplo, se tiene información de las horas extras trabajadas por dos secciones de una empresa (X

e Y), durante cuatro semanas. El total de horas extras trabajadas en la empresa, durante ese período, es (T=X+Y):

Semana Horas extras

sección X Horas extras

sección Y Horas extras

totales T=X+Y 1ª 30 40 70 2ª 20 10 30 3ª 80 20 100 4ª 50 10 60

Total 180 80 260 M.Aritmética X =180/4=45 h Y =80/4=20 h T =260/4=65 h

Prop. 3. La media aritmética de una variable más una constante es igual a la constante más la media

aritmética de la variable: M(X + c)= M(X) + c Esta propiedad señala que si a cada valor de una variable se le suma (resta) una cantidad constante, entonces la M.A. de los valores modificados será igual a la M.A. de los valores originales más (menos) la constante. Por ejemplo, un grupo de personas tiene actualmente las edades que se indican (variable X). Dentro de 5 años, cada uno tendrá su edad actual más 5 años (variable Y=X+5). las M.A. resultantes se presentan en la tabla siguiente: Por lo tanto, Y =134/5=26,8 años = X +5

Persona Edad Actual X

Edad en 5 años más Y=X+5

Matías 10 15 Andrea 26 31 Eduardo 28 33 Alejandra 20 25 Claudia 25 30 Total 109 134

M.Aritmética X =109/5=21,8 años Y =134/5=26,8 años

Page 43: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 39

Prop. 4. La Media Aritmética de una variable por una constante es igual a la constante por la Media Aritmética de la variable: M(c X)= c M(X)

Esta propiedad señala lo que ocurre con la M.A. de un conjunto de valores si cada uno es multiplicado (dividido) por un valor constante. Como resultado se tiene que la M.A. de los datos originales resulta multiplicado (dividido) por la misma constante. Como ejemplo, consideremos los sueldos de un grupo de personas, los cuales son reajustados en el 10%. Por ejemplo, un sueldo de $100.000 aumentará en 10% (esto es $10.000) siendo el nuevo sueldo de $110.000.- esto es equivalente a multiplicar el sueldo original por el factor 1,1 (base 1 más 10% o en decimal 0,1). En el ejemplo, (100.000)(1,1)=110.000

SUELDOS DE 5 PERSONAS (EN M$)

Persona Sueldo actual (M$) X

Reajuste 0,1 X

Sueldo Reajustado Y=(1,1) X

Matías 100 10,0 110,0 Andrea 280 28,0 308,0 Eduardo 328 32,8 360,8 Alejandra 420 42,0 462,0 Claudia 325 32,5 357,5 Total 1.453 145,3 1.598,3

M.Aritmética X =1453/5=290,6(M$) Y =1598,3/5=319,66 (M$) Se aprecia que, Y =1598,3/5=319,66 (M$) = (1,1) 290,6 = 1,1 X Prop. 5. (Transformación Lineal). Si la variable X sufre una transformación lineal, entonces la media

aritmética de la variable transformada es: M(a X+b)=a M(X)+b

En el ejemplo anterior, consideremos los sueldos de un grupo de personas, los cuales son reajustados en el 10% y además tienen una bonificación de $15.000. Por ejemplo, un sueldo de $100.000 aumentará en 10% (esto es $10.000) siendo el sueldo reajustado de $110.000.- Si se agrega la bonificación, el sueldo final será $125.000.-Esto es equivalente a multiplicar el sueldo original por el factor a=1,1 y al resultado agregarle b=15.000.-

SUELDOS DE 5 PERSONAS (EN M$) Persona Sueldo actual (M$)

X Sueldo Reajustado

(1,1) X (M$) Sueldo Reajustado más bonificación

Y=(1,1) X + 15 (M$) Matías 100 110,0 125,0 Andrea 280 308,0 323,0 Eduardo 328 360,8 375,8 Alejandra 420 462,0 477,0 Claudia 325 357,5 372,5 Total 1.453 1.598,3 1.673,3

M.Aritmética X =290,6(M$) 319,66 (M$) Y =1673,3/5=334,66 (M$) Se aprecia que, Y =1673,5/5=334,66 (M$) = [(1,1) 290,6 +15]= (1,1 X +15) Prop. 6. (Media Ponderada). Si se tienen "k" muestras de tamaños n1, n2,...,nk y cuyas medias aritméticas

son, respectivamente, 1 2, ,..., kX X X entonces la media aritmética del total de observaciones es:

1 1 2 21 2 ...

k kk

n X n X n Xn n nX

Esta propiedad permite calcular la M.A. de un conjunto de observaciones conociendo la información de

grupos que componen dicho conjunto. Como ejemplo, si se tiene información de los resultados de la aplicación de un mismo test de

conocimientos de Estadística a tres cursos A, B y C como se muestras a continuación. Interesa conocer la M.A. de los tres cursos en conjunto.

Page 44: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 40

CURSO Nº Alumnos: ni Media Aritm.: iX Productos: i in X A 35 82 2.870 B 23 65 1.495 C 42 78 3.276

TOTAL 100 7.641 X =7641/100=76,41 ptos

La M.A. del conjunto de 100 alumnos es 76,41 puntos.

Prop. 7. La suma de todos los desvíos (diferencias) de los valores de la variable respecto de la media aritmética es cero :

1( ) 0

n

ii

X X

Esta es una importante propiedad de la M.A. motivada por el sentido “distributivo” que se indicó para la M.A., motivo por el cual se producen diferencias positivas y negativas entre los valores de la variable y la M.A. los que se anulan.

En el ejemplo sobre sueldos de 5 personas, se aprecia lo siguiente:

SUELDOS DE 5 PERSONAS (EN M$)

Persona Sueldo (M$) X

Desvíos iX X

Desvíos iX X

Matías 100 100-290,6 -190,6 Andrea 280 280-290,6 -10,6 Eduardo 328 328-290,6 37,4 Alejandra 420 420-290,6 129,4 Claudia 325 325-290,6 34,4 Total 1.453 0

M.Aritmética X =1453/5=290,6(M$) 1( ) 0

n

ii

X X

3.3. FRACTILAS

Sea X una variable cuyos n valores se ordenan de modo que X1<X2<…<Xn . Se define como “Fractila de

orden α” al valor de la variable cuya frecuencia relativa acumulada es igual a “α” (siendo 0<α<1) En general, es más cómodo referirse a estas estadísticas en términos de porcentajes, por lo tanto la

Fractila de orden 0,30 corresponderá al valor de la variable cuya frecuencia relativa acumulada es 0,30 (o cuyo porcentaje acumulado de frecuencias es del 30%). Lo anterior significa que la Fractila de orden 0,30 es el valor de la variable que supera al 30% de los datos (ordenados de menor a mayor) y es superado por el 70% de los mismos.

Son importantes las Fractilas asociados con los valores de frecuencias relativas de 0,25 (llamada

Primer Cuartil), de 0,50 (Mediana) y de 0,75 (Tercer Cuartil), que se denominan genéricamente "Cuartiles" así como las asociadas a los valores de 0,01 a 0,99 que se denominan genéricamente "Percentiles". A continuación se hará mención a estas estadísticas.

3.4. MEDIANA (Me)

3.4.1. Definición Sea X una variable cuyos n valores se ordenan de modo que X1<X2<…<Xn. Se define como Mediana a

aquel valor de la variable cuya frecuencia relativa acumulada es igual a 0,5 ( o cuyo porcentaje acumulado de frecuencias es del 50%, o cuya frecuencia absoluta acumulada es igual a 0,5 n).

La variable debe ser al menos de nivel ordinal.

Page 45: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 41

3.4.2. Determinación en Datos no Tabulados

Ordenando los datos de menor a mayor, la Mediana corresponde al valor que ocupa el lugar central.

Si hay un número impar de datos, la Mediana es el que ocupa el lugar central. Por ejemplo: si los datos

son las edades siguientes (en años): 2, 3, 5, 8, 3, 6, 9, 1, 9. Luego de ordenados se tienen los valores: 1, 2, 3, 3, 5, 6, 8, 9, 9. Por lo tanto, la Mediana corresponde al valor central, o sea Me=5 años.

Si hay un número par de datos, la Mediana se define como la media aritmética de los dos valores centrales. Ejemplo:

Para las edades siguientes (en años) 2 3 5 8 3 6 9 1 9 8, determinar la Mediana. Luego de ordenados se tienen los valores 1 2 3 3 5 6 8 8 9 9 ; luego la Mediana es la media aritmética de los valores centrales 5 y 6, esto es Me=(5+6)/2 = 5,5 años.

3.4.3. Determinación Empleando Ojiva Siendo la Mediana el valor de la variable asociado a la Frecuencia Absoluta Acumulada igual a n/2 ( o a

la Frecuencia Relativa Acumulada de 0,5 ó 50%), para determinarla, en el eje Y, se ubica la Frecuencia Absoluta Acumulada de n/2. Por eses punto, se traza una paralela al eje X hasta intersecar la ojiva. Por el punto de intersección se traza una paralela al eje Y hasta intersecar el eje X. Este último punto define el valor de la Mediana (ver gráfico de Ojiva, en tabulación)

3.4.4. Determinación con Datos Tabulados (TABLA DE FRECUENCIAS)

Se trata de interpolar el valor de la variable correspondiente a Fi=0,5∙n (ó Hi=0,5) . El procedimiento es

el siguiente, empleando la tabla de frecuencias: a) Ubicar el primer intervalo cuya frecuencia absoluta acumulada jF es igual o mayor a (0,5∙n).

Dicho intervalo se denominará "Intervalo de la Mediana" y se denota como "intervalo j-ésimo" b) Sea: infL = Límite inferior del intervalo de la Mediana

jC = Amplitud del intervalo de la Mediana; jn = Frecuencia absoluta del intervalo de la Mediana;

1jF = Frec. absoluta acumulada del intervalo anterior al de la Mediana. c) La Mediana se determina como:

1(0,5 )inf

j j

j

C n FfMe L

d) En forma análoga, se pueden emplear frecuencias relativas acumuladas o % acum.

Ejemplo:

Para los datos sobre estaturas de 40 alumnos, la determinación de la Mediana se realiza así: a) Siendo n/2 = 40/2 = 20 alumnos, se ubica en la columna de Frec. Abs. Acumuladas el primer valor

que supera a 20, resultando ser 28. Por lo tanto, el cuarto intervalo (j=4) de 143 cm a 152 cm es el “Intervalo de la Mediana”.

b) Valorizando los distintos elementos que contiene la expresión de la Mediana, se tiene que: cj = 9 cm ( =152 -143); Linf = 143 cm ; fj = 13 ; Fj-1 = 15

c) El valor de la Mediana es:

1(0,5 )inf

9(20 15)e 143 143 3,4 146,413

j j

j

C n FfM L cm

Page 46: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 42

ALUMNOS SEGÚN ESTATURAS

ESTATURAS (cm) Nº ALUMNOS Nº ALUMNOS Linf - Lsup :Variable) fi:Frec. Absol. Fi :Frec. Absol. acum..

116,0 - 125,0 2 2 125,1 - 134,0 3 5 134,1 - 143,0 10 15 = Fj-1

Linf =143,1 - 152,0 13 = fj 28 = Fj Intervalo (j) de la Mediana 152,1 - 161,0 6 34 161,1 - 170,0 4 38 170,1 - 179,0 2 40

TOTAL 40 = n 3.4.5. Determinación Mediante Interpolación (OPCION LR DE CALCULADORA)

Se trata de interpolar en el "intervalo de la Mediana" como se definió antes. El procedimiento es: a) Seleccione opción LR (Regresión Lineal) en calculadora y limpie las memorias. b) Determinar "intervalo de la Mediana", esto es, el primer intervalo cuya frecuencia absoluta

acumulada jF es igual o mayor a (0,5∙n). En el ejemplo de estaturas de 40 alumnos es el intervalo 143 a 152 cm.

c) Ingrese puntos (Linf; Fj-1) y (Lsup; Fj) del “intervalo de la Mediana”.

En el ejemplo anterior, ingresar (143; 15) y (152; 28) d) Ingresar valor de Y (frecuencia acumulada) tal que Y=(0,5∙n) y obtener el valor de la variable

estimado ( X ). Este valor es la estimación de la Mediana (Me). En el ejemplo, ingresar Y= 20 se obtiene que X = 146,4 cm = Mediana 3.5. GRÁFICO DE "CAJA" O "CAJÓN CON BIGOTES" (box and whisker plot)

40N =

ESTATURAS DE ALUMNOS

ESTATURA

190

180

170

160

150

140

130

120

110

Para graficar la Mediana y los Cuartiles de una distribución se emplea el gráfico de "Caja" (creado por J.Tukey). Consiste en un rectángulo cuyos extremos representan los cuartiles y en cuyo interior se representa la Mediana, como un trazo que divide el cajón. Se dibujan trazos perpendiculares en cada extremo de la caja para representar el recorrido de los datos. Existen diversas variantes.

Este gráfico de la distribución, permite apreciar

estadísticas de posición (Mediana, en la línea que divide el cajón, y extremos que son los Cuartiles), simetría (según si mitades del cajón son iguales o no) y dispersión (según la extensión del cajón, que es el recorrido intercuartílico).

El gráfico del ejemplo anterior está realizado con SPSS. Otros software estadísticos también pueden

realizarlo. Con EXCEL puede realizarse una aproximación, empleando los Gráficos de Cotizaciones, segunda opción. Ahí se presenta esta alternativa. Requiere cuatro valores en el orden siguiente: Primer Cuartil (Apertura), Máximo de los Datos (Máximo), Mínimo de los Datos (Mínimo) y Primer Cuartil (Cierre). En paréntesis se indica el nombre asignado por EXCEL para identificar esos valores. No aparece la línea de la Mediana.

Page 47: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 43

3.6. PERCENTILES Y PUNTOS CENTILES (P(α))

3.6.1. Definición Los percentiles son fractilas en las cuales las frecuencias relativas acumuladas “α” se expresan en

centésimos desde 0,01 a 0,99 Por comodidad, los percentiles se expresan en porcentajes. Se denota como " ( )P a " y se denomina

"Percentil (α∙100)" o "Punto centil (α∙100)" a aquel valor de la variable cuyo porcentaje acumulado de frecuencias es (α∙100)% (siendo 0<α<1 )

Así, el "Percentil 25", representado por P(0,25) o Q1 corresponde al valor de la variable cuya Frecuencia

Relativa Acumulada es 0,25 o cuyo porcentaje acumulado de frecuencias es 25%. Corresponde al valor de la variable que supera al 25% de los datos y es superado por el 75% de los datos (Este valor se denomina "Primer Cuartil"). Análogamente, el "Percentil 75", representado por P(0,75) o Q3 corresponde al valor de la variable cuya Frecuencia Relativa Acumulada es 0,75 o cuyo porcentaje acumulado de frecuencias es 75%. Corresponde al valor de la variable que supera al 75% de los datos y es superado por el 25% (Este valor se denomina "Tercer Cuartil"). El "Percentil 50" es la Mediana. 3.6.2. Determinación Para Datos No Tabulados

Si los datos no están tabulados se puede determinar el percentil asociado con cualquiera de ellos, luego

de ordenarlos, calculando el % de datos a los que es igual o superior. Por ejemplo, si los datos (luego de ordenados) son: 2, 3, 3, 3, 5, 5, 7, 7, 9, 9 entonces los Percentiles

asociados son: para el valor 2 es el P(0,1); para 3 es el P(0,4); para 5 es P(0,6); para 7 es el P(0,8) y para 9 es el P(1,0).

3.6.3. Determinación para Datos Tabulados

La determinación de un percentil cualquiera P(α) se realiza en forma análoga a lo indicado para la

Mediana. Así, en las definiciones señaladas, se reemplaza “0,5∙n” por (α∙ n), la expresión "intervalo de la Mediana" por "intervalo del percentil (α∙100)". La fórmula de interpolación es:

1( )inf( ) j j

j

C n FfP L aa

Ejemplo 1 (Determinación del Percentil 25 ó P(0,25) que es el Primer Cuartil)

Para los datos sobre estaturas de 40 alumnos, la determinación del Percentil 25 (o Primer Cuartil) se realiza así:

ALUMNOS SEGÚN ESTATURAS

ESTATURAS (cm) Nº ALUMNOS Nº ALUMNOS

Linf - Lsup : Variable fi :Frec. Absol. Fi: Frec. Absol. acum.. 116,0 - 125,0 2 2 125,1 - 134,0 3 5= Fj-1

Linf =134,1 - 143,0 10 = fj 15 = Fj Intervalo (j) del Percentil 25 143,1 - 152,0 13 28 152,1 - 161,0 6 34 161,1 - 170,0 4 38 170,1 - 179,0 2 40

TOTAL 40 = n

a) Siendo n/4 = 40/4= 0,25*40=10 alumnos, se ubica en la columna de Frec. Abs. Acumuladas el

primer valor que supera a 15, resultando ser 28. Por lo tanto, el cuarto intervalo (j=3) de 134 cm a143 cm es el “Intervalo del Percentil 25 o Primer Cuartil”.

Page 48: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 44

b) Valorizando los distintos elementos que contiene la expresión del percentil, se tiene que: cj = 9 cm ( =143 -134); Linf = 134 cm ; fj = 13 ; Fj-1 = 15

c) El valor del Primer Cuartil es:

1(0,25 )inf

9(10 5)(0,25) 134 134 4,5 138,510

j j

j

C n FfP L cm

Ejemplo 2: Determinación del Percentil 75 ó P(0,75) que es el Tercer Cuartil

Para los datos sobre estaturas de 40 alumnos, de la tabla anterior, la determinación del Percentil 75 (o Tercer Cuartil) se realiza así:

a) Siendo 3*n/4 = 3*40/4= 0,75*40=30 alumnos, se ubica en la columna de Frec. Abs. Acumuladas el

primer valor que supera a 30, resultando ser 34. Por lo tanto, el quinto intervalo (j=5) de 152 cm a 161 cm es el “Intervalo del Percentil 75 o Tercer Cuartil”.

b) Valorizando los distintos elementos que contiene la expresión del percentil, se tiene que: cj = 9 cm (

=161 -152); Linf = 152 cm ; fj = 6 ; Fj-1 = 28 c) El valor del Terer Cuartil es:

1(0,75 )inf

9(30 28)(0,75) 152 152 3,0 155,06

j j

j

C n FfP L cm

3.6.4. Determinación Mediante Interpolación (OPCION LR DE CALCULADORA)

Se trata de interpolar en el "intervalo del Percentil α" como se definió antes. El procedimiento es: a) Seleccione opción LR (Regresión Lineal) en calculadora y limpie las memorias. b) Determinar "intervalo del Percentil α", esto es, el primer intervalo cuya frecuencia absoluta

acumulada jF es igual o mayor a (α∙n). En el ejemplo de estaturas de 40 alumnos, el “Intervalo del Percentil 25” es el intervalo 134 a 143 cm.

c) Ingrese puntos (Linf; Fj-1) y (Lsup; Fj) del “intervalo de la Mediana”.

En el ejemplo anterior, ingresar (134; 5) y (143; 15) d) Ingresar valor de Y (frecuencia acumulada) tal que Y=(0,5∙n) y obtener el valor de la variable

estimado ( X ). Este valor es la estimación de la Mediana (Me). En el ejemplo, ingresar Y= 10 se obtiene X = 138,5 cm = Percentil 25 = P(0,25) 3.6.5. Percentil asociado con un valor de la variable A partir de la expresión anterior para estimar el valor de la variable que corresponde a un percentil, se puede estimar el porcentaje de datos a los que supera un determinado valor de la variable, (denominado X), esto corresponde al percentil asociado con dicho valor de la variable Para realizar la estimación, se definen los elementos del intervalo al que pertenece el valor de la variable X (como se hizo para la Mediana), en la expresión anterior se reemplaza P(α) por X y se despeja “α∙n” en la expresión anterior, para finalmente despejar “α” . El resultado es:

inf( )1

1 jj

f X Lj cF

na

Page 49: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 45

Ejemplo En los datos de estaturas de los 40 estudiantes, determinar cual es el percentil asociado con la estatura X= 162 cm La estatura X=162 pertenece al intervalo 161-170. Por lo tanto los valores de los términos de la fórmula, obtenidos de la tabla de frecuencias de las estaturas, son: N=40; Linf= 161 ; Cj=9 ; fj= 4; Fj-1=34 . Reemplazando en expresión anterior se obtiene:

a 4(162 161) 4(1)1 1 1

40 9 40 9 4034 34 34,44 0,86

Por lo tanto, la estatura 162 cm corresponde al Percentil 86. La interpretación del resultado anterior es así: un alumno con una estatura de 162 cm supera, en

estatura, al 86% del grupo o sea a 35 alumnos app. (40*0,86=34,4 =35 alumnos). ¿Cómo podría comprobarse la calidad de esta estimación?. Esto es, en que medida esta predicción es correcta o precisa.

ESTATURA DE ALUMNOS (EN %)Nº ALUMNOS

116 125 134 143 152 161 170 179

ESTATURA (cm)

ESTATURA DE ALUMNOS (FRECUENCIAS)Nº ALUMNOS

116 125 134 143 152 161 170 179ESTATURA (cm)

100

80

40

20

60

0

32

40

0

8

16

24

162

35 alum

162

86%

Page 50: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 46

3.7. MODA (Mo) 3.7.1. Definición

La Moda es el valor de la variable que más se repite (corresponde a un "máximo relativo" de la

distribución). Se requiere que la variable sea al menos de nivel nominal.

3.7.2. Estimación

Si los datos no están tabulados la Moda correspondería al valor de la variable con mayor frecuencia relativa. Sin embargo, puede no tener sentido su determinación en estos casos, especialmente si hay pocas repeticiones de los valores de la variable.

Si los datos están tabulados, puede estimarse la Moda como la marca de clase del intervalo que tiene la

mayor frecuencia (absoluta o relativa). En el ejemplo, correspondería a Mo = 147,5 cm. Existen fórmulas para estimar la Moda que consideran las frecuencias del intervalo que tiene la mayor

frecuencia absoluta (o relativa o %), la que se denomina “ jf ”. También se considera la frecuencia absoluta del intervalo anterior “ 1jf ” y del siguiente “ 1jf ” al de mayor frecuencia. Una fórmula para estimar la Moda es:

1

1 1

( )inf ( ) ( )

j j j

j j j j

C f ff f f fMo L ;otra es:

1

1 1

( )inf ( ) ( )

j j

j j

C ff fMo L

Ejemplo: En el ejercicio sobre estaturas de 40 alumnos

1

1 1

( )inf ( ) ( )

9 (13 10) 27143 143 143 2,7 145,7(13 10) (13 6) 3 7

j j j

j j j j

C f ff f f fMo L cm

1

1 1

( )inf ( ) ( )

9(6) 54143 143 143 3,37 146,46 10 16

j j

j j

C ff fMo L cm

ALUMNOS SEGÚN ESTATURAS

ESTATURAS (cm) Marca de clase Nº ALUMNOS Linf - Lsup :Variable fi :Frec. Absol. 116,0 - 125,0 120,5 2 125,1 - 134,0 129,5 3 134,1 - 143,0 138,5 10= fj-1

Linf =143,1 - 152,0 147,5 13 = fj Intervalo (j) con frecuencia mayor

152,1 - 161,0 156,5 6= fj+1 161,1 - 170,0 165,5 4 170,1 - 179,0 174,5 2

TOTAL 40 = n 3.7.3. Observación

Una distribución puede tener más de una Moda relativa, caracterizada por intervalos con frecuencias

mayores a las de los intervalos anterior y siguiente. En el ejemplo siguiente se aprecian 4 Modas.

Page 51: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 47

3.8. CENTRO DEL RECORRIDO

3.8.1. Definición

Es el valor correspondiente a la media aritmética entre la observación mayor y menor de una variable:

CR= ( XMAX + XMIN)/2

3.9. COMPARACIÓN DE LA MEDIA ARITMÉTICA, LA MEDIANA Y LA MODA

Las siguientes son algunas características de la Media Aritmética, la Mediana y la Moda:

a) La Media aritmética es apropiada para variables de nivel intervalar al menos, la Mediana para nivel ordinal y la Moda para cualquier nivel.

b) La Media Aritmética es afectada por los valores extremos de los datos. c) La Mediana puede ser determinada si se desconocen algunos datos (por ejemplo, los extremos),

siempre que se conozca la ubicación relativa que tendrían. d) Si la distribución de la variable es simétrica coinciden las tres estadísticas. e) Si la distribución es asimétrica positiva (cola derecha más larga) entonces Mo<Me< X

Si la distribución es asimétrica negativa (cola izquierda más larga) será: X <Me<Mo. f) Si la variable X sufre una transformación lineal, esto es , se transforma en la variable , tal que Y=aX+b

(siendo a y b constantes) entonces las tres estadísticas sufren la misma transformación. g) Las tres estadísticas son complementarias; ellas suministran diferente tipo de información. h) La siguiente tabla, que compara las características más relevantes de la Media Aritmética, Mediana y

Moda, está adaptada de la que es presentada en el texto de Hopkins, K. D., Hopkins, B.R. y Glass, G. V. (1997) Estadística Básica para las Ciencias del Comportamiento. México: Prentice-Hall Hisp.

CARACTERISTICA MEDIA ARIT. MEDIA-NA MODA

1. Más confiable (en distribuciones normales y muchas de tipo empírico) X 2. Menos confiable X 3. Requiere sólo escalas nominales X 4. Requiere sólo observaciones clasificadas (ordenadas) X 5. Punto debajo del cual y arriba cae la mitad de las observaciones X 6. Centro de gravedad de una distribución X 7. Influye en ella el valor específico de cada observación X 8. Tienen el mismo valor en una distribución simétrica X X 9. Tienen el mismo valor en una distribución normal X X X 10. Tendrá el valor mayor en una distribución sesgada positivamente X 11. Tendrá el valor mayor en una distribución sesgada negativamente X 12. Su valor no es ni mayor ni menor en distribuciones asimétricas X 13. Su definición permite un mejor tratamiento algebraico X 14. Se emplea más ampliamente en métodos estadísticos avanzados X 15. Puede estimarse gráficamente en la ojiva X 16. Puede estimarse rápidamente en histogramas o polígonos de frec. X 17. Es preferible para variables continuas con un fin descriptivo X 18. Es igual a P(0,50) y Q2 X 19. Requiere conocer el valor de cada observación X 20. Requiere conocer nº observaciones y valores centrales de éstas X

Page 52: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 48

3.10. UBICACIÓN DE ESTADISTICAS DE POSICIÓN EN GRÁFICOS Las estadísticas de posición se pueden ubicar en los gráficos Histograma, Polígono de Frecuencias y Ojiva como puntos en el eje de valores de la variable, dado que estas estadísticas corresponden a valores de la variable. En el Polígono de Frecuencias de los datos de estaturas se presentan la ubicación aproximada de la Media Aritmética (146,b cm), la Mediana (146,0 cm) y la Moda (145,7 cm). En este gráfico, la Media Aritmética correspondería al punto de equilibrio de la distribución, La Mediana se asocia al eje que dividiría la distribución en dos áreas equivalentes (50% de frecuencias en cada una) y la Moda es posible asociarla con el punto en que la figura tiene su frecuencia máxima (mayor apuntamiento en la figura).

ESTATURAS DE 40 ALUMNOS (EN CM)

0

2

4

6

8

10

12

14

102,5 111,5 120,5 129,5 138,5 147,5 156,5 165,5 174,5 183,5 192,5

ALU

MN

OS

ESTATURA (CM)

Media Arit:. 146,8Mediana: 146,0

Moda: 145,7

En la Ojiva se puede ubicar fácilmente la Mediana, Cuartiles o Percentiles en el eje de la variable dado que estas estadísticas están asociadas con fracciones específicas de frecuencias acumuladas: 50% para la Mediana; 25% y 75% para Cuartiles, etc. Ver el punto 2.5.5 “Empleo de la Ojiva para determinar Mediana y Cuartiles”. 3.11. EJERCICIOS 1. Calcule las estadísticas de posición para el Ejercicio Nº2 (para desarrollar de Tabulación) para el total y

para cada edad, 14 y 16 años. Compare resultados. 2. Calcule estadísticas básica para los datos de Ejercicios para Desarrollar (de Tabulación) números 3, 4, 6,

7, 8, 9 y 10. Comente resultados de cada ejercicio. 3. El gráfico siguiente presenta los resultados obtenidos por 20 personas en un test de conocimientos de

Estadística. Estime (si es posible) la o las estadísticas o valores siguientes: 1. Número de personas que tienen puntajes entre 22 y 53 puntos 2. Media aritmética 3. Mediana 4. Moda

Page 53: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 49

personas20

15

10

5

10 20 30 40 50 60Puntajes

4. El gráfico siguiente (realizado con SPSS), presenta las estaturas de tres grupos de estudiantes (en cm). Los

puntos indican valores extremos. Los valores en los rótulos de grupo corresponden al número de observaciones da cada uno (40 en Grupo A, 32 en Grupo B y 35 en Grupo C) a) Identifique el tipo de gráfico b) Estime los valores de las estadísticas presentadas. c) Compare los grupos respecto a sus estadísticas de posición. Escriba un informe.

353240N =

ESTATURAS DE ESTUDIANTES

GRUPO

GRUPO CGRUPO BGRUPO A

ESTA

TURA

200

190

180

170

160

150

140

130

120

110

100

5. Vea otros ejercicios sobre Est. de Posición en los ejercicios de Estadísticas de Dispersión

Page 54: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 50

4. ESTADÍSTICAS DE DISPERSIÓN 4.1. VARIANZA (σ2, S2 )

4.1.1. Definiciones

Sea una variable X cuyos valores son X1, X2,...,Xn. Se define como Varianza a la media aritmética de los desvíos, al cuadrado, de los valores de la variable respecto de la media aritmética de la misma.

V(X)= σ2 = 2

1

1 ( )n

ii

X Xn

(Varianza Poblacional)

V(X)= S2 = 2

1

1 ( )( 1)

n

ii

X Xn

(Varianza Muestral)

4.1.2. Ejemplos de cálculo a) Datos no tabulados Se tiene información sobre ingresos de 5 personas. La varianza se calcula así:

SUELDOS DE 5 PERSONAS (EN M$)

Persona Sueldo (M$)

X Desvíos

iX X Desvíos

iX X (Desvíos)2

2( )iX X Matías 100 100-290,6 -190,6 36.328,36

Andrea 280 280-290,6 -10,6 112,36 Eduardo 328 328-290,6 37,4 1.398,76 Alejandra 420 420-290,6 129,4 16.744,36 Claudia 325 325-290,6 34,4 1.183,36 Total 1.453 0 55.767,20

X =290,6(M$) 1( ) 0

n

ii

X X

La varianza poblacional es: 2 255.767,2 11.153,4 ( $)5

Mσ = =

La varianza muestral es 2 255.767,2 13.941,8 ( $)4

S M= =

b) Datos tabulados (Ejemplo de estaturas del apunte)

ESTATURAS (cm)

MARCA DE CLASE

NÚMERO ALUMNOS

FREC. RELATIVA Desvios Desvios 2 (Desvíos)2fi (Desvíos)2hi

Linf - Lsup (Xi) (fi) (hi) Xi-147,05 (Xi-147,05)2 (Xi-147,05)2fi (Xi-147,05)2hi

116,0 - 125,0 120,5 2 0,050 -26,550 704,90 1409,81 35,25125,1 - 134,0 129,5 3 0,075 -17,550 308,00 924,01 23,10134,1 - 143,0 138,5 10 0,250 -8,550 73,10 731,03 18,28143,1 - 152,0 147,5 13 0,325 0,450 0,20 2,63 0,07152,1 - 161,0 156,5 6 0,150 9,450 89,30 535,81 13,40161,1 - 170,0 165,5 4 0,100 18,450 340,40 1361,61 34,04170,1 - 179,0 174,5 2 0,050 27,450 753,50 1507,01 37,68

TOTAL 40 1,00 3,150 2.269,42 6.471,90 161,80

Varianza Poblacional: 2 26.471,9 161,840

cmσ = =

Varianza muestral: 2 26.471,9 165,9539

S cm= =

Page 55: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 51

4.1.3. Propiedades Prop. 1: La varianza se expresa en el cuadrado de la unidad de la variable.

Prop. 2: El valor de la varianza es mayor o igual a cero. Prop. 3: La varianza de una constante es igual a cero: V(c) = 0

Prop. 4: La varianza de una suma de variables independientes es igual a la suma de las varianzas de las

variables: V(X+Y) = V(X)+V(Y)

Prop. 5: La varianza de una variable más una constante es igual a la varianza de la variable: V(X+c) = V(X)

Ejemplo: Se emplearán datos del ejemplo de esta propiedad para la Media Aritmética, sobre edades de 5 personas:

Edad Actual Edad en 5 años

más Desvíos X Desvíos2 X Desvíos Y Desvíos2 Y

X Y=X+5 (Xi-21,8) (Xi-21,8)2 (Yi-26,8) (Yi-26,8)2

Matías 10 15 -11,8 139,24 -11,8 139,24Andrea 26 31 4,2 17,64 4,2 17,64Eduardo 28 33 6,2 38,44 6,2 38,44Alejandra 20 25 -1,8 3,24 -1,8 3,24Claudia 25 30 3,2 10,24 3,2 10,24Total 109 134 0,00 208,8 0,00 208,8

= 21,8 años = 26,8 años 52,2 años2 52,2 años2

Persona

X Y 2Xs 2

Ys

Prop. 6: La varianza de una variable por una constante es igual a la constante al cuadrado por la varianza de

la variable: V(c∙X) = c2V(X)

Ejemplo: Se emplearán datos del ejemplo de esta propiedad para la Media Aritmética, sobre sueldos de 5 personas:

Sueldo actual (M$)

Reajuste Sueldo Reajustado

Desvíos X Desvíos2 X Desvíos Y Desvíos2 Y

X 0,1X Y=(1,1)X (Xi-290,6) (Xi-290,6)2 (Yi-319,66) (Yi-319,66)2

Matías 100 10,0 110,0 -190,6 36.328,36 -209,66 43.957,32Andrea 280 28,0 308,0 -10,6 112,36 -11,66 135,96Eduardo 328 32,8 360,8 37,4 1.398,76 41,14 1.692,50Alejandr 420 42,0 462,0 129,4 16.744,36 142,34 20.260,68Claudia 325 32,5 357,5 34,4 1.183,36 37,84 1.431,87Total 1.453 145,3 1.598,3 0,00 55.767,20 0,00 67.478,31

=290,6(M$) =319,66 (M$)11.153,44(M$)2 13.495,66(M$)2

Persona

X Y 2Xs 2

Ys

Se verifica que 2 2 2 2(1,1) 1,21Y X Xs s s pues 2 2(1,1) (11.153, 44) (1,21)(11.153, 44) 13.495,66Ys

Prop. 7: Las propiedades anteriores se resumen en que si la variable X sufre una transformación lineal, entonces la varianza de la variable transformada es:

V( aX+b) = a2V(X)

Page 56: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 52

Prop. 8. (Varianza ponderada). Si se tienen "k" muestras de tamaños n1, n2,...,nk y cuyas medias aritméticas son, respectivamente, 1 2, ,..., kX X X y cuyas varianzas poblacionales son respectivamente σ2

1, σ22,…,

σ2k entonces la media aritmética del total de observaciones es:

1 1 2 21 2 ...

k kk

n X n X n Xn n nX

y la varianza poblacional es: 2 2 21 ( )i i i ii in X X n

ns s

Si se conocen las varianzas muestrales, S21, S

22,…, S2

k de cada muestra, entonces la varianza muestral del conjunto de observaciones es:

2 2 21 ( 1) ( )( 1) i i i ii i

S n S X X nn

Ejemplo: Se dispone de información sobre estaturas y varianzas muestrales de tres grupos de estudiantes. Se desea estimar la estatura media ( X ) y la varianza ( 2S )del conjunto completo de alumnos (107 casos).

GRUPO Alumnos ( in )

MEDIA (cm) iX

VARIANZA Muestral (cm2)

2iS

i in X 2( 1)i in S ( )iX X 2( )i iX X n

Grupo A 40 146,78 177,92 5.871,20 6.938,88 1,48 87,44 Grupo B 32 126,13 291,79 4.036,16 9.045,49 -19,17 11.761,48 Grupo C 35 161,14 152,36 5.639,90 5.180,24 15,84 8.780,04 TOTAL n=107 X 145,30 2S 394,28 15.547,26 21.164,61 -1,85 20.628,96

La estatura media del grupo total de n=107 alumnos es igual a:

1 1 2 21 2 ...

k kk

n X n X n Xn n nX

= 15.547,26 145, 30107

cm

La varianza muestral del grupo completo es igual a:

2 2 21 ( 1) ( )( 1) i i i ii i

S n S X X nn

= 1 1(21.164,61 20.628,96) (41.793,57) 394,28

106 106 cm2

4.2. DESVIACIÓN ESTÁNDAR (σ; S)

4.2.1. Definición

La Desviación Estándar es la raíz cuadrada positiva de la varianza.

4.2.2. Ejemplos a) Datos no tabulados En ejemplo de varianza para datos no tabulados, σ2 = 11.153,44(M$)2 Por lo tanto la desviación estándar poblacional es σ = 2 11.153, 44s 105,61 M$. En forma análoga, siendo la varianza muestral S2 = 13.941,8 (M$)2. Entonces, la desviación estándar muestral es S= 118,08 M$ b) Datos tabulados (Ejemplo de tabulación estaturas de 40 alumnos) La varianza poblacional es σ2 =161,8 cm2, luego la desviación estándar poblacional es igual a

σ = 161,8 = 12,72 cm. La varianza muestral es S2 = 165,95 cm2, por lo tanto la desviación estándar muestral corresponde a

S= 165,95 = 12,88 cm.

Page 57: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 53

4.2.3. Propiedades

Prop. 1: La desviación estándar se expresa en la misma unidad de la variable.

Prop. 2: El valor de la desviación estándar es mayor o igual a cero. Prop. 3: Si la variable X tiene desviación estándar σ(X) y si esta variable experimenta una transformación

lineal, Y=aX+b entonces la desviación estándar de la variable transformada es: σ(aX+b) = a∙σ(X)

4.2.3. Cálculo con calculadora

La calculadora entrega el valor de la desviación estándar poblacional (xσ n) o de la desviación estándar muestral (xσ(n-1)) directamente.

4.3. RECORRIDO Y RECORRIDO INTERCUARTÍLICO

4.3.1. Definiciones El "Recorrido" es la diferencia entre el mayor y el menor valor de una variable.

Rec= XMAX - XMIN El "Recorrido intercuartílico" es la diferencia entre el tercer y primer cuartil. Ric = P(0,75) – P(0,25) = Q3 – Q1

Ejemplo: Para la distribución de estaturas, el recorrido es Rec=178 - 116=62 cm

Y el Recorrido Intercuartílico es Ric= 155,0 – 138,5 = 16,5 cm

4.3.2. Propiedades

a) El recorrido indica la cantidad de unidades de variable que separan las observaciones extremas de toda la distribución, mientras que el recorrido Intercuartílico señala la cantidad de unidades que separa las observaciones que comprenden al 50% central de las mismas.

b) Las dos medidas de variabilidad anteriores son fáciles de calcular. c) Ambas no toman en cuenta los valores particulares de los datos de la distribución. d) El recorrido es muy influenciado por la existencia de observaciones extremas. El recorrido intercuartílico

es menos influenciado por los valores extremos.

4.4. COEFICIENTE DE VARIACIÓN

4.4.1. Definición

Es el cuociente entre la desviación estándar y la media aritmética de una distribución. (CV= SX

)

Para una población, corresponde a CV= sm (μ=Esperanza o media aritmética poblacional)

Ejemplo: Para la distribución de estaturas, del ejemplo de Tabulación, considerándola como una muestra, el

Coeficiente de Variación es: CV= SX

=12, 88147, 05 =0,0876 (o se expresa como 8,8%)

Page 58: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 54

4.4.2. Propiedades a) Es una medida de variabilidad relativa, mide la dispersión en unidades de media aritmética. b) Se expresa en números absolutos, sin unidades. Esto permite comparar CV de diversas distribuciones

de variables expresadas en diversas unidades. 4.5. ERROR TÍPICO (O DE MUESTREO) Y ERROR DE ESTIMACIÓN (d)

El Error Típico (o de Muestreo) de la Media se define como la Desviación Estándar dividida por la raíz

cuadrada del número de observaciones. . . SETn

Es una medida de variabilidad corregida por el tamaño de la muestra. Se emplea para realizar

estimaciones de la Media Poblacional. El Error de Estimación (de la Media) se define como el error típico multiplicado por un coeficiente asociado con la distribución de los datos (Distribución Normal o Distribución t)

d= tSn

Tanto el Error Típico como el Error de Estimación (con el nombre de Nivel de Confianza), así como otras estadísticas, son entregadas por el software EXCEL en el procedimiento de Estadística Descriptiva, de las Herramientas de Análisis.

Ejemplo.

Para la distribución de estaturas se tiene que: . . SETn

= 12, 88 12, 886, 3240

=2,04 cm

El error de estimación es, considerando t=2 , d=2.(2,04)=4,08 cm 4.6. GRÁFICOS

4.6.1. Gráfico de Media Aritmética y Desv. Estándar

Se puede representar gráficamente la Media Aritmética y la Desviación estándar mediante un gráfico de

trazos, horizontales o verticales, que representan intervalos. Para ello se ubica el punto que corresponde a la Media Aritmética y que será el centro del intervalo. A ese valor se le suma la Desviación Estándar, lo que define el punto mayor del intervalo. A la Media Aritmética se le resta la Desviación Estándar y esa diferencia define el extremo inferior del intervalo. En resumen, los tres valores que definen el trazo representativo de una variable son:

(Media Arit.+ Desv. Est.) ; (Media Arit.); (Media Arit.- Desv. Est.) Estos gráficos de trazos son una excelente manera de representar Medias y Desviaciones Estándar de

distintas muestras y poder comparar las características de posición y dispersión de las distribuciones representadas. Los software estadísticos permiten representar trazos definidos con diversas medidas definir los extremos de los mismos. Así, en vez de emplear la Desviación Estándar, se puede emplear el Error Estándar para realizar este gráfico.

(Media Arit.+ Error Típico) ; (Media Arit.); (Media Arit.- Error Típico) Ejemplos:

A continuación se presentan los gráficos (realizados con SPSS) de las estaturas de tres grupos de estudiantes, que se emplearon en la estimación de la Varianza Ponderada. También se puede emplear Excel para realizar estos gráficos, con algunas limitaciones. Más adelante, en un ejemplo de análisis con Excel se indicará como se realizan los gráficos

Page 59: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 55

353240N =

ESTATURAS DE TRES GRUPOS ALUMNOS

Gráfico de Media +- Desviación Típica)

GRUPO CGRUPO BGRUPO A

ESTA

TUR

A (c

m)

180

160

140

120

100

353240N =

ESTATURAS DE TRES GRUPOS ALUMNOS

Gráfico de Media +- Error Típico)

GRUPO CGRUPO BGRUPO A

ESTA

TUR

A (c

m)

170

160

150

140

130

120

4.6.2. Gráfico de Media Aritmética y Error de Estimación

Si se emplea el Error de Estimación, en vez de la Desviación Estándar, el trazo definido por los puntos:

(Media Arit.+Error de Estimación); (Media Arit.); (Media Arit.-Error de Estimación)

353240N =

ESTATURAS DE TRES GRUPOS ALUMNOS

Gráfico Media +- Error de Estimac. de Media)

(Interv. de Confianza del 95% para Media)

GRUPO CGRUPO BGRUPO A

ESTA

TUR

A (c

m)

170

160

150

140

130

120

110

Este gráfico se emplea en Inferencia, en el tema de Estimación de parámetros poblacionales mediante Intervalos de Confianza construidos a partir de muestras tomadas de poblaciones.

El intervalo definido por los puntos extremos anteriores tiene la propiedad de contener el conjunto de valores entre los cuales se espera se encuentre el verdadero valor de la Media Poblacional, esto es el promedio de la población que está siendo estimada mediante la Media Aritmética de la muestra seleccionada de dicha población y que se emplea para definir el centro del intervalo respectivo.

Si se representan varias muestras de poblaciones diversas mediante el gráfico de trazos de medias y errores de estimación, pueden realizarse inferencias acerca de las Medias Poblacionales respectivas. Así, si dos trazos se superponen, esto es tienen algún punto común, ello se interpreta en el sentido que las Medias Poblacionales respectivas son iguales (con un cierto nivel de seguridad controlado).

En el ejemplo anterior, si los grupos corresponden a muestras de poblaciones, puede afirmarse

entonces (con 95% de confianza), que la estatura media del Grupo C es mayor (significativamente, se dice) que la estatura media de los otros grupos. A su vez, la estatura media del grupo A es mayor (significativamente) que la estatura media del grupo B.

Page 60: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 56

4.7. ESTADÍSTICAS DE RESUMEN CON EXCEL 4.7.1. Cálculo escribiendo funciones

A continuación se presenta la forma de usar Excel para calcular las estadísticas de resumen de posición de dispersión escribiendo los comandos de las funciones respectivos, considerando que los datos se ubican entre A4 y H8. Notar que el cursor destaca el calculo de la Media Aritmética.

4.8.2. Usando Funciones para Análisis En Herramientas se activa Análisis de Datos. Para usar este procedimiento los datos se deben ubicar en una sola columna o una sol fila. En el ejemplo, los datos se ubican entre A1 y A41. Se selecciona la opción Estadística Descriptiva

En la pantalla de Estadística Descriptiva se llenan los campos que se indican en diagrama siguiente:

Page 61: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 57

El resultado se presenta a continuación

En el ejemplo sobre análisis descriptivo empleando Excel (más adelante) se presentan otros cálculos usando funciones o el procedimiento de Análisis de Datos.

Page 62: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 58

4.8. Ejercicios 1. Calcule Media Aritmética y Desviación Estándar para datos de Ej. 1 de Tabulación (Para desarrollar) sobre

puntajes obtenidos en una prueba por estudiantes de 14, 16 y total de casos. Grafique estadísticas, compare y comente resultados. ¿Qué grupo presenta puntajes más altos?¿Cual grupo presenta puntajes más homogéneos? (Intente usar Excel para calcular estadísticas)

2. En ejercicio anterior, compruebe que la Media Aritmética ponderada de los resultados para 14 y para 16

años es equivalente a la Media Aritmética calculada directamente con todos los 80 datos. 3. En ejercicio anterior, compruebe que la Varianza ponderada de los resultados para 14 y para 16 años es

equivalente a la varianza calculada directamente con todos los 80 datos. 4. Si las calificaciones finales de un curso de 50 alumnos, cuya Media aritmética es 5,3 y cuya varianza

muestral es 0,2 puntos2, estudie el efecto que tendría en las Media Aritmética y la Desviación Estándar de las calificaciones si estas fueran modificadas mediante:

a) Adición de 1 punto a cada una de ellas b) Aumento de 5% a cada una de las calificaciones.

5. Se midió la estatura de 80 personas obteniéndose una estatura media de 1,70 m y una Varianza de 7,4 m2.

Posteriormente se verificó que el instrumento empleado para medir tenía un error de 3 cm. Esto es, una persona que media efectivamente 1,68 m el instrumento registraba 1,65 m. Indique cuales serían los valores correctos de la Media Aritmética y la Varianza.

6. Se aplicó una misma prueba a tres cursos A, B y C, que tienen 25, 35 y 40 alumnos respectivamente El

curso A obtuvo un puntaje medio de 100 puntos con una Desviación Estándar muestral de 15 puntos. El curso B obtuvo un puntaje medio de 90 puntos y Desviación Estándar muestral de 10 puntos y el curso C obtuvo un puntaje medio de 115 puntos con una Desviación Estándar muestral de 20 puntos.

a) ¿Qué curso presenta un mejor rendimiento medio? b) ¿Qué curso presenta mayor homogeneidad en sus resultados? c) ¿Qué curso tiene una menor variabilidad relativa? d) ¿Cuál es el rendimiento medio del total de 100 alumnos de cursos A, B y C? e) ¿Cuál es la Desviación Estándar muestral del total de 100 alumnos?

7. En una empresa donde los salarios base de 20 trabajadores tienen una Media Aritmética de $250.000.- y

una Desviación Estándar de $ 12.000.- el sindicato propone aumentarlos de modo que cada salario Xi se transforme en Yi mediante la relación:

Yi = 1,15Xi + 10.000 a) ¿Cómo se interpretan los valores 1,15 y 10.000 de la transformación propuesta? b) Si se realiza la transformación indicada por el sindicato, estime el nuevo salario medio y la

nueva Desviación Estándar c) Compruebe que para la empresa el cambio de salarios propuestos por el sindicato significa

destinar $950.000.- más en la planilla de sueldos.. d) Si la empresa propone destinar sólo $600.000.- para aumentar la planilla de sueldos, estudie

que modificaciones se podrían realizar (como bonificaciones, reajustes o ambos). En cada caso, estime los salarios medios y sus desviaciones estándar respectivas.

e) Compare las Desviaciones Estándar para los salarios actuales, para los salarios con la propuesta del sindicato y para los resultantes con la propuesta de la empresa ¿Cuál de ellos significa lograr una mayor homogeneidad de los salarios? Realice lo mismo empleando los Coeficientes de Variación de los salarios.

8. Los puntajes obtenidos por 50 alumnos se clasifican en una tabla de frecuencias con cuatro intervalos de

igual amplitud, resultando un puntaje medio de 62,4 puntos. Si se dispone de la información siguiente, calcule la varianza (si es posible) o indique las razones en caso negativo:

Marca de clase del 2º intervalo = y2 =50 puntos; f1= 4; f3= 25; F2= 20

Page 63: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 59

5. ESTADÍSTICAS DE SIMETRÍA Y DE APUNTAMIENTO Las estadísticas de simetría y apuntamiento, si bien no son tan empleadas como las de posición o dispersión, entregan un resumen de características de las distribuciones que tienen importancia para el diseño de pruebas (test). La simetría y el apuntamiento permitirían estimar si la distribución de los resultados de un test se parece a los de una variable con distribución normal. Los coeficientes de simetría y apuntamiento se obtienen fácilmente cuando se emplea un software estadístico para procesar los datos, aunque las fórmulas empleadas por éstos no son simples pues, se basan en el concepto de “momentos”. Se presentaran estas fórmulas y la forma de interpretarlas así como una fórmula más simple para medir la simetría, aunque poco empleda, basada en los cuartiles y mediana. 5.1. Momentos Respecto a la Media. Definición y Cálculo Sea la variable X cuya media es X , se define como momento de orden “r” respecto a la media, simbolizado como “mr”, al promedio de los desvíos de la media ( )iX X elevados a la potencia “r”. Esto es,

mr= 1( )

nr

ii

X X

n

;para datos agrupados: mr= 1

( )m

ri i

iX X f

n

Es fácil constatar que m1 =0 y que m2 = 2s (varianza poblacional). Se presenta el cálculo de los momentos de orden 2, 3 y 4, de los datos del ejemplo de estaturas de 40 alumnos, pues se usarán para definir las estadísticas de simetría y apuntamiento. La estatura media es X 147,05 cm.

CÁLCULO DE MOMENTOS – EJEMPLO ESTATURAS DE 40 ALUMNOS ESTATURAS (cm) MARCA DE

CLASENÚMERO ALUMNOS

Linf - Lsup (Xi) (fi)116,0 - 125,0 120,5 2 -26,55 -53,10 704,903 1.409,81 -18.715,161 -37.430,32 496.887,535 993.775,07

125,1 - 134,0 129,5 3 -17,55 -52,65 308,003 924,01 -5.405,444 -16.216,33 94.865,540 284.596,62

134,1 - 143,0 138,5 10 -8,55 -85,50 73,103 731,03 -625,026 -6.250,26 5.343,976 53.439,76

143,1 - 152,0 147,5 13 0,45 5,85 0,202 2,63 0,091 1,18 0,041 0,53

152,1 - 161,0 156,5 6 9,45 56,70 89,302 535,81 843,909 5.063,45 7.974,937 47.849,62

161,1 - 170,0 165,5 4 18,45 73,80 340,403 1.361,61 6.280,426 25.121,70 115.873,862 463.495,45

170,1 - 179,0 174,5 2 27,45 54,90 753,502 1.507,01 20.683,644 41.367,29 567.766,018 1.135.532,04

TOTAL 40 0,00 6.471,90 11.656,71 2.978.689,08

Momento Orden 2Momento Orden 1 Momento Orden 3 Momento Orden 4

( )iX X 2( )iX X 2( )i iX X f 3( )iX X( )i iX X f 3( )i iX X f 4( )iX X 4( )i iX X f

Momento orden 2:

m2=2( )n

i íiX X f

n =

2( 147, 05)ni ii

X fn

= 6.471,9040

=161,80 cm2 (= 2s varianza poblacional)

Momento orden 3:

m3=3( )n

i íiX X f

n =

3( 147, 05)ni ii

X fn

= 11.656,7140

=291,42 cm3

Momento orden 4:

m4=4( )n

i íiX X f

n =

4( 147, 05)ni ii

X fn

= 2.978.689, 0840

=74.467,23 cm4

Page 64: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 60

5.2. Características de Distribuciones Simétricas y Asimétricas.

La simetría es una característica que pueden tener las distribuciones, y que se aprecia visualmente en que ésta presenta dos partes iguales respecto a un eje.

En el gráfico de frecuencias, (Histograma o Polígono de Frecuencias), se puede reconocer fácilmente,

pues presenta características similares a ambos lados de un eje que pasa por el centro de la distribución. Si la cola a la derecha es más alargada que la cola a la izquierda del eje, se dice que la distribución tiene “asimetría positiva”. Si, por el contrario, la cola a la izquierda es más alargada que la derecha, se dice que la distribución tiene “asimetría negativa”

En la tabla de frecuencias de una distribución simétrica (ver ejemplo en página siguiente), se observará

que las frecuencias son iguales, o muy parecidas, respecto a algún valor central de la variable o a algún intervalo central. La distribución normal es un ejemplo de una distribución simétrica perfecta, pero hay otras.

En una distribución simétrica unimodal se puede observar que:

a) La Media Aritmética, la Mediana y la Moda tienen el mismo valor. b) El primer cuartil (P0,25) y el tercer cuartil (P0,75) son simétricos respecto a

la Mediana, esto es : Me - P0,25 = P0,75 – Me (o, Me – Q1 = Q3 – Me)

Otros ejemplos de distribuciones simétricas

Distribución Simétrica Bimodal Distribución Simétrica sin Moda

En una distribución unimodal asimétrica hacia la derecha (asimetría positiva):

a) Moda < Mediana< Media Aritmética b) P0,75 – Me > Me - P0,25 (o, Q3 – Me > Me – Q1 )

Page 65: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 61

En una distribución unimodal asimétrica hacia la izquierda (asimetría negativa): a) Media Aritmética < Mediana < Moda b) Me - P0,25 > P0,75 – Me (o, Me – Q1 > Q3 – Me )

5.3. Análisis Gráfico de la Simetría El Histograma o el Polígono de Frecuencias evidencian la simetría o la asimetría de la distribución,

según lo indicado antes. Para el ejemplo de las estaturas de 40 alumnos, se aprecia que la distribución es relativamente simétrica:

120,00 130,00 140,00 150,00 160,00 170,00

ESTATURA

2

4

6

8

10

Recuent

o

ESTATURA ALUMNOS

El Gráfico de Cajón está basado en la representación de la Mediana y los Cuartiles. Si una distribución es simétrica, el cajón quedará ubicado al centro de los bigotes. Si tiene asimetría positiva, el bigote del lado derecho será más largo que el del lado izquierdo y la Mediana se desplazará a la izquierda dentro del cajón. Si una distribución tiene asimetría negativa, el bigote izquierdo será más largo que el derecho y la Mediana se desplazará a la derecha dentro del cajón. Para los mismos datos de estaturas, se ratifica la apreciación anterior.

40N =

ESTATURAS DE ALUMNOS

ESTATURA

190

180

170

160

150

140

130

120

110

La Ojiva, especialmente la construida con las frecuencias relativas acumuladas, puede emplearse para

estudiar la simetría de una distribución o para hacer comparaciones. Si una distribución es simétrica, su ojiva presentará un crecimiento paulatino que se aprecia simétrico respecto a un eje imaginario diagonal. Si una distribución tiene asimetría positiva, su ojiva presenta un ascenso brusco para valores bajos de la variable para después continuar creciendo lentamente. Si una distribución tiene asimetría negativa, su ojiva presenta un crecimiento lento en valores bajos de la variable para aumentar bruscamente en valores altos de la variable.

Page 66: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 62

Los ejemplos siguientes ilustran lo señalado:

DISTRIBUCIONES DE PUNTAJES

PUNTAJES SIMÉTRICA ASIMETRÍA POSITIVA

ASIMETRÍA NEGATIVA

15 - 20 1 5 1

20 - 25 2 10 1

25 - 30 5 8 1

30 - 35 7 7 3

35 - 40 10 4 4

40 - 45 7 3 7

45 - 50 5 1 8

50 - 55 2 1 10

55 - 60 1 1 5

TOTAL 40 40 40

OJIVA Y SIMETRÍA

0

20

40

60

80

100

120

5 15 25 35 45 55 65PUNTAJES

PORC

ENTA

JES

SIMÉTRICAASIM. POSITIVAASIM. NEGATIVA

5.4. Coeficientes de Simetría

Se han definido diversos coeficientes de simetría. La interpretación de los mismos puede apoyarse en

los gráficos como Histograma, Polígono de Frecuencias o Gráfico de Cajón. También se puede emplear la Ojiva, aunque puede ser más difícil percibir la simetría de la distribución. Los coeficientes se expresan en términos absolutos, esto es, sin unidad (aunque variable se exprese en cm, k o $ etc.) 5.4.1. Coeficiente de BOWLEY

Esta basado en la relación entre los cuartiles. Es fácil de calcular.

0,75 0,25 0,75 0,25 3 11

0,75 0,25 0,75 0,25 3 1

( ) ( ) ( 2 ) 2P Me Me P P Me P Q Me QSP P P P Q Q

La interpretación del coeficiente S1 es la siguiente: S1>0 La distribución tiene asimetría positiva S1=0 La distribución es simétrica S1<0 La distribución tiene asimetría negativa

Ejemplo: Para el ejemplo de las estaturas de 40 alumnos: Q1=138,5 cm ; Me=146,46 cm; Q3=155,0

1155, 0 2(146, 46) 138,5 155, 0 292,92 138,5 293,5 292,92 0,58 0, 035

155, 0 138,5 155, 0 138,5 155, 0 138,5 16,5S

Dado que el valor de S1=0,035 es próximo a 0 y considerando lo que se aprecia en los gráficos, se puede concluir que la distribución de estaturas es simétrica.

5.4.2. Coeficiente de PEARSON (Basado en momentos)

El coeficiente de Pearson (basados en los momentos) se fundamenta en una propiedad del tercer

momento respecto a la media (m3) que es 0 para las distribuciones simétricas. El coeficiente de simetría de Pearson se define como:

Page 67: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 63

3 3 32 3/2 3/223

2 2 ( )m m mS

mm s (con 2s varianza poblac.)

La interpretación del coeficiente S2 es la siguiente (dado que el signo depende de m3):

Si S2>0 La distribución tiene asimetría positiva Si S2=0 La distribución es simétrica Si S2<0 La distribución tiene asimetría negativa

En el ejemplo de las estaturas de 40 alumnos:

m2 =161,80 cm2 m3=291,42 cm3

32 3 3

2

291, 42 291, 42 291, 42 0,1422.058,114.235.801, 03161, 80

mSm

Por lo tanto, dado que S2=0,142>0 se concluiría que la distribución de estaturas tiene asimetría positiva.

Sin embargo, este valor no es muy grande y ello plantea la duda acerca de la posibilidad que la distribución pueda ser simétrica, dado que al observar los gráficos de la misma (Histograma, Polígono, o Cajón) se aprecia bastante simétrica.

5.5. Tablas del Coeficiente de Simetría de Pearson

El problema, entonces, es ¿hasta que valores del coeficiente S2 se puede aceptar que la distribución es

simétrica?. Si se estudia una población, habría que emplear la pauta anterior para interpretar los valores S2. Si se trabaja con una muestra de datos, la respuesta la entrega Inferencia, que estudia el comportamiento de muestras y poblaciones de la cual provienen. La tabla (de Pearson, E. S. y Hartley, H. O.), que se presenta al final de esta sección, condiciona la conclusión al tamaño de la muestra estudiada, entregando márgenes para la aceptación de la simetría de la distribución, con un riesgo de tomar una decisión incorrecta del 10%.

Por ejemplo, para muestras de tamaño 40, la tabla se interpreta así: Si S2 <-0,587 la distribución tiene asimetría negativa Si -0.587< S2 <0,587 la distribución es simétrica Si S2> 0,587 la distribución tiene asimetría positiva Volviendo al ejemplo de las estaturas, si consideramos al conjunto de los 40 alumnos como una

muestra, entonces se concluye que la distribución de estaturas es simétrica pues S2= 0,142 está en el intervalo (-0.587< S2 <0,587), existiendo un riesgo del 10% de equivocarse al decidir lo anterior.

5.6. Estadística de Apuntamiento (Curtosis)

El apuntamiento, también denominado CURTOSIS, es una característica de una distribución que

corresponde al grado de ajuste que esta presenta con respecto a una normal que tiene la misma media y desviación estándar.

Si la distribución de frecuencias presenta frecuencias centrales más altas que las correspondientes en

la distribución normal ajustada, se dice que la distribución de frecuencias es MAS APUNTADA que la normal (leptocúrtica). Si la distribución de frecuencias presenta frecuencias centrales más bajas que las correspondientes en la distribución normal ajustada, se dice que la distribucion de frecuencias es MENOS APUNTADA que la normal (platicúrtica). Si las frecuencias centrales son semejantes en la distribución de frecuencias y en la normal se dice que tienen un apuntamiento SEMEJANTE (mesocúrtica).

El Histograma de la distribución de estaturas, presentado para simetría, mostraría que ésta es más

apuntada que la normal. Sin embargo, conviene corroborar este análisis gráfico con el apoyo de algún coeficiente.

Page 68: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 64

5.7. Coeficiente de Apuntamiento de Pearson (B2) y Tablas El coeficiente de apuntamiento de Pearson se basa en el cuarto momento respecto a la media. Se define el Coeficiente de Apuntamiento de Pearson como:

4 42 2 2 2

2( ) ( )m mBm s

(siendo 2s la varianza poblacional)

Este coeficiente, que no tiene unidad, alcanza el valor 3 para la distribución normal. La interpretación de los valores observados es la siguiente:

Si B2 > 3 La distribución es MÁS apuntada que la normal (Leptocúrtica) Si B2 = 3 La distribución es IGUALMENTE apuntada que la normal (Mesocúrtica) Si B2 < 3 La distribución es MENOS apuntada que la normal (Platicúrtica)

Ejemplo: Para el ejemplo de las estaturas de 40 alumnos se tiene: m2=161,80 cm2 ; m4=74.467,23 cm4

4

2 22( )

mBm

= 274.467,23 74.467,23 2, 84

26.179,24(161, 80)

El valor obtenido, B2=2,84 es menor que 3, lo que se interpretaría como que la distribución de estaturas es menos apuntada que la normal. Si se observa el histograma con el ajuste de la normal (presentado en el tema de simetría) lo anterior no es tan evidente.

5.7.1. Tablas del Coeficiente de Apuntamiento de Pearson Igual que para el coeficiente de Simetría, para decidir acerca del apuntamiento de la distribución, cuando se emplean muestras, se puede utilizar una tabla para el coeficiente de Pearson que fija rangos en los cuales se puede aceptar que una distribución es igualmente apuntada que la normal, dependiendo del tamaño de la muestra, y considerando un error del 10% de tomar una decisión errónea. La tabla, que se presenta al final de la sección, parte con muestras de tamaño 50 pues en muestras menores las decisiones son más riesgosas. Para una muestra de 50 casos, la interpretación es así:

Si B2 < 2,15 La distribución es MENOS apuntada que la normal (Platicúrtica) Si 2,15 < B2 <3,99 La distribución es IGUALMENTE apuntada que la normal (Mesocúrtica) Si B2 > 3,99 La distribución es MÁS apuntada que la normal (Leptocúrtica)

Para el ejemplo de las estaturas de la muestra de los 40 alumnos, empleando los valores de referencia para n=50, dado que B2 =2,84 (es mayor que 2,15 y menor que 3,99) se concluye que la distribución es igualmente apuntada que la normal (con un riesgo de equivocarse del 10%).

Desde el punto de vista gráfico el apuntamiento puede analizarse ajustando una distribución normal a la respectiva distribución de frecuencias. Esto lo realizan los software estadísticos como SPSS y otros los cuales entregan, además, estadísticas de apuntamiento. EXCEL también entrega estas estadísticas. 5.8. Observaciones sobre Simetría y Apuntamiento

Existe una noción gráfica de simetría y asimetría, así como de apuntamiento, que no siempre coincide con el aspecto cuantitativo, por lo tanto hay que tener presente ambos aspectos para tomar una decisión.

Si una distribución es muy asimétrica los signos (no los valores) de todos los coeficientes serán

concordantes. Si una distribución es sólo ligeramente asimétrica, los signos de los coeficientes pueden no coincidir. En este caso, el empleo de la tabla puede ayudar a tomar una decisión, especialmente si se emplea el coeficiente de Pearson. En general, los software estadísticos entregan valores para coeficientes de Simetría y Apuntamiento que no siempre son los mismos. En el caso específico de Excel es recomendable revisar la Ayuda para conocer las fórmulas y la forma de interpretar los resultados de los coeficientes.

Page 69: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 65

5.9. Coeficientes de Simetría y Apuntamiento con Excel

Excel permite calcular el Coeficiente de Simetría (o asimetría) de Pearson. La función que se puede emplear para calcular el coeficiente es:

=COEFICIENTE.ASIMETRIA( rango datos) Para el caso del Apuntamiento, Excel calcula el Coeficiente de Apuntamiento o Curtosis. La función es:

=CURTOSIS( rango datos) En EXCEL, así como en algún otro software estadístico, el apuntamiento se entrega como CURTOSIS

que es en esencia el coeficiente de Pearson al cual se le ha restado 3, esto es: COEF. CURTOSIS≈ B2 - 3

La interpretación es: CURTOSIS > 0 indica una distribución MÁS apuntada que la Normal. CURTOSIS = 0 indica una distribución IGUALMENTE apuntada que la Normal. CURTOSIS < 0 indica una distribución MENOS apuntada que la Normal.

Por lo tanto, para usar las tablas de Pearson y Hartley debe sumarse 3 al valor entregado por Excel para compararlo con el de la tabla.

Ejemplo: Usando Excel, las funciones son, si los datos se ubican como se indican en tabla siguiente Para Simetría: =COEFICIENTE.ASIMETRIA(A1:C5) Para Apuntamiento: =CURTOSIS(A1:C5)

La interpretación sería, para el coeficiente de Simetría 0,55 que los datos tienen Asimetría Positiva, esto es, que tienden a concentrarse en los valores bajos. El Coeficiente de Apuntamiento -0,80 indica que la distribución sería más aplastada que la distribución normal respectiva.

Page 70: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 66

5.10. Ejercicios a) Ejercicio de Prueba Un Psicólogo está desarrollando un test para medir creatividad de estudiantes de trabajadores. Ha desarrollado diversas versiones, que han sido aplicadas a muestras distintas de trabajadores con los resultados siguientes. Indique la versión (A, B, ..G) que presenta las características que se señalan.

JUSTIFIQUE SU RESPUESTA, EMPLEANDO TABLAS RESPECTIVAS. SEÑALAR VALORES DE REFERENCIA USADOS.

CARACTERÍSTICASVERSIÓN

AVERSIÓN

BVERSIÓN

CVERSIÓN

DVERSIÓN

EVERSIÓN

FVERSIÓN

GNº Casos 101 79 98 76 98 57 102Mínimo 145 110 105 145 150 110 105Máximo 217 190 185 217 238 180 186

Media Aritmética 183,99 153,10 138,47 181,00 200,62 138,68 144,53Momento 2 293,64 367,28 408,88 286,70 356,80 212,74 174,56Momento 3 -906,82 -825,10 4.421,92 -201,43 -2.778,36 2.072,31 -469,96Momento 4 194.497,57 308.433,95 368.564,89 182.823,13 323.809,99 128.266,36 129.501,41

SIMETRIA PEARSON -0,180 -0,117 0,535 -0,041 -0,412 0,668 -0,204APUNTAM. PEARSON 2,256 2,286 2,205 2,224 2,544 2,834 4,250

CARACTERÍSTICA VERSION JUSTIFICACIÓN 15. Asimetría negativa e igualmente apuntada que la normal

(A) (B) (C) (D) (E) (F) (G) (NA) : No se puede determinar

16. Mayor simetría

(A) (B) (C) (D) (E) (F) (G) (NA) : No se puede determinar

17. Simétrica y con la menor variabilidad

(A) (B) (C) (D) (E) (F) (G) (NA) : No se puede determinar

b) Ejercicios Propuestos 1. Indique que significa la simetría y el apuntamiento de una distribución. Indique que utilidad pueden tener

estas estadísticas para el diseño de un test. 2. Los siguientes son los resultados obtenidos por un de grupo de 50 estudiantes en tres pruebas de

condición física. "Test de Cooper", se mide en metros recorridos; "30 metros planos", se mide en segundos y "Extensiones de tronco" que se mide en repeticiones.

TEST Media Aritmética

Desv. Estándar

Coef. Variación

Mediana Q1 Q3 Simetría Pearson

Apuntamiento Pearson

COOPER 2.075,0 390,0 0,188 2.120,0 2.850,0 2.460,0 -0,321 1,57 30 m PLANOS 5,7 0,9 0,158 5,9 5,3 5,4 -0,653 4,57 EXTENS. TRONCO 54,5 20,5 0,376 53,0 43,0 67,0 0,678 1,90

a) Indique las unidades en que se expresa de cada una de las estadísticas indicadas en la tabla b) Realice esquemas (polígono de frecuencias) de las distribuciones de las tres pruebas y

compare las características de las distribuciones que pueden compararse. c) Identifique las estadísticas de las distribuciones, indicadas en la tabla anterior, que pueden

compararse. Justifique su respuesta. Analice las distribuciones respecto a dichas estadísticas.

Page 71: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 67

3. Los datos siguientes corresponden a puntajes obtenidos en un Inventario de Ajustamiento por hombres y mujeres alcohólicos y no. Interesa determinar la influencia del sexo y de la condición de alcohólico o no en los puntajes obtenidos. Un mayor puntaje indica mayor problema de ajustamiento. Se empleó la misma escala para comparar resultados.

Alcohólicos No Alcohólicos Alcohólicos No Alcohólicos

0 - 6 1 25 216 - 12 7 43 2 4912 - 18 24 36 2 4018 - 24 23 16 5 2624 - 30 32 9 11 1730 - 36 32 2 8 836 - 42 33 3 12 142 - 48 17 3 11 148 - 54 13 1 10 154 - 60 13 1 2 160 - 66 6 366 - 72 1TOTAL 202 139 66 165

HOMBRES MUJERESPUNTAJE

AJUSTAMIENTO

a) Teniendo presente el objetivo del estudio, calcule y compare los puntajes medios, mediana, cuartiles, recorrido intercuartílico, desviación típica, varianza, coeficientes de variación para cada una de las cuatro distribuciones.

b) Grafique las ojivas de las distribuciones de modo que pueda compararlas. c) Grafique los "cajones con bigotes" de modo que pueda compararlos d) Analice la simetría de las distribuciones empleando los gráficos anteriores. e) Calcule estadísticas de simetría de Bowley y analícelas. f) Realice un informe de resumen de sus cálculos y gráficos. Exprese sus conclusiones sobre el

objetivo del estudio. 4. Para los datos del ejercicio anterior compruebe los siguientes resultados:

GRUPO Momento Orden 2

Momento Orden 3

Momento Orden 4

Coef. Simetría Pearson

Coef. Apuntamiento Pearson

Hombres Alcohólicos 193,97 751,89 91.877,86 0,278 2,44 Hombres No Alcohólicos 108,72 1.776,01 70.026,11 1,567 5,92 Mujeres Alcohólicas 159,83 -277,84 64.814,20 -0,137 2,54 Mujeres No Alcohólicas 92,43 1.038,55 43.981,49 1,169 5,15

a) Para cada grupo, analice las características de simetría y apuntamiento Interpretando los

coeficientes de Pearson mediante el empleo de las tablas de Pearson y Hartley. b) Compare sus conclusiones sobre simetría con los gráficos apropiados y con los respectivos

coeficientes de Bowley. ¿Se llega a las mismas conclusiones? c) Compare sus conclusiones sobre apuntamiento con los gráficos apropiados.

Page 72: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 68

5. USO DE LAS ESTADÍSTICAS DE RESUMEN 5.1. EJEMPLO DE ANÁLISIS DESCRIPTIVO USANDO EXCEL Mediante el empleo de Excel se pueden calcular las estadísticas reseñadas antes. A continuación se presentará una aplicación de Excel agregándose funciones nuevas y gráficos que se pueden utilizar para presentar los resultados y analizarlos.

Ejemplo. Los datos siguientes corresponden a las calificaciones de actividades realizadas en la asignatura de Estadística, consistentes en tres pruebas y tres talleres. El curso tiene 16 alumnos y no todos los alumnos realizaron todos los talleres (obviamente los datos son ficticios, diseñados para resaltar ciertas características, pues en la realidad siempre son mejores)

5.1.1. Tabulación y Gráfico de Polígono de Frecuencias

En la figura siguiente se presentan las notas (con la estructura de una base de datos) y los resultados de la tabulación para cada actividad. Se graficaron los Polígonos de Frecuencia excepto para Taller 1, pues todos las notas son iguales.

Para tabular los datos se empleó la función FRECUENCIA. Los gráficos se realizaron empleando la

opción de gráfico XY(Dispersión) usando las marcas de clase y agregando filas con frecuencia 0 para cerrarlos polígonos. Dada la naturaleza de los datos (notas) la graficación en intervalos bajo 1 o sobre 7 se realizó para cerrar los gráficos

Se aprecia que Prueba 3 tiene notas más bajas (Asimetría positiva) pues están más concentradas hacia

la izquierda y Prueba 2 tiene mejores resultados, presentándose en forma más simétricos y ubicados más a la derecha del eje X..

NOMBRE PRU_1 PRU_2 PRU_3 TALL1 TALL2 TALL31. Acevedo, Ana 2,4 4,3 3,4 5,0 4,6 2,22. Alvarez, Andrea 3,1 7,0 3,6 5,0 2,03. Araya, César 2,1 6,2 2,8 5,0 3,0 2,64. Asté, Enrique 3,5 5,6 1,9 5,0 5,9 2,55. Bravo, Juana 3,7 4,4 1,0 5,0 4,96. Canales, Marcos 4,5 4,5 1,3 5,0 4,8 5,37. Donoso, Carolina 2,7 3,0 2,8 5,0 4,4 1,18. Figueroa, Gladys 1,0 6,8 3,0 5,0 3,6 3,19. Fuentes, Héctor 6,3 6,3 2,0 4,3 3,010. Gatica, Joaquín 4,1 4,5 3,9 5,0 5,2 6,511. Leiva, Claudina 4,6 6,7 1,6 5,0 3,3 5,812. Marín, José 2,0 5,7 3,9 5,0 5,613. Ponce, Eduardo 1,6 4,0 2,2 5,0 5,3 1,914. Pozo, Rosario 5,3 6,2 3,4 5,0 2,315. Ramos, Juan 5,6 4,0 2,0 5,0 3,316. Veliz, Rodrigo 3,0 3,3 3,1 5,0 2,3 6,7

NOTAS M. de C. PRU_1 PRU_2 PRU_3 TALL2 TALL31,0 a 1,9 1,5 2 0 4 0 22,0 a 2,9 2,5 4 0 5 3 33,0 a 3,9 3,5 4 2 7 3 34,0 a 4,9 4,5 3 6 0 4 15,0 a 5,9 5,5 2 2 0 3 36,0 a 7,0 6,5 1 6 0 0 2

ALUMNOS SEGÚN INTERVALOS DE NOTAS

NOTAS DE LAS ACTIVIDADES ASIGNATURA ESTADÍSTICA

El taller 3 presenta una mayor dispersión pues abarca todos los intervalos de la distribución (lo mismo

ocurre con Prueba 1.

Page 73: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 69

CALIFICACIONES DE ACTIVIDADES EN ASIGNATURA DE ESTADÍSTICA(Gráficos Polígonos de Frecuencias)

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7 8

NOTAS

ALU

MN

OS

PRU_1

PRU_2

PRU_3

TALL2

TALL3

5.1.2. Análisis por Actividad (Empleando Escritura o Inserción de Funciones)

Para mejorar el análisis gráfico de la información y facilitar la comparación realizada con los polígonos de frecuencia, se calculan las estadísticas básicas de las distribuciones de notas de las actividades. En la figura siguiente se presentan los datos y los resultados de la Media Aritmética, la Desviación Estándar y el Recorrido. Se usaron las funciones respectivas (escritas o insertas), excepto para el “Recorrido” que se calculó mediante la diferencia del valor máximo menos el valor mínimo.

CALIFICACIONES DE ACTIVIDADES ASIGNATURA DE ESTADÍSTICANOMBRE PRU_1 PRU_2 PRU_3 TALL1 TALL2 TALL31. Acevedo, Ana 2,4 4,3 3,4 5,0 4,6 2,22. Alvarez, Andrea 3,1 7,0 3,6 5,0 2,03. Araya, César 2,1 6,2 2,8 5,0 3,0 2,64. Asté, Enrique 3,5 5,6 1,9 5,0 5,9 2,55. Bravo, Juana 3,7 4,4 1,0 5,0 4,96. Canales, Marcos 4,5 4,5 1,3 5,0 4,8 5,37. Donoso, Carolina 2,7 3,0 2,8 5,0 4,4 1,18. Figueroa, Gladys 1,0 6,8 3,0 5,0 3,6 3,19. Fuentes, Héctor 6,3 6,3 2,0 4,3 3,010. Gatica, Joaquín 4,1 4,5 3,9 5,0 5,2 6,511. Leiva, Claudina 4,6 6,7 1,6 5,0 3,3 5,812. Marín, José 2,0 5,7 3,9 5,0 5,613. Ponce, Eduardo 1,6 4,0 2,2 5,0 5,3 1,914. Pozo, Rosario 5,3 6,2 3,4 5,0 2,315. Ramos, Juan 5,6 4,0 2,0 5,0 3,316. Veliz, Rodrigo 3,0 3,3 3,1 5,0 2,3 6,7

TODASNº DATOS 16 16 16 15 13 14 90MÍNIMO 1,0 3,0 1,0 5,0 2,0 1,1 1,0MÁXIMO 6,3 7,0 3,9 5,0 5,9 6,7 7,0RECORRIDO 5,3 4,0 2,9 0,0 3,9 5,6 6,0

MEDIA ARITMÉTICA 3,5 5,2 2,6 5,0 3,9 3,9 4,0DESVIACIÓN ESTÁND. 1,5 1,3 0,9 0,0 1,3 1,8 1,5

Para aplicar Excel, se escribieron las funciones para la primera actividad (Prueba 1) y luego se “arrastró la definición anterior para copiarlas y aplicarlas en las otras actividades. El análisis de la información anterior permite ratificar las apreciaciones del gráfico de polígonos pues:

Page 74: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 70

a) La actividad con mejores resultados es la Prueba 2 pues su Media Aritmética (5,2) es mayor que las otras y la con peores resultados es la Prueba 3 con Media Aritmética 2,6. b) La actividad con calificaciones más concentrada (o de resultados más homogéneos o parecidos entre sí) es el Taller 1 con Desviación Estándar 0 (igual que su recorrido) pues todos los alumnos tienen nota 5. La actividad con resultados más dispersos (más heterogéneos o más diferentes entre sí) es el Taller 3, con Desviación Estándar 1,8 (y con mayor recorrido 5,6). c) Se observa que el promedio general de todas las calificaciones es 4,0 con una Desviación Estándar de 1,5. Estos resultados son importantes como resumen (y tienen sentido) siempre que todas las calificaciones tengan la misma importancia.

5.1.3. Gráfico de Trazos (Media Aritmética y Desviación Estándar) El Gráfico de Trazos se realiza empleando Media Aritmética y Desviación Estándar. Se usa el tipo de

gráfico de COTIZACIONES y el primer subtipo de ellos. La tabla que debe preparase para realizar el grafico es la siguiente, en que Lim Sup=Media+Des.Est , Lim Inf=Media-Des.Est. Para graficar se seleccionan sólo las primeras 4 columnas (se excluye Desviación Estándar).

El “Gráfico de Trazos” permite comparar las distribuciones empleando una estadística de posición (Media Aritmética) y otra de dispersión (Desviación Estándar).

PRUEBA LIM SUP LIM INF MEDIA DESV. ESTPRU_1 5,1 2,3 3,7 1,4PRU_2 6,2 4,2 5,2 1,0PRU_3 3,3 1,4 2,4 0,9TALL1 5,0 5,0 5,0 0,0TALL2 4,8 2,4 3,6 1,2TALL3 5,0 1,8 3,4 1,6

PROMEDIOS Y DESV. ESTÁNDAR DE ACTIVIDADES EN ASIGNATURA DE ESTADÍSTICA(Gráfico de Trazos)

0

1

2

3

4

5

6

7

PRU_1 PRU_2 PRU_3 TALL1 TALL2 TALL3

ACTIVIDADES

NO

TAS

5.1.4. Gráfico de Caja (Mediana, Cuartiles y Recorrido) Para evidenciar la simetría o asimetría de las distribuciones se emplea la Mediana y los Cuartiles y el Gráfico de Caja (o Cajón con Bigotes), que corresponde al segundo subtipo dentro del gráfico tipo COTIZACIONES. A continuación se presentan los resultados respectivos, obtenidos usando las funciones estadísticas en Excel:

Page 75: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 71

RESUMEN CALIFICACIONES DE ACTIVIDADES ASIGNATURA DE ESTADÍSTICA

ESTADÍSTICA PRU_1 PRU_2 PRU_3 TALL1 TALL2 TALL3Nº DATOS 16 16 16 15 13 14MÍNIMO 1,0 3,0 1,0 5,0 2,0 1,1MÁXIMO 6,3 7,0 3,9 5,0 5,9 6,7RECORRIDO 5,3 4,0 2,9 0,0 3,9 5,6

MEDIANA 3,3 5,1 2,8 5,0 4,3 3,2CUARTIL 1 2,3 4,2 2,0 5,0 3,0 2,5CUARTIL 3 4,5 6,2 3,4 5,0 4,8 5,5REC. INTERCUART. 2,2 2,0 1,4 0,0 1,8 3,0

A partir de los resultados anteriores se prepara la siguiente tabla para graficar:

PRUEBA CUARTIL 1 MÁXIMO MÍNIMO CUARTIL 3PRU_1 2,3 6,3 1,0 4,5PRU_2 4,2 7,0 3,0 6,2PRU_3 2,0 3,9 1,0 3,4TALL1 5,0 5,0 5,0 5,0TALL2 3,0 5,9 2,0 4,8TALL3 2,5 6,7 1,1 5,5

Para completar el gráfico se agregaron las líneas divisorias de las cajas, las que representan las Medianas, empleando la opción ”Líneas” del menú de Dibujo de Excel.

CUARTILES DE NOTAS ACTIVIDADES ASIGNATURA DE ESTADÍSTICA(Gráfico de Caja)

0

1

2

3

4

5

6

7

8

PRU_1 PRU_2 PRU_3 TALL1 TALL2 TALL3

ACTIVIDADES

NO

TAS

Este gráfico representa con la “caja” el recorrido intercuartílico (tercer cuartil y primer cuartil), la Mediana se representa con la línea dentro de la caja. Los trazos (bigotes) representan el máximo y mínimo de los datos. Según la ubicación de los elementos se evidencia la simetría o no de la distribución de valores de las notas. Este gráfico permite, por lo tanto, apreciar una estadística de posición (Mediana), otra de dispersión (Recorrido Intercuartílico) y la Simetría de la distribución.

Se observa en la figura que la Prueba 2 es la que tiene los resultados mayores, pues el valor de su Mediana es mayor que el de las otras actividades, y que la Prueba 3 es la que tiene los resultados más bajos ( lo que ratifica lo observado antes)

Page 76: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 72

El Taller 3 es el que presenta la mayor dispersión evidenciada por la “caja” de mayor extensión, esto significa que su recorrido intercuartílico es mayor. Respecto a simetría, la Prueba 2 es la que presenta una distribución de notas más simétrico, lo que se aprecia pues la Mediana esta al centro de la “caja” y los bigotes también son de longitudes parecidas. El Taller 3 y la Prueba 1 presentan cierto grado de “asimetría positiva” pues el bigote más largo se prolonga hacia los valores mayores de las notas. La “asimetría positiva” significa que las notas tienden a concentrarse en los valores más bajos de estas, o sea, hay más valores bajos que altos en ese grupo

La Prueba 3 y el Taller 2 presentan cierto grado de “asimetría negativa” pues el bigote más largo se prolonga hacia los valores de las notas más bajas. La “asimetría negativa” significa que las notas tienden a concentrarse en los valores más altos de estas, o sea, hay más valores altos que bajos en la distribución de notas de la actividad.

El Taller 1 se grafica como un punto ubicado en la nota 5 pues todas las notas son iguales.

5.1.5. Estadísticas de Simetría y Apuntamiento Los resultados de los Coeficientes de Simetría y Apuntamiento obtenidos con Excel son los siguientes:

RESUMEN CALIFICACIONES DE ACTIVIDADES ASIGNATURA DE ESTADÍSTICA

ESTADÍSTICA PRU_1 PRU_2 PRU_3 TALL1 TALL2 TALL3

COEF. SIMETRÍA 0,27 -0,09 -0,22 - -0,15 0,21

COEF. APUNTAMIENTO -0,71 -1,38 -1,14 - -1,23 -1,44 Según los coeficientes anteriores, la Prueba 2 tiene un coeficiente de simetría cercano a 0, por lo que se estima tiene una distribución simétrica.

La Prueba 1 y el Taller 3 presentan cierto grado de “asimetría positiva” pues el bigote más largo se prolonga hacia los valores mayores de las notas. La “asimetría positiva” significa que las notas tienden a concentrarse en los valores más bajos de estas, o sea, hay más valores bajos que altos en ese grupo

La Prueba 3 y el Taller 2 presentan el mayor grado de “asimetría negativa” pues tiene los coeficientes de simetría negativos mayores, lo que concuerda con la apreciación gráfica.

En cuanto al Apuntamiento, todas las distribuciones serían menos apuntadas que la normal, aunque la

Prueba 1 tiene el valor menor en este aspecto. Se puede mejorar la interpretación mediante el empleo de las tablas de Pearson y Hartley.

5.1.6. Análisis por Actividad (Empleando Herramienta Análisis de Datos) Los valores de las estadísticas empleados en los análisis anteriores o para realizar los gráficos, pueden obtenerse directamente mediante la “Función para Análisis” ESTADISTICA DESCRIPTIVA, del submenú “Análisis de datos” de la opción “Herramientas” del menú principal .En las figuras siguientes se describe el proceso para obtener esos valores.

Page 77: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 73

En la figura siguiente se aprecia el llenado del menú de la función. Entre las opciones de salida es necesario marcar “Resumen de Estadísticas” para obtener resultados. Las otras opciones, como se indica en la figura, pueden dejarse vacías.

Los resultados que entrega Excel son los siguientes:

Finalmente, los resultados editados (eliminados textos repetidos, revisando la presentación de decimales, etc.) son los siguientes:

ESTADÍSTICAS PRU_1 PRU_2 PRU_3 TALL1 TALL2 TALL3 Media 3,47 5,16 2,62 5,00 3,92 3,89 Error típico 0,38 0,33 0,23 0,00 0,35 0,49 Mediana 3,30 5,05 2,80 5,00 4,30 3,20 Moda - 6,20 3,40 5,00 2,30 - Desviación estándar 1,51 1,30 0,92 0,00 1,27 1,84 Varianza de la muestra 2,29 1,69 0,85 0,00 1,61 3,40 Curtosis -0,71 -1,38 -1,14 - -1,23 -1,44 Coeficiente de asimetría 0,27 -0,09 -0,22 - -0,15 0,21 Rango 5,3 4,0 2,9 0,0 3,9 5,6 Mínimo 1,0 3,0 1,0 5,0 2,0 1,1 Máximo 6,3 7,0 3,9 5,0 5,9 6,7 Suma 55,5 82,5 41,9 75,0 51,0 54,5 Cuenta 16 16 16 15 13 14

Page 78: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 74

5.1.7. Análisis por Estudiante (Empleando Escritura o Inserción de Funciones) El análisis de los resultados también se puede realizar por estudiante, esto es, por filas. Este análisis permitirá presentar combinaciones interesantes en el empleo de funciones estadísticas. a. Análisis Considerando Igual Ponderación Para Todas las Actividades

El análisis siguiente considera el promedio de notas de pruebas y talleres. El uso de las funciones asegura que se considere en el cálculo el número efectivo de notas. La función empleada en el cálculo del promedio de notas de pruebas y talleres, para primer caso 1. Acevedo Ana (pues el resto se obtiene mediante “Arrastre”) es, como se aprecia en Barra de Fórmulas:

=PROMEDIO(B5:G5)

La figura siguiente presenta los datos, la Media Aritmética y Desviación Estándar para cada estudiante.Se observa que el alumno con el mejor rendimiento medio (4,9) es el Nº10 Gatica quien, además, tiene la menor Desviación Estándar (0,9) por lo que sería el estudiante de rendimiento más parejo. Por el contrario, el alumno que tiene el rendimiento medio más bajo (3,2) es el Nº7 Donoso. Sin embargo, el alumno con el rendimiento más heterogéneo es el Nº8 Figueroa pues tiene la mayor Desviación Estándar (2,0).

b. Análisis Considerando Todas las Notas de Pruebas y Promedio de Talleres El análisis siguiente considera las notas de las pruebas y el promedio de los talleres. Para ello la función empleada en el cálculo del promedio de talleres, para primer caso 1. Acevedo Ana pues el resto se obtiene mediante “Arrastre”:

=PROMEDIO(E5:G5) La función empleada en el cálculo del promedio de notas (tres pruebas y promedio de talleres) es (para

primer caso 1. Acevedo Ana) tal como se aprecia en la Barra de Fórmulas de Excel:

=PROMEDIO(B5:D5;H5) El resultado es el siguiente:

Page 79: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 75

Se observa que el alumno con el mejor rendimiento medio (4,6) es el Nº9 Fuentes. Por el contrario, los alumnos que tienen el rendimiento medio más bajo (3,0) es el Nº7 Donoso y el Nº13 Ponce. El Nª7 Donoso es el que tiene el rendimiento más homogéneo, pues su Desviación Estándar (0,4) es la menor. Nuevamente, el alumno con el rendimiento más heterogéneo es el Nº8 Figueroa pues tiene la mayor Desviación Estándar (2,4). c. Análisis Considerando Todas las Notas de Pruebas y Promedio de Dos Talleres Mejores El análisis siguiente considera las notas de las pruebas y el promedio de los dos talleres con mejores notas. Para ello la función empleada en el cálculo del promedio de talleres, para primer caso 1. Acevedo Ana pues el resto se obtiene mediante “Arrastre” es:

=PROMEDIO(K.ESIMO.MAYOR(E5:G5;1);K.ESIMO.MAYOR(E5:G5;2))

La función K.ESIMO.MAYOR(E5:G5;1) selecciona el valor más alto del grupo que se ubica entre E5 y G5 (talleres de alumna Acevedo), la función K.ESIMO.MAYOR(E5:G5;2) selecciona el segundo valor más alto del grupo que se ubica entre E5 y G5 (talleres de alumna Acevedo) y la función PROMEDIO calcula la Media Aritmética de los dos.

La función empleada en el cálculo del promedio de notas (tres pruebas y promedio de dos talleres mejores) es (para primer caso 1. Acevedo Ana) la misma del caso anterior:

=PROMEDIO(B5:D5;H5)

El resultado se presenta en la página siguiente. Ahí se observa que los alumnos con el mejor

rendimiento medio (4,6) es el Nº9 Fuentes, el Nº10 Gatica y el Nº11 Leiva. Por el contrario, los alumnos que tienen el rendimiento medio más bajo (3,2) es el Nº13 Ponce. El Nª7 Donoso y el Nº10 Gatica son los alumnos que tienen el rendimiento más homogéneo, pues su Desviación Estándar (0,9) es la menor. Nuevamente, el alumno con el rendimiento más heterogéneo es el Nº8 Figueroa pues tiene la mayor Desviación Estándar (2,4). Comparando los tres esquemas de promedios de actividades, se aprecia que la primera y la última de las alternativas producen un rendimiento medio general de 4,0 con Desviación Estándar de 1,6.

Page 80: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 76

5.2. Ejercicio sobre Análisis Descriptivo

Los datos siguientes provienen de un estudio sobre empleo de las bases de datos existentes en la biblioteca de la universidad por parte de los estudiantes de 2º año de una carrera del área de la salud. La respuestas a la pregunta ¿Cuál de las siguientes base de datos utiliza? Se codificaron como: 1=Nunca, 2=Rara vez; 3=A veces, 4=Siempre y “.”= No Responde. Diseñe una metodología para analizar los datos. Responda y justifique lo siguiente:

a. ¿Qué base de datos es la más utilizada y cuál la menos utilizada? b. ¿Qué base de datos es la más utilizada por los hombres y cuál por las mujeres? c. En general como puede calificar el nivel de uso de las bases de datos por todos los alumnos. d. En general, que grupo, hombres o mujeres, hacen mayor uso de las bases de datos

Nº GENERO SCIELO PUBMED MEDLINE MDCONSULT E-MEDICINE1 F 1 2 4 1 12 M 3 3 3 . .3 M 3 1 1 1 14 F 2 3 3 3 15 M 3 2 3 1 16 M 2 3 3 1 27 F 4 3 3 2 18 F 3 3 3 3 19 F 2 2 2 1 1

10 F 3 1 3 1 111 F 4 4 4 3 112 F 3 3 3 1 113 M 3 3 4 1 114 M 2 2 2 2 115 M 3 3 3 1 116 F 3 4 4 3 117 F 4 4 3 1 118 F 4 4 1 1 119 F 3 3 3 1 120 F 2 2 3 2 121 M 4 3 3 3 122 M 3 3 3 1 123 M 4 3 3 2 124 M 4 2 4 2 225 F 1 3 3 1 126 M 4 3 3 2 127 F 3 3 3 1 128 M 4 3 3 3 129 F 2 2 2 1 130 F 2 2 2 2 1

Page 81: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 77

5.3. COEFICIENTE DE CONFIABILIDAD (APLICACIÓN DE VARIANZA) Un tema importante en investigación (en particular en Investigación de Mercados, en Diseño de

Encuestas, en Psicometría, etc.) es el referente a la validación de instrumentos, esto es, la valoración de algunas características que se espera deben poseer los instrumentos aplicados en la medición de constructos (psicológicos o de otro tipo). Dentro de ese tema se encuentra el referente a la Confiabilidad, que corresponde a la capacidad de un instrumento (escala, test, prueba, etc.) para medir un rasgo en forma consistente, esto es, estable. Se espera que un instrumento que se aplica a un sujeto, pueda entregar resultados semejantes (no necesariamente idénticos) cada vez que se le aplica.

Se han desarrollado diversos coeficientes para medir la confiabilidad. Uno de los más populares es el

llamado “Alfa de Cronbach” que sirve para medir la confiabilidad en instrumentos en que las preguntas se puntúan en alguna escala (1 a 3 ó 1 a 5) como ocurre en las Escalas de Actitudes (tipo Likert), o pueden ser codificadas como Correctas (1) o Incorrectas (0) como en las prtuebas de conocimientos. Pueden emplearse otras escalas además (como notas de 1 a 7 etc.)

Las escalas “tipo Likert” se caracterizan por consistir en aseveraciones (por ejemplo: “Creo que la

posición del gobierno ante el conflicto con Irak refleja la opinión de los chilenos”). Se espera que el sujeto manifieste su grado de acuerdo con la aseveración planteada, seleccionando entre las alternativas de respuesta que son del tipo “Muy de Acuerdo”, “De Acuerdo”, “Ni de Acuerdo ni en Desacuerdo”, “En Desacuerdo” y “Muy en Desacuerdo”. Puede haber más alternativas o menos. Se asignan puntajes según el sentido que se espera de la respuesta. Si se desea medir el grado de adhesión a la posición gubernamental, en el ejemplo, la asignación de puntajes debe realizarse de modo que un mayor puntaje refleje un mayor grado de adhesión. Así, el “Muy de Acuerdo” tendría 5 puntos y el “Muy en Desacuerdo” tendría 1 punto.

Si la escala se aplica a un grupo de personas, interesa medir la consistencia de la misma para medir el constructo en estudio. Los datos que genera la aplicación de la escala consistirán en respuestas a las aseveraciones de cada una de los sujetos. Con ello se tiene información con la cual se puede construir una “base de datos”, la cual consiste en un arreglo bidimensional (filas y columnas como una hoja EXCEL) ubicando en las columnas las variables (aseveraciones de la escala) y en las filas a los sujetos, con las respuestas a las diversas aseveraciones

El coeficiente “Alfa de Cronbach” (a ) se define como:

2

2(1 )1

ii

T

Skk S

a

siendo k = Número de ítems, 2iS =Varianza del ítem i-ésimo,

2TS = Varianza de puntajes totales de sujetos

Ejemplo (Alfa de Cronbach): Se aplicó una escala tipo Likert para conocer las opiniones de un grupo de estudiantes acerca de las características del curso de Estadística. Los resultados y el cálculo del coeficiente “Alfa de Cronbach” se presentan a continuación:

k = Número de ítems= 7

2i

iS =Suma de Varianza de ítems = 2,26+0,60+…+2,03 = 10,24 2TS = Varianza de puntajes totales de sujetos = 28,69

2

2(1 )1

ii

T

Skk S

a

7 10,24 7 7(1 ) (1 0, 3569) (0,6431) 0,756 28,69 6 6

Page 82: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 78

RESULTADOS DE ESCALA LIKERT

ALUMNO ASEV1 ASEV2 ASEV3 ASEV4 ASEV5 ASEV6 ASEV7 TOTAL1.ALFONSO 5 4 4 3 3 4 5 282. ANTONIO 5 4 4 4 4 3 3 273. CARMEN 2 2 2 2 4 2 3 174. ELÍAS 4 4 3 3 5 3 3 255. GASPAR 5 4 5 5 5 3 4 316. ISABEL 3 4 3 5 5 3 1 247.JOSE 3 4 2 2 3 1 2 178. JOSEFINA 4 4 2 2 4 1 5 229. MARIA 5 2 2 5 2 3 4 2310. PAULINA 4 4 2 4 4 1 5 2411. PEDRO 5 4 4 4 3 4 4 2812. ROBERTO 1 3 2 3 1 2 1 1313. ROSA 1 3 3 2 2 4 2 17SUMA 47 46 38 44 45 34 42 296MEDIA 3,62 3,54 2,92 3,38 3,46 2,62 3,23 22,77VARIANZA M. 2,26 0,60 1,08 1,42 1,60 1,26 2,03 28,69 (5: Muy de Acuerdo; 4: De Acuerdo; 3: Ni de Acuerdo ni en Desacuerdo; 2: En Desacuerdo; 1: Muy en

Desacuerdo)

Un caso especial de este coeficiente es aquel en que los ítems del instrumento (test, prueba) son dicotómicos (verdadero o falso; correcto o incorrecto, etc.). En este caso, se representa con 1 la respuesta correcta y con 0 la respuesta incorrecta. El coeficiente es llamado “Kuder-Richardson 20”.

Ejemplo 2 (Kuder-Richardson 20): Se aplicó una prueba de conocimientos de Estadística Descriptiva a un grupo de estudiantes. Los resultados son los siguientes:

RESULTADOS DE PRUEBA DE CONOCIMIENTOS

ALUMNO PREG1 PREG2 PREG3 PREG4 PREG5 PREG6 TOTAL1. ALFONSO 1 0 1 1 1 1 52. ANTONIO 1 1 1 0 0 0 33. CARMEN 1 1 1 1 1 1 64. ISABEL 1 1 1 1 1 1 65. JOSE 0 0 1 1 0 1 36. JOSEFINA 1 1 1 0 0 0 37.MARIA 1 0 0 0 0 0 18. PEDRO 1 0 1 1 0 1 49. ROBERTO 1 0 0 1 1 1 410. ROSA 1 0 1 0 1 1 4SUMA 9 4 8 6 5 7 39MEDIA 0,9 0,4 0,8 0,6 0,5 0,7 3,9VARIANZA M. 0,10 0,27 0,18 0,27 0,28 0,23 2,32

El cálculo del coeficiente “Alfa de Cronbach” es: k = Número de ítems= 6

2i

iS =Suma de Varianza de ítems = 0,10+0,27+…+0,23 = 1,33 2TS = Varianza de puntajes totales de sujetos = 2,32

2

2(1 )1

ii

T

Skk S

a

6 1,33 6 6(1 ) (1 0,5732) (0,4268) 0,5125 2,32 5 5

Page 83: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 79

5.4. Ejercicios sobre Confiabilidad Ejercicios sobre Confiabilidad 1. Para los datos siguientes, obtenidos en de una prueba de 6 ítems con una sola respuesta

correcta (indicada con 1) aplicada a un grupo de 12 alumnos, verifique que la confiabilidad de la prueba, estimada con el coeficiente de confiabilidad Alfa de Cronbach, es 0,36.

ALUMNO PREG1 PREG2 PREG3 PREG4 PREG5 PREG6 PEDRO 1 0 1 1 0 1 JOSE 1 0 1 1 0 1 ANTONIO 1 1 1 0 0 0 MARIA 1 0 0 0 0 0 ALFONSO 1 0 1 1 1 1 CARMEN 1 1 1 1 1 1 MATÍAS 1 1 0 1 1 0 CLAUDIA 1 1 1 0 1 0 JOSEFINA 1 1 1 0 0 0 ROBERTO 1 0 0 1 1 1 ISABEL 1 1 1 1 1 1 ROSA 1 0 1 0 1 1

2. Los siguientes son los resultados obtenidos en la aplicación de una escala para medir

opiniones sobre el Reglamento de Evaluación de la Carrrera. La escala contenía 9 aseveraciones como “Estimo que el sistema de Evaluación aplicado en la carrera favorece a los alumnos” con cuatro alternativas de respuesta cada una (Muy de Acuerdo=4, De Acuerdo=3, En Desacuerdo=2 y Muy en Desacuerdo=1). La escala se aplicó a un grupo de 10 alumnos de dicha carrera. Verifique que la confiabilidad de la escala, estimada con el coeficiente Alfa de Cronbach, es igual a 0,53.

ALUMNO ASEV-1 ASEV-2 ASEV-3 ASEV-4 ASEV-5 ASEV-6 ASEV-7 ASEV-8 ASEV-9ALFONSO 4 4 4 3 3 4 4 4 1ANTONIO 4 4 4 4 4 3 3 2 2CARMEN 2 2 2 2 4 2 3 4 1ROSA 4 4 3 3 4 3 3 3 2GASPAR 4 4 4 4 4 3 4 4 4ISABEL 3 4 3 4 4 3 1 1 4JOSE 3 4 2 2 3 1 2 2 2JOSEFINA 4 4 2 2 4 1 4 3 2MARIA 4 2 2 4 2 3 4 4 4PAULINA 4 4 2 4 4 1 4 4 3

3. Compruebe que el cálculo del coeficiente “Alfa de Cronbach” tiene el mismo resultado si se emplean las varianzas poblacionales en vez de las muestrales.

Page 84: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 80

5.5. ESTANDARIZACIÓN DE VARIABLES (Aplicación de Media Arit. y Desv. Estándar)

Otro tema de interés lo constituye la estandarización de variables, procedimiento mediante el cual se posibilita la comparación de resultados individuales de variables que pueden expresarse en unidades diferentes y en escalas distintas. Este procedimiento, por ejemplo, permitiría comparar las posiciones relativas de alumnos respecto al peso y respecto a la estatura. La estandarización de una variable X consiste en restar, a cada valor de la variable, la Media Aritmética poblacional (llamada Esperanza y simbolizada por µ ) de la variable ( X ) y la diferencia dividirla por la Desviación Estándar poblacional respectiva (σ ). La variable transformada (estandarizada) se acostumbra a designarla con Z. Por lo tanto:

XZ µσ−

=

Si se tienen valores muestrales de una distribución (Media Aritmética X y Desviación Estándar S) la expresión para la variable estandarizada es:

X XZS−

=

La importancia de esta transformación radica en el hecho que los valores transformados: a) Respetan el orden de los elementos originales. a) Se expresan en una escala sin unidad, esto es, de números relativos. b) La escala Z generalmente fluctúa entre -4 y 4 (enteros o fraccionarios). Pueden existir

valores fuera de ese rango. c) Permiten comparar variables expresadas en unidades o escalas diferentes. Por

ejemplo, se pueden comparar resultados expresados en metros con otro expresado en segundos; se pueden comparar puntajes asignados por distintos "jueces" los que pueden tener criterios diferentes para calificar (más exigentes o menos), y se pueden comparar resultados de test en escalas distintas (por ejemplo, uno de 0 a 100 con otro de 300 a 500).

Ejemplo 1: A un curso de capacitación, de 40 alumnos, se le aplicaron pruebas en tres asignaturas, con los siguientes resultados de Medias Aritméticas y Desviaciones Estándar de notas (escala 1 a 7). Se indican los resultados (notas) obtenidos por dos alumnos en ellas, Pedro y María, así como los puntajes estandarizados en cada asignatura, para los dos alumnos. Por ejemplo, el puntaje estandarizado para Pedro en Psicología se calculó así:

1( )4,5 4,2 0, 3 0,23

1, 3 1, 3PsicZ

También, el puntaje estandarizado para María en Psicología se calculó así:

2( )4, 0 4,2 0,2 0,15

1, 3 1, 3PsicZ

NOTAS Y PUNTAJES ESTANDARIZADOS EN TRES ASIGNATURAS

ASIGNATURA

MEDIA ARITMÉTICA

X

DESVIACIÓN ESTANDAR

S

NOTAS

DE PEDRO X1

NOTAS

DE MARÍA X2

PUNTAJES ESTÁNDAR DE PEDRO

Z1

PUNTAJES ESTÁNDAR DE MARÍA

Z2

Psicología 4,2 1,3 4,5 4,0 0,23 -0,15 Estadística 5,6 0,9 4,5 5,8 -1,22 0,22

Computación 3,1 1,2 4,5 3,7 1,17 0,50 SUMA 13,5 13,5 0,18 0,57

MEDIA ARITMETICA 1X =4,5 2X =4,5 1Z =0,06 2Z =0,19

Los resultados anteriores se pueden interpretar de diversos puntos de vista:

Page 85: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 81

a) Los resultados medios de las notas en las asignaturas señalan que el mejor rendimiento lo obtuvo, el grupo, en Estadística con una nota media de 5,6 puntos. El rendimiento más bajo se aprecia en Computación, donde el grupo obtuvo una nota media de 3,1 puntos. Por lo tanto, Computación es la asignatura que resultó más difícil al curso, siendo Estadística la que resultó más fácil.

b) Considerando las notas, se aprecia que Pedro tiene un rendimiento parejo (4,5) en las tres asignaturas,

mientras María tiene un rendimiento más variable. Sin embargo, el promedio de las notas es igual para ambos (4,5).

c) Considerando los puntajes estandarizados de Pedro se aprecia que tiene un desempeño relativo al

curso que es variable. Así, su mejor desempeño lo logró en Computación (Z=1,17) pues su puntaje bruto (4,5) es bastante más alto que el puntaje medio del grupo en esa asignatura (3,1). Su rendimiento relativo más deficiente lo obtuvo en Estadística con (Z =-1,22), pues el puntaje bruto de Pedro (4,5) en esa asignatura es muy inferior al puntaje medio del curso (5,6).

d) Se aprecia que María también tiene un desempeño relativo al curso que es variable. Así, su mejor

desempeño lo logró en Computación (Z=0,50) y el más deficiente ocurrió en Psicología (Z=-0,15).

e) Para resumir los rendimientos relativos de Pedro y María, se pueden calcular los promedios de sus puntajes estandarizados. Se aprecia que María tiene un mejor rendimiento medio ( 2Z =0,19) que el logrado por Pedro ( 1Z =0,06) a pesar que sus puntajes brutos medios son iguales (4,5).

Ejemplo 2: Con el objeto de distribuir incentivos, a un grupo de empleados se les aplicaron tres test, con los siguientes resultados de Medias Aritméticas y Desviaciones Estándar. Se indican los resultados (Puntajes Brutos) obtenidos en ellos por dos empleados, Pedro y María, así como los respectivos puntajes estandarizados de ellos: Por ejemplo, el puntaje estandarizado para Pedro en Liderazgo se calculó así:

1( )30 22 8 0,79

10,1 10,1LidZ

El puntaje estandarizado para María en Autonomía se calculó así:

2( )48 43 5 0,59

8,5 8,5AutZ

PUNTAJES BRUTOS Y ESTANDARIZADOS EN TRES TEST

TEST Y ESCALA DE PUNTAJES

MEDIA ARITMÉTICA

X

DESVIACIÓN ESTANDAR

S

PUNTAJES

BRUTOS DE PEDRO

X1

PUNTAJES

BRUTOS DE MARÍA

X2

PUNTAJES ESTÁNDAR DE PEDRO

Z1

PUNTAJES ESTÁNDAR DE MARÍA

Z2

Liderazgo (0 a 50) 22 10,1 30 20 0,79 -0,20 Autonomía (20 a 60) 43 8,5 56 48 1,53 0,59

Creatividad (50 a 150) 110 23,2 92 127 -0,78 0,73 SUMA 1,54 1,12

MEDIA ARITMETICA 1Z =0,51 2Z =0,37 Los resultados anteriores se pueden interpretar comparando los puntajes dentro de cada test o mediante los puntajes estandarizados, puesto que las escalas tienen recorridos diversos.

a) Comparando los puntajes dentro de cada test, se aprecia que Pedro tiene mejor desempeño que María en el test de Liderazgo (30 y 20 puntos respectivamente) y en Autonomía (56 y 48 puntos respectivamente) y María supera a Pedro en Creatividad (127 y 92 puntos respectivamente).

Page 86: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 82

b) En términos de rendimientos relativos se ratifica lo antes indicado, como es natural. Pedro supera a María en Liderazgo (Z=0,79 mayor que Z=-0,20) y Autonomía (Z=1,53 supera a Z=0,59) y María tiene un mejor desempeño en Creatividad (Z=0,73 mayor que Z=-0,78).

c) En términos de los puntajes brutos, no se puede resumir el desempeño en los test pues las escalas

son distintas. Sin embargo, los puntajes estandarizados posibilitan una apreciación global de los desempeños en los tres rasgos, pues ellos si tienen una escala común. Suponiendo que tenga sentido dicho resumen, se aprecia que Pedro tiene un mejor desempeño relativo medio ( 1Z =0,51) que María ( 2Z =0,37).

5.6. ESCALAS DERIVADAS 5.6.1. La Escala T

Los puntajes estandarizados o “puntajes Z" se expresan en una escala con valores negativos y positi-vos, enteros o fraccionarios, lo que dificulta su interpretación. Es posible presentar los puntajes estandarizados en escalas de valores enteros y positivos, para lo cual se realiza una transformación de los valores Z. Las escalas derivadas mantienen las posiciones relativas de los puntajes Z. Una escala muy empleada es la escala T definida como: T= 10∙z + 50 Así, en el Ejemplo 1 anterior, en Psicología Pedro tiene puntaje estandarizado Z=0,23. El puntaje T que le corresponde será: T= 10∙z + 50 = 10(0,23)+50 = 2,3 + 50 = 52,3 ≈ 52 puntos

María tiene puntaje estandarizado Z=-0,15 en Psicología. Por lo tanto, su puntaje T será: T= 10∙z + 50 = 10(-0,15)+50 = -1,5 + 50 = 48,5 = 49 puntos

Se observa que Pedro tiene un puntaje T mayor que María, lo mismo que ocurría con los puntajes Z.

5.6.2. La Escala PAA Otra escala empleada en nuestro medio es la empleada en la Prueba de Aptitud Académica, la cual se

define como: PAA= 100∙z + 500

Así, en el Ejemplo 1 anterior, en Estadística, Pedro tiene puntaje estandarizado Z=-1,22. El puntaje PAA respectivo será:

PAA= 100∙z + 500 = 100(-1,22)+500 = -122 + 500 = 378 puntos

María tiene puntaje estandarizado Z=0,22 en Estadística. Luego, su puntaje PAA será: PAA= 100∙z + 500 = 100(0,22)+500 = 22 + 500 = 522 puntos

Se observa que María tiene un puntaje PAA mayor que Pedro, lo mismo que ocurre con los puntajes estandarizados. 5.7. PUNTAJES ESTANDARIZADOS Y PERCENTILES (Distribución Normal Estándar) Los puntajes estandarizados pueden asociarse con percentiles. Si la variable que se ha estandarizado queda bien representada por una distribución Normal (si es así, se dice que la variable “se distribuye como una Normal”) entonces, pueden emplearse los valores tabulados de las probabilidades acumuladas para la distribución Normal Estandarizada (que se pueden asociar a las frecuencias absolutas acumuladas). La tabla de la Distribución Normal (con el título de Tabla de la Función de Distribución de la Normal Estandarizada) presenta las probabilidades acumuladas desde Z=-3,90 hasta Z=3,90 en dos páginas. La primera contiene los valores desde Z=-390 hasta Z=0 y la segunda, desde Z=0 hasta Z=3,90.

Page 87: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 83

En cada tabla se aprecian filas y columnas. En la primera columna (indicada con Z) se presentan los valores de Z con un decimal. En las restantes columnas, señaladas con 0, 1, 2,…, 9 e identifican al segundo decimal de los valores de Z. En el cuerpo de la tabla se presentan los valores de las probabilidades acumuladas asociadas con valores específicos de Z. Por ejemplo, para determinar la probabilidad acumulada hasta Z=1,62 (lo que denota como Ф(1,62)) se ubica en la primera columna (Z) la fila correspondiente a “1,6”. En esa fila, avanzar hasta ubicar columna marcada “2”. En la intersección de fila “1,6” y columna “2” se lee el valor 0,9474 que es la probabilidad acumulada hasta Z=1,62. Luego, Ф(1,62)=0,9474.

TABLA: Valores de la función de distribución normal estándar z 0 1 2 3 4 5 6 7 8 9 … 1,5 1,6 0,9474 1,7 …

Para obtener los percentiles asociados con un valor de Z basta multiplicar la probabilidad acumulada

por 100. Por ejemplo, siendo Ф(1,62)=0,9474 el percentil asociado con Z=1,62 es 94,74≈95. Ejemplo Determine los percentiles asociados con los resultados de Pedro y María en ejemplo anterior sobre notas, en tres asignaturas del curso de 40 alumnos.

NOTAS, PUNTAJES ESTANDARIZADOS Y PERCENTILES EN TRES ASIGNATURAS

ASIGNATURA

MEDIA ARIT.

X

DESV. EST.

S

RESULTADOS PARA PEDRO RESULTADOS PARA MARÍA

NOTAS X1

PUNT. ESTÁND.

Z1

PROBAB. ACUMUL. Ф(Z1)

PERCEN- TIL

NOTAS X2

PUNT. ESTÁND.

Z2

PROBAB. ACUMUL. Ф(Z1)

PERCEN- TIL

Psicología 4,2 1,3 4,5 0,23 0,5910 59 4,0 -0,15 0,4404 44 Estadística 5,6 0,9 4,5 -1,22 0,1112 11 5,8 0,22 0,5871 59

Computación 3,1 1,2 4,5 1,17 0,8790 88 3,7 0,50 0,6915 69 SUMA 13,5 0,18 1,5812 158 13,5 0,57 1,7190 172

MEDIA ARITM 4,5 0,06 0,5239 52 4,5 0,19 0,5753 57 En la tabla anterior se presentan las estimaciones de probabilidades acumuladas y percentiles para Pedro y María, en las tres asignaturas. Las conclusiones son las mismas detalladas antes pues percentiles mantienen las posiciones relativas de los rendimientos, en las asignaturas y de resumen. Empleando los percentiles, podría estimarse que Pedro, en la asignatura de Psicología, supera al 59% de los 40 alumnos del curso, esto es aproximadamente 24 alumnos, y es superado por los restantes 16. Análogamente, María supera sólo al 44% de los 40 alumnnos, esto es, 18 alumnos aproximadamente, y es superada por los restantes 22 alumnos. Lo anterior ratifica que Pedro tiene un mejor rendimiento que María en esa asignatura. Observaciones (olvidables):

a) Por problemas de aproximación, se observa para Pedro (y también para María) una pequeña discrepancia en los resultados medios (última fila) pues la probabilidad acumulada para 0,06 es Ф(0,06)=0,5239 (y percentil 52 como se indica) pero el promedio de las probabilidades acumuladas es igual a 1,5812/3 = 0,5270 (que corresponde al percentil 53).

b) Se puede comprobar que la nota media del curso en las tres asignaturas es 4,3 y la desviación

estándar global, para las tres asignaturas, es 1,53. Como el promedio de Pedro y María es 4,5 el puntaje estandarizado respectivo es Z= (4,5-4,3)/1,53 = 0,13 siendo la probabilidad acumulada Ф(0,13)=0,5517 lo que corresponde al percentil 55. Este valor es diferente a los otros. En síntesis,

Page 88: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 84

los tres valores de percentiles son estimaciones de resumen para lograr una interpretación global de la información.

c) La tabla de la Distribución Normal Estandarizada contiene puntajes estandarizados Z entre -3,9 y

3,9. Sin embargo, Z puede tener otros valores. Por ello, se considera que la probabilidad acumulada para Z<-3,9 es cero y cuando Z>3,9 es uno. Esto es Ф(Z<-3,9)=0 y Ф(Z>3,9)=1.

d) La Distribución Normal, aquí presentada, es muy importante en Estadística, en los temas de

Probabilidades y de Inferencia. 5.8. EJERCICIOS SOBRE ESTANDARIZACIÓN 1. Los resultados en los test de conocimientos de los exámenes de tres asignaturas, de un curso de 60

alumnos, así como los del alumno Matías, son los siguientes puntajes.

ASIGNATURA MEDIA DESV. ESTANDAR

MATÍAS

ALGEBRA 48 12 54 FÍSICA 40 8 45 INGLÉS 80 15 108

a) Obtenga los puntajes estandarizados para Matías, en las asignaturas. b) Obtenga los puntajes T y PAA para Matías, para las asignaturas. c) Suponiendo normalidad para la distribución de los rendimientos, estime los percentiles que

ocupa Matías en las asignaturas. d) Estime cuántos alumnos superan a Matías en cada asignatura e) Estime el rendimiento medio de Matías en las tres asignaturas. (Resp. para Álgebra: Z=0,5 ; T=55; PAA=550; Percentil 69,15≈69; Nº alumnos que superan a Matías en Álgebra=41,4≈41 alumnos; Rendimiento medio, en las tres asignaturas, de Matías Z =1,00, percentil 84).

2. En un test de conocimientos de Historia, Claudia obtuvo 50 puntos, que equivalen a un puntaje T=60 y

Eduardo obtuvo 44 puntos, que equivalen a un puntaje T=55. Estime el puntaje medio y la desviación estándar del test de Historia. (Resp: Media=38 puntos y Desviación Estándar=12 puntos).

3. Se tiene la información siguiente sobre Peso y Talla de una muestra estudiantes hombres de 14 y 17

años de estudiantes de establecimientos municipalizados de Valparaíso. También se tiene el peso y talla de dos estudiantes Antonio (14 años) y Cristián (17 años).

CARACTERÍSTICA 14 AÑOS 17 AÑOS Peso (k) Talla (cm Peso (k) Talla (cm)

Media Aritmética 56,0 164,9 66,9 173,1 Desviación Estándar 8,95 6,62 11,54 6,02 Antonio (14 años) 62,3 169 Cristián (17 años) 63,4 176

b) Determine la posición relativa de Antonio y Cristián respecto a su grupo, tanto en peso como en

talla, empleando puntajes estándar y percentiles (¿Cuál es más alto?, ¿Cuál es más delgado?). c) Suponiendo que tiene sentido resumir las características de peso y talla, promediando sus

posiciones relativas (puntajes estándar o percentiles), determine dichas posiciones promedio e intente caracterizarlas.

Page 89: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 85

6. CORRELACION

6.1. DATOS BIVARIANTES Y RELACIÓN DE VARIABLES

Los datos bivariantes son aquellos en que dos variables (de cualquier tipo) son medidas en cada una de las unidades de observación o de análisis. Esto es, se dispone de un conjunto de n pares ordenados de valores para las unidades de observación, del tipo (Xi;Yi) (i=1,2,..,n) en que X e Y representan las variables, esto es : (X1, Y1), (X2, Y2), … (Xn, Yn). Ejemplo 1: Para cada alumno de la carrera, se registran su talla (cm) y su peso (kg); Ejemplo 2: Para cada mes desde 2000 a la fecha se registra el número de préstamos a domicilio de la Biblioteca Severín Ejemplo 3: Para niños de 8 a 10 años, se registra la edad (en meses) y el tiempo (seg) empleado

en leer un texto determinado. Ejemplo 4: Para la ciudad de Valparaíso entre 1950 y 2002, los totales de agua caída en el año (en mm) y el

total de alumnos inscritos en Primer año de Ed. Básica.

La representación de los pares de valores se realiza mediante los gráficos de dispersión. Ëstos semejan nubes de puntos, pues corresponden a la representación de los puntos definidos por los pares ordenados que definen el conjunto de valores estudiado. Estos gráficos permiten evidenciar si existe o no relación entre las variables. Si ésta existe, el gráfico pone en evidencia el sentido y, en menor medida, la magnitud de la relación entre las variables (tengan o no sentido lógico).

Si existe relación entre las variables, ésta puede ser lineal (en forma de una recta) o no lineal (o

curvilínea, en forma de una curva como una parábola, o exponencial etc.). Nos interesarán las relaciones lineales, pues son más sencillas de estudiar e interpretar. Los problemas de interés, estudiados por la Estadística, generados por los datos bivariantes son de dos tipos: a) la asociación o correlación, y b) la regresión.

La asociación o correlación corresponde al estudio del grado la magnitud y dirección de la relación que existe entre las variables. La regresión corresponde a la definición de la expresión matemática (ecuación) que representa la relación de las variables. 6.2. LA ASOCIACIÓN ENTRE VARIABLES

En Economía, Administración, Psicología, así como en muchas otras áreas del conocimiento, se considera importante medir la magnitud así como la dirección de la relación o “asociación” que puede existir en las variables que forman el par de los datos bivariantes, partiendo del supuesto que dicha relación tiene sentido. Así ocurre en los tres primeros ejemplos. En el cuarto ejemplo, no se aprecia que pueda existir alguna relación o “asociación” lógica entre las variables.

Si existe relación lógica entre las variables, es interesante cuantificar la magnitud así como la

dirección de la asociación. La “magnitud” se traduce en la asignación de un valor a la misma, de modo que un mayor valor correspondería a un mayor grado de asociación entre las variables. La “dirección” corresponde a la caracterización del sentido de la misma, esto es, si al aumentar una variable la otra también aumenta (dirección positiva o directa) o al aumentar una variable la otra disminuye (dirección negativa o inversa).

En los ejemplos anteriores se puede apreciar que en los casos de Ejemplo 1 y Ejemplo 2 la asociación es directa. En el Ejemplo 3, la asociación es inversa.

Page 90: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 86

6.3. COEFICIENTE DE CORRELACIÓN DE PEARSON El grado de la relación lineal existente las variables que definen los datos bivariantes se mide con un

coeficiente denominado "COEFICIENTE DE CORRELACION LINEAL". Existen diferentes coeficientes, dependientes de la naturaleza de las variables involucradas. Uno de los más importantes es el Coeficiente de Correlación Lineal de Pearson.

El Coeficiente de Correlación de Pearson es una medida de asociación entre variables X e Y, medidas

en una escala intervalar al menos. Si bien tiene una definición teórica, la siguiente corresponde a su definición operativa, basada en los resultados observados (muestrales), y por ello el coeficiente se designa por "r"

1

1

n

Xi Yii

Z Zr

n==

1 1

2 2 2 2 2 2

1 1 1 1

( )( )

( ) ( ) ( ) ( )

n n

i i i ii i

n n n n

i i i ii i i i

X X Y Y X Y nXYr

X X Y Y X nX Y nY

= =

= = = =

− − −= =

− − − ⋅ −

∑ ∑

∑ ∑ ∑ ∑= 1

2 2( 1) ( 1)

n

i ii

X Y

X Y nXY

n S n S=

− ⋅ −

6.4. PROPIEDADES DEL COEF. DE PEARSON

Las propiedades más notables del Coeficiente de Correlación de Pearson son:

1. El valor del coeficientes fluctúa entre: -1 ≤ r ≤ 1

2. El valor r>0 significa que las variables están asociadas directamente (en forma lineal).

r=0 significa que las variables no están asociadas linealmente. r<0 significa que las variables están asociadas inversamente (en forma lineal).

3. r = ± 1 cuando todos los puntos muestrales caen en la recta de predicción.

4. Mientras mayor es el valor absoluto de r, más fuerte es el grado de asociación lineal de las variables.

5. El valor de r no depende de las unidades en que se miden las variables.

6. r es una medida simétrica. Esto es, no importa que se desee la relación de X con Y o de Y con X puesto que el valor de r será el mismo.

7. El coeficiente de correlación es apropiado sólo cuando el modelo de relación lineal entre las

variables es apropiado (pues r es proporcional a la pendiente de la ecuación de regresión que mide la fuerza de la asociación lineal entre X e Y). Si hay una relación curvilínea entre las variables, r puede fallar en detectarla. En tal caso, un valor bajo de r no implica que las variables no estén asociadas, sólo que la asociación no es lineal.

8. Cabe hacer notar, que cualquier coeficiente de correlación puede ser calculado numéricamente

ante cualquier par de observaciones del tipo (Xi; Yi); no obstante carece de sentido en todos aquellos casos que se prefije de antemano una de las variables - usualmente X - para observar el resultado de la otra variable Y.

Page 91: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 87

6.5. CALCULO DEL COEFICIENTE DE CORRELACIÓN DE PEARSON 6.5.1. Cálculo con Calculadora y Excel El cálculo de “r” con calculadora es la forma más simple de obtener su valor, además de otros valores asociados con el tema de Regresión. Este método requiere de una calculadora que pueda operar con datos bivariantes. En el Apéndice sobre uso de la calculadora se indica el procedimiento de cálculo. En general, las calculadoras señalan con “r” el valor del coeficiente de correlación lineal de Pearson. Con Excel se puede obtener el valor del Coeficiente de Correlación con el comando =COEF.DE.CORREL(Ubicación var. X; Ubicación var. Y).

Por ejemplo si X esta en columna B desde B2 a B6 y la variable Y esta en columna C desde C2 a C6 la instrucción que debe escribirse es =COEF.DE.CORREL(B2:B6;C2:C6). El valor del Coeficiente de Correlación Excel lo ubica donde se encuentre el cursor, al momento de escribir el comando, en el ejemplo es r=0,93 Ejemplo:

Se empleará datos de pesos y estaturas de 5 personas, que se presentan a continuación, así como el Gráfico de Dispersión realizado con Excel

CASO X: PESO (K) Y: TALLA (cm)

1 32 144

2 55 165

3 45 150

4 44 158

5 51 162

GRÁFICO DE DISPERSIÓN (datos de Peso yTalla)

140

145

150

155

160

165

170

30 40 50 60

PESO (K)

TALL

A (

cm)

El resultado observado para el Coef. de Correlación r=0,93 se puede interpretar como la existencia de gran asociación entre el peso y la talla de las personas. Observar que en el comando de Excel se indica sólo donde están los datos de varables X e Y , sin considerar los rótulos de identificación que los acompañan.

Page 92: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 88

b) Cálculo con los datos originales Cuando no se dispone de Excel o una calculadora apropiada, se puede calcular el Coef. de Correlación manualmente. El procedimiento es el siguiente.

Persona X: PESO (k)

Y: TALLA (cm) XY

A 32 144 4.608 B 55 165 9.075 C 45 150 6.750 D 44 158 6.952 E 51 162 8.262

TOTAL 227 779 35.647 Media Arit. 45,40 155,80

Desv. Estándar 8,73 8,67 Varianza 76,30 75,20

1

2 2( 1) ( 1)

n

i ii

X Y

X Y nXYr

n S n S=

−=

− −

∑=

35.647 5(45,4)(155,8) 35.647 5(7.073,32) 35.647 35.366,60 280,4 0,9254302,99(4)(76,3) (4)(75,2) (305,2) (300,8) 91.804,16

− − −= = = = =

⋅ ⋅

6.6. EJERCICIOS 1. En el ejemplo anterior, verifique los resultados empleando la fórmula no utilizada. 2. Los datos siguientes corresponden a resultados en una prueba (X) y en el examen final (Y), obtenidos por un grupo de 20 estudiantes. Compruebe cálculos parciales y que r=0,29.

ALUMNO X:PRUEBA

1 Y:EX.FINAL ALUMNO X:PRUEBA

1 Y:EX.FINAL CALCULOS

PARCIALES 1 84 66 11 88 81 ΣX = 1.604 2 70 77 12 65 74 ΣY = 1.538 3 87 84 13 87 74 ΣXY = 123.759 4 68 56 14 89 74 ΣX2 = 130.124 5 81 86 15 69 74 ΣY2 = 119.632 6 96 81 16 80 71 Media X = 80,2 7 90 79 17 75 94 Desv. Est. X = 8,835 8 82 82 18 84 83 Media Y = 76,9 9 89 81 19 76 68 Desv. Est. Y = 8,46

10 70 84 20 74 69

Page 93: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 89

6.7. SIGNIFICACIÓN DEL COEFICIENTE DE CORRELACIÓN La interpretación del significado del valor del Coeficiente de Correlación “r” es simple cuando tiene los valores 1, -1 o cero. Sin embargo, en otros casos esto no es tan simple. Por ello, para lograr alguna interpretación del valor de “r” se recurre a la Inferencia. Si se considera una población de N datos bivariantes, esto es (Xi;Yi) (i=1,2,..,N), el Coeficiente de Correlación lineal de Pearson se designa con la letra griega ρ (ro). Si las variables que conforman la población de pares ordenados son independientes, esto es, no existe alguna relación entre las mismas su Coeficiente de Correlación vale 0 (o sea, ρ=0). Sin embargo, si se seleccionan muestras de n datos de esa población, los Coeficientes de Correlación muestrales (r) no necesariamente tendrán el valor 0, si no que pueden tomar otros valores (cercanos o alejados de 0). El problema se plantea, entonces, del modo siguiente. ¿Si se tiene un Coeficiente de Correlación “r” calculado a partir de una muestra de datos bivariantes, puede provenir de una población en que las variables son independientes y, por lo tanto, su Coeficiente de Correlación poblacional ρ=0?. Si la respuesta es positiva ello significará que las variables no tienen relación (lineal). Si la respuesta es negativa, ello indicará que existe algún grado de relación (lineal9 entre las variables. En Inferencia se estudian técnica que pueden responder adecuadamente al problema. Sin embargo, también se puede obtener una conclusión al usar la Tabla para la “Valores Críticos del Coeficiente de Correlación de Pearson” (al final de la sección). Dicha tabla entrega, para un valor de “g.l.” grados de libertad el valor absoluto máximo del Coeficiente de Correlación muestral “r” que podría observarse siendo el Coeficiente de Correlación poblacional igual a cero (ρ=0). El valor de g.l. es igual al tamaño de la muestra menos 2, esto es, g.l.=n-2. El riesgo de tomar una decisión incorrecta corresponde al “Nivel de Significación” y se presentan cuatro niveles de riesgo, 0,10 ( o 10%); 0,05 (o 5%); 0,02 (2%) y 0,01 (1%). Por ejemplo, anteriormente se calculó la correlación entre peso y talla para 5 personas obteniéndose r=0,9254. La hipótesis planteada es ¿Existe realmente correlación entre Peso y Talla para la población de la cual se obtuvo la muestra anterior?, o ¿Están asociadas linealmente las variables peso y talla en la población en estudio?. Buscando en la tabla, como n=5 se emplea el valor de g.l=5-2=3. En esa fila y bajo la columna 0,05 (nivel de significación del 5%) se lee 0,878. Valores Críticos para el Coeficiente de Correlación

g.l.=n-2 0,10 0,05 0,02 0,01 1 2 3 0,878 4 …

La interpretación de lo anterior es (para g.l.=3), siendo r el valor observado de la correlación: Si –0,878<r<0,878 se acepta que ρ=0, luego, no existe relación lineal entre las variables en la

población. Si r<-0,878 se concluye que ρ<0, esto es, existe asociación inversa entre las variables. Si r>0,878 se concluye que ρ>0, esto es, existe asociación directa entre las variables. Como en el ejemplo se obtuvo r=0,9254, que es mayor a 0,878, por lo tanto se rechaza la hipótesis que

ρ=0, concluyéndose que ρ>0, esto es, que existe una relación lineal directa entre las variables peso y talla (suponiendo un riesgo del 5% que la conclusión anterior es incorrecta). La tabla presenta los valores de g.l. entre 1 y 30. Después cada 5, cada 10 etc. hasta 250. Si el valor de g.l para un ejemplo particular no se encuentra, se tomará el más próximo.

Page 94: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 90

6.8. OTROS COEFICIENTES ASOCIADOS CON EL DE PEARSON En Psicología, como en otras áreas, se emplean diversos coeficientes para medir la asociación entre variables. Presentaremos algunos que pueden calculares con las fórmulas o técnicas presentadas para el Coeficiente de Correlación de Pearson (calculadora, computador, etc) aunque también tienen fórmulas específicas para su cálculo. 6.8.1. Coeficiente de Correlación por Rangos, de Spearman Se entiende por rango de las observaciones a la ubicación relativa de éstas, como lugar que ocupa en el grupo 1º, 2º, 3º, etc. Los rangos pueden ser la forma natural de una clasificación como en el caso de un juez que evalúa a participantes de una competencia (1º, 2º, 3º etc.), o de postulantes a un cargo. También los rangos pueden ser inducidos por los valores de los datos (ordenar estaturas por la magnitud de menor a mayor: el más bajo ocupa el rango 1, el siguiente el 2 etc.). Ejemplo:

Dos jefes califican el desempeño de 7 secretarias, asignando lugares al desempeño (1º, 2º,…, 7º). Se desea conocer el grado de concordancia entre las calificaciones entregadas por los jefes. Compruebe que la correlación entre calificaciones de los jefes es r=0,7857

EJECUTANTE JEFE 1=(Xi)

JEFE 2=(Yi)

Alejandra 1 2 María 2 4 Rosa 3 1 Doris 4 3 Juana 5 6 Estela 6 5

Carmen 7 7 Para interpretar del valor obtenido, si se considera al grupo de secretarias como una muestra aleatoria, se puede emplear la “Tabla de Valores Críticos del Coeficiente de correlación”. Para α=0,05 y fila 5 se obtiene el valor crítico de r=0,755. Como el valor obtenido para r=0,786 que es superior al anterior, se concluye que existe correlación significativa entre las ordenaciones de los jueces, por lo tanto son concordantes sus criterios de ordenación (con un riesgo del 5%). 6.8.2. Coeficiente de Correlación Biserial Puntual El nombre de “Coeficiente de Correlación Biserial Puntual” se ha reservado para la medida de la correlación cuando una variable es dicotómica y la otra es continua. En Psicometría se emplea para medir la DISCRIMINACIÓN de un ítem o pregunta de un test o prueba (suponiendo que el ítem sólo tiene respuesta correcta o incorrecta, como los del tipo verdadero o falso, selección múltiple, etc.).

Se dice que un ítem Discrimina o tiene poder discriminatorio si aquellos que contestan bien el ítem obtienen puntajes altos en el test y aquellos que contestan mal el ítem obtienen puntajes bajos en el test. Si un ítem discrimina, entonces la correlación (r) entre el ítem y el puntaje total debe ser alta y positiva. Este coeficiente puede calcularse empleando la fórmula de Pearson (o calculadora o computador). Ejemplo: Se aplicó un test para medir el nivel de conocimientos sobre los aspectos legales de una repartición pública a los asistentes a un curso de capacitación sobre ese tema.Los siguientes son los resultados en un ítem (1: respuesta correcta; 0= respuesta incorrecta) y en la prueba completa obtenidos por 10 participantes. Compruebe (con calculadora, fórmula de Pearson) que la discriminación del ítem es r=0,6798 y que es significativa (considerando el 5% de nivel de significación).

Page 95: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 91

Datos originales ALUMNO ITEM (X) PUNT.TOTAL

(Y) Alejandra 1 52 Andrea 1 47 Carmen 0 22 Claudia 1 56 Cristián 0 42 Eduardo 1 36 Enrique 0 38 María 1 49 Pedro 0 25 Tito 1 38

6.8.3. Coeficiente de Correlación Phi (Φ) El Coeficiente Φ se emplea para estimar la correlación cuando las dos variables son dicotómicas. Por ejemplo, sexo (femenino, masculino) o respuesta a un ítem (correcto o incorrecto). Ejemplo:

En el test del ejemplo anterior, se desea estudiar la relación entre las respuestas dadas por 10 participantes a dos ítems de una prueba (que se presentan a continuación). Con 1 se indica respuesta correcta y con 0 respuesta incorrecta. - Compruebe que la correlación de Pearson es 0,2182 y que no es significativa al 5%. Interprete el resultado.

Datos de respuesta a ítems ALUMNO ITEM 1

(X) ITEM 2

(Y) Alejandra 1 0 Andrea 1 1 Carmen 0 1 Claudia 1 1 Cristián 0 1 Eduardo 0 0 Enrique 0 0 María 1 1 Pedro 0 1 Tito 1 1

Para estudiar la significación se emplea la tabla para el Coeficiente de Correlación con g.l.=10-2=8. El

valor crítico para el 5% de significación es 0,632. Dado que el valor de r=0,2182 es menor que el de significación de la tabla (0,632) se acepta que ρ=0. La interpretación es que las respuestas a los ítems son independientes, esto es, la respuesta a un ítem no influye en la respuesta al otro. 6.8.4. Coeficiente de Correlación Biserial El nombre de “Coeficiente de Correlación Biserial” se ha reservado para la medida de la correlación cuando una variable es continua y la otra se dicotomiza, aunque su naturaleza no es dicotómica. . Por ejemplo, se podría correlacionar el peso (continua) con talla (también continua) pero dicotomizada en “alto” con valor 1 (si talla es superior a 168 cm.) o “bajo” con valor 0 (si talla es inferior a 168 cm.). Este coeficiente no es un caso especial del coeficiente de Pearson, aunque se puede emplear dicho coeficiente como una estimación del mismo. También se emplea para medir Discriminación.

Page 96: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 92

6.9. CORRELACIÓN Y CONFIABILIDAD La Confiabilidad corresponde a la capacidad de un instrumento (test) para medir un rasgo en forma consistente, esto es, estable. Se espera que un instrumento que se aplica a un sujeto, pueda entregar resultados semejantes (no necesariamente idénticos) cada vez que se le aplica. Anteriormente se presentó el Coeficiente de Confiabilidad denominado Alfa de Cronbach el que se definió en función de las varianzas de los puntajes de los ítems y puntajes totales. Ese coeficiente también se puede calcular en función de las correlaciones entre los ítems, según la fórmula siguiente: Si se tienen k ítems y se calculan las correlaciones entre ellos, siendo r el promedio de dichas correlaciones, entones, el coeficiente Alfa de Cronbach se define como:

1 ( 1)k rk r

α ⋅=

+ −

6.9.1. Ejemplo (el mismo visto en Medidas de Dispersión): Se aplicó una escala tipo Likert (con 7 aseveraciones) para conocer las opiniones de un grupo de 13 estudiantes acerca de las características del curso de Estadística. Los resultados del cálculo del Coeficiente de Confiabilidad Alfa de Cronbach (α ) se presentan a continuación:

RESULTADOS DE ESCALA LIKERT

ALUMNO ASEV1 ASEV2 ASEV3 ASEV4 ASEV5 ASEV6 ASEV71.ALFONSO 5 4 4 3 3 4 52. ANTONIO 5 4 4 4 4 3 33. CARMEN 2 2 2 2 4 2 34. ELÍAS 4 4 3 3 5 3 35. GASPAR 5 4 5 5 5 3 46. ISABEL 3 4 3 5 5 3 17.JOSE 3 4 2 2 3 1 28. JOSEFINA 4 4 2 2 4 1 59. MARIA 5 2 2 5 2 3 410. PAULINA 4 4 2 4 4 1 511. PEDRO 5 4 4 4 3 4 412. ROBERTO 1 3 2 3 1 2 113. ROSA 1 3 3 2 2 4 2

Correlaciones entre los items ASEV1 ASEV2 ASEV3 ASEV4 ASEV5 ASEV6

ASEV2 0,407ASEV3 0,514 0,469ASEV4 0,554 0,118 0,430ASEV5 0,408 0,489 0,346 0,259ASEV6 0,202 -0,029 0,689 0,307 -0,099ASEV7 0,708 0,180 0,182 0,091 0,213 -0,044

Se tiene que el nº de ítems es k=7 , luego hay 21 correlaciones cuyo promedio es

0,407 0,514 ... ( 0,044) 6,393 0,304421 21

r + + + −= = =

El valor del Coeficiente de Confiabilidad “Alfa de Cronbach” (α ) es:

α1 ( 1)

k rk r⋅

=+ −

7 (0,3044) 2,1308 2,1308 2,1308 0,75381 (7 1)(0,3044) 1 6(0,3044) 1 1,8264 2,8264

⋅= = = = =

+ − + +

Page 97: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 93

6.9.2. Observaciónes a) El valor de α=0,754 coincide con el obtenido antes. La tabla de correlaciones anteriores permite

apreciar que la correlación más alta y directa se produce entre los ítems 1 y 7 (r=0,708) y la más baja entre los ítems 2 y 6 (r=-0,029) la que además es inversa.

b) A medida que la correlación entre los ítems es más alta, mayor resulta ser el valor de α . Si la correlación para cada uno de los pares de ítems es la máxima (r=1) entonces α =1. Esto corresponde a la consistencia máxima del test.

c) Si la correlación para cada uno de los pares de ítems es nula (r=0) entonces α =0. Esto corresponde a la consistencia mínima del test.

d) Pueden obtenerse valores de α negativos, lo que a veces ocurre en test aplicados a una muestra pequeña de individuos o que tienen un número reducido de ítems.

6.10. EJERCICIOS

1. Los siguientes son los resultados de una prueba aplicada a 10 alumnos. Con 1 se indica respuesta correcta y con 0 respuesta incorrecta, Total señala el total de respuestas correctas de cada alumno. (Este es el mismo ejemplo de Confiabilidad presentado en Estadísticas de Dispersión):

RESULTADOS EN PRUEBA DE CONOCIMIENTOS

ALUMNO PREG1 PREG2 PREG3 PREG4 PREG5 PREG6 TOTAL1. ALFONSO 1 0 1 1 1 1 52. ANTONIO 1 1 1 0 0 0 33. CARMEN 1 1 1 1 1 1 64. ISABEL 1 1 1 1 1 1 65. JOSE 0 0 1 1 0 1 36. JOSEFINA 1 1 1 0 0 0 37.MARIA 1 0 0 0 0 0 18. PEDRO 1 0 1 1 0 1 49. ROBERTO 1 0 0 1 1 1 410. ROSA 1 0 1 0 1 1 4

Correlaciones entre respuestas a Preguntas y con el Puntaje Total PREG1 PREG2 PREG3 PREG4 PREG5 PREG6 TOTAL

PREG1 1,000PREG2 0,272 1,000PREG3 -0,167 0,408 1,000PREG4 -0,272 -0,167 0,102 1,000PREG5 0,333 0,000 0,000 0,408 1,000PREG6 -0,218 -0,356 0,218 0,802 0,655 1,000TOTAL 0,208 0,339 0,484 0,649 0,761 0,709 1,000

a. Compruebe los valores de las correlaciones entre las preguntas (indicadas en la tabla, calculadas con Excel).

b. Considerando sólo las 15 correlaciones entre preguntas distintas, compruebe que el promedio de las correlaciones es 0,1346 y que el valor del coeficiente Alfa de Cronbach es 0,483.

c. Estudie la discriminación de los ítems mediante significación de las correlaciones entre pregunta y puntaje total. Compruebe que discriminan, pues son significativas al 5%, las correlaciones en negrita. (Verifique: Valor crítico para el 5% de significación es r=0,632)

d. Identifique los ítem que presentan asociación en sus respuestas al 5% de significación. (Resp.: Preg. 4 con 6 y 5 con 6). Y asociación al 1% ((Resp.: Preg. 4 con 6 con valor crítico r=0,765)

e. Identifique el tipo de correlación al que corresponde la correlación entre ítems y la de los ítems con el total.

2. Los siguientes son los puntajes obtenidos por 12 adolescentes sordomudos en la escala WAIS

(Weschler Adult Intelligence Scale) y 4 escalas de orientación vocacional profesional. Un puntaje mayor significa una mayor aptitud. a. Compruebe las correlaciones indicadas, obtenidas con Excel.

Page 98: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 94

b. Determine aquellas correlaciones que son significativas al 5%. c. Determine aquellas correlaciones que son significativas al 1%. d. Identifique las escalas vocacionales que presentan mayor correlación entre sí, y las que

presentan la menor correlación entre sí. Interprete esos resultados. e. Identifique la escala vocacional que presenta la mayor correlación con la escala WAIS, así

como aquella en que la correlación es más baja. Interprete los resultados.

PUNTAJES EN LAS ESCALAS

CASOPUNTAJE

WAIS

ADMINIS-

TRACIÓNCOMERCIO TÉCNICA ARTESANIA

1 99 15 33 16 252 103 24 20 20 403 111 17 37 13 214 116 5 42 8 205 127 9 40 6 186 117 5 48 3 177 114 14 34 7 318 113 13 33 13 359 122 24 20 16 35

10 113 15 32 12 2711 120 14 43 10 1712 108 12 36 11 28

Correlaciones entre pruebasPUNT. WAIS ADMINIST. COMERCIO TÉCNICA ARTESANIA

PUNT. WAIS 1,000ADMINIST. -0,293 1,000COMERCIO 0,322 -0,900 1,000TÉCNICA -0,587 0,857 -0,846 1,000ARTESANIA -0,401 0,723 -0,892 0,708 1,000

Page 99: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 95

7. REGRESIÓN LINEAL

7.1 RELACIONES ENTRE VARIABLES El "Análisis de Regresión" es una herramienta estadística que estudia la relación entre dos o más

variables cuantitativas seleccionando el mejor modelo matemático que permita expresar dicha relación mediante una ecuación. Dicha ecuación, además de modelar una situación posibilita la predicción.

En Economía, Administración, Psicología etc. es importante este tema pues posibilita relacionar

variables, puntajes en pruebas y obtener medidas de presencia de ciertos atributos o rasgos o desempeños. Por ejemplo, es interesante estudiar la relación entre incentivos y productividad; inversión en publicidad y ventas, entre el precio del cobre promedio mensual y mes, entre los puntajes de la PAA y el desempeño en la universidad. Si se encuentra la relación entre estas variables, se podría predecir el desempeño de un alumno analizando su resultado en la PAA. Es interesante, también, estudiar el desempeño de dos test que miden el mismo constructo para seleccionar aquel que sea más simple o eficiente.

Siendo un objetivo de la ciencia modelar la realidad, el tema de la Regresión es una herramienta

importante pues estudia la relación entre variables y suministra técnicas para para encontrar y seleccionar los mejores modelos que permitan explicar dicha relación.

Respecto a la relación que puede existir entre las variables, conviene distinguir entre la "relación

funcional" y la "relación estadística". Una "relación funcional" entre dos o más variables se expresa mediante una fórmula matemática del

tipo Y=f(X1,X2,...,Xp). Esta fórmula expresa una relación perfecta entre las variables, de modo que su representación será una curva (o una superficie).

Para el caso de dos variables, un ejemplo es la ecuación de la recta: Y= a +bX ; otro, la de la parábola:

Y=a+bX+cX2 (siendo a, b y c constantes). En ambos casos, los puntos P(X,Y) del plano que cumplen la condición de la ecuación se ubican en la curva que esta relación define. Además, cualquier punto que pertenece a la curva cumple la condición de la ecuación (la satisface).

Una "relación estadística" entre dos o más variables expresa la relación de valores reales observados

(datos) de dichas variables y por lo tanto, no se espera que se asocie perfectamente a un modelo matemático (recta, parábola etc.). Por esto, las observaciones de las variables involucradas no pertenecen a alguna recta o curva en forma perfecta. El modelo (recta, curva etc.), si existe, servirá para mostrar la tendencia de las observaciones.

La variable Y se denomina "dependiente" o de "respuesta", la variable X se denomina

"independiente" o "predictora". A pesar de estos nombres no debe suponerse que entre las variables necesariamente hay una relación de causa-efecto.

El gráfico de los puntos (Xi,Yi) es el denominado "diagrama de dispersión" y es importante para

determinar la naturaleza de la relación entre las variables y la selección de un "modelo de regresión" que pueda representarla.

Un "modelo de regresión" es una manera formal de expresar los dos ingredientes esenciales

siguientes de una relación estadística: a) La tendencia de la variable dependiente Y de variar con la variable (o variables) independientes

de una manera sistemática. b) La dispersión de las observaciones alrededor de la curva de la relación estadística. Estas dos características están incorporadas en el modelo de regresión en los postulados: a) En la población de observaciones asociadas con el proceso de muestreo, hay una distribución

(de probabilidad) de Y para cada nivel de X.

Page 100: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 96

b) Las medias de esas distribuciones de probabilidad varían de una manera sistemática con la variación que experimenta X.

La construcción de un modelo de regresión supone varias etapas. Entre ellas: a) Selección de variables independientes. Dado que no se pueden incluir todas las variables,

debe seleccionarse el conjunto que mejor representa el problema en estudio. Para esto ayuda la teoría respectiva y el modelo de análisis de las relaciones entre variables utilizado, así como la bibliografía pertinente.

b) Forma funcional de la ecuación de regresión. La función seleccionada como ecuación de

regresión depende de las variables independientes. La teoría puede indicar la función apropiada. Frecuentemente, la fórmula debe decidirse a partir del análisis de los datos, para lo que ayuda el "diagrama de dispersión".

c) Alcance del modelo. Corresponde al rango de valores cubierto por las variables

independientes. Puede determinarse por el diseño de la investigación o por el intervalo de valores empleados en el estudio.

El análisis de Regresión tiene tres propósitos: a) Descripción de las relaciones existentes entre variables. b) Control de una variable conociendo el comportamiento de las otras. c) Predicción de valores de una variable, más allá del alcance del modelo.

7.2 MODELO DE REGRESIÓN LINEAL

El modelo de Regresión Lineal que relaciona las variables X e Y según una recta es el más sencillo y se

expresa como: Yi = α + βXi + εi (i =1, 2,...,n). Siendo: Yi : valor de la variable de respuesta para el i-ésimo intento (conocido) Xi : valor de la variable independiente para el i-ésimo intento (conocido) εi: error aleatorio con E(εi)=0; varianza (εi)=σ2; con εi y εj no correlacionados α, β : parámetros del modelo, coeficientes de regresión (desconocidos) β: representa la pendiente. Indica el cambio que experimenta la variable Y cuando la variable X varía

en una unidad. α: representa el intercepto de la recta. Cuando α=0 la recta pasa por el origen. Por lo indicado antes, es importante tener presente que la ecuación del modelo representa el

comportamiento de los valores medios de los respectivos valores de Y para cada uno de los valores de X. 7.3. ESTIMACIÓN DE LA FUNCIÓN DE REGRESIÓN

Como se expreso anteriormente, los datos que corresponden a las observaciones empíricas de las

variables no se ajustan exactamente a un modelo, mostrando más bien tendencias. Por ello es importante especificar el modelo que corresponde a dicha tendencia lo que implica una selección dentro de un conjunto de posibilidades. Por ejemplo, para determinar que modelo expresa la relación entre el peso y la talla de estudiantes, si la tendencia es una línea recta, podría considerarse diversas rectas para tal fin, y por ello diversas ecuaciones de rectas.

Para obtener soluciones únicas (una recta específica, por ejemplo) es necesario definir algún criterio

para seleccionar el modelo. En el caso de Regresión, el criterio más empleado es el de los “mínimos cuadrados”. Este criterio consiste en considerar los desvíos (εi) al cuadrado ,de cada valor observado Yi respecto de aquel que entrega el modelo, iY , y determinar los estimadores de α y β que hacen mínima la suma de los cuadrados de esos desvíos para los n valores de los datos de la muestra. Los estimadores se designan respectivamente como "a" y "b". Así, se puede demostrar que las ecuaciones de la Pendiente (b) e Intercepto (a) son:

Page 101: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 97

22 2 2

1 ( )( )( )( )1 ( 1)( ) ( )

n n nn ni i i ii i ii i i ii i

n n nXii i ii i

X Y X YX X Y Y X Y nXYnbn SX X X X

n

−− − −= = =

−− −

∑ ∑ ∑∑ ∑∑ ∑ ∑

a Y bX= − La ecuación de la recta de ajuste mínimo cuadrática es Y=a+bX

7.4. USO DE EXCEL PARA ESTIMAR RECTA DE REGRESIÓN (DE AJUSTE) Con Excel se puede estimar los coeficientes de la Recta de Regresión empleando los comandos siguientes: Para el Intercepto, se usa: =INTERSECCION.EJE(Valores_de_X; valores_de_Y) Para la Pendiente se usa: =PENDIENTE(Valores_de_X; valores_de_Y) Ejemplo:

Usando los datos de Peso y Talla de cinco personas empleados antes se obtienen los valores siguiente: Intercepto a = 114,09 y Pendiente b= 0,92 .

Luego, la recta de ajuste tiene la ecuación: ˆ 114,09 0,92talla pesoY X= +

7.5. USO DE LOS DATOS ORIGINALES PARA ESTIMAR RECTA DE REGRESIÓN Se puede estimar los valores del Intercepto y de la Pendiente empleando las fórmulas señaladas y los datos originales, como se presenta en ejemplo siguiente usando los mismos datos de Peso y Talla Ejemplo Considerando los datos de peso y estatura de 5 personas, que se presentan en la tabla de la página siguiente: El cálculo del intercepto “a” y la pendiente “b” de la recta de ajuste es el siguiente

2( 1)

ni ii

X

X Y nXYb

n S−

= =−

∑ 35.647 5(45,4)(155,8) 35.647 5(7.073,32) 35.647 35.366,6 280,4 0,91874(76,3) 305,2 305,2 305,2− − −

= = = =

a Y bX= − 155,80 (0,9187)(45,4) 155,80 41,71 114,09= − = − =

Luego, la recta de ajuste tiene la ecuación: ˆ 114,09 0,919talla pesoY X= +

Page 102: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 98

Peso y Talla de 5 personas Persona X: PESO (k) Y: TALLA (cm) XY

A 32 144 4.608B 55 165 9.075C 45 150 6.750D 44 158 6.952E 51 162 8.262

TOTAL 227 779 35.647

Media Arit. 45,40 155,80Desv. Estándar 8,73 8,67

Varianza 76,30 75,20

Observaciones

a) La pendiente “b” representa la variación (aumento o disminución) que experimenta la variable Y cuando la variable X aumenta en una unidad. Así, en el ejemplo, por cada kg de aumento del peso la estatura aumenta en 0,9187 cm.

b) El intercepto representa el valor de Y cuando X=0. En el ejemplo sería 114,09 cm. c) Por lo anterior, conviene tener presente el rango de valores de X para los que tiene sentido la

ecuación que se ha ajustado. En el ejemplo sería para pesos entre 32 kg y 55 kg.

d) Si bien se ha presentado el desarrollo de los estimadores “a” y “b” así como la forma de calcularlos a partir de las observaciones muestrales, ellos se pueden obtener fácilmente mediante la calculadora en el modo LR (Vea instrucciones sobre Uso de la Calculadora).

7.6. ESTIMACIÓN DE VALORES CON LA RECTA DE REGRESIÓN

Un objetivo de la selección de un modelo que explique la relación entre las variables X e Y es poder

realizar predicciones, esto es, dado un valor de la variable X estimar un valor para la variable Y. Por ejemplo, en la relación entre peso y estatura, se determinó que la ecuación que las relaciona es ˆ 114,09 0,919talla pesoY X= +

Por lo tanto, para estimar cual es la estura que corresponde a un peso de 45 kg, se reemplaza este

valor por X en la ecuación y se obtiene: tallaY = 114,09 + (0,919)(45) = 114,09 + 41,355 = 155,445 = 155,4 cm

Page 103: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 99

Entonces, según los datos del ejemplo, para el peso de X=45 kg cuyo valor observado de la estatura es Y=150 cm el valor estimado de la misma es: tallaY =155,4 cm.

Es fácil apreciar que, si se tuviera una muestra más grande de personas, podría haber varias con el mismo peso (45 kg) pero sus estaturas podrían ser diferentes. Existiría por lo tanto una distribución de estaturas para el peso 45 kg. En ese contexto, la estatura estimada por la recta de regresión Y =155,4 cm representaría el promedio teórico de las estaturas de todos aquellos con un peso de X=45 kg. Como esta situación puede repetirse para cada valor de X (por ejemplo para X=44 ó X=51 etc), los respectivos valores estimados Y por la recta de regresión representan los valores medios estimados de las distribuciones de valores de Y asociados con cada valor de X. Observaciones

a) En la tabla de la página anterior se han calculado los valores estimados para todos los datos de la muestra. Se aprecia que para X=45 el valor tallaY =155,433 cm que difiere del calculado antes (145,445). Esto se debe a que la tabla se calculó con Excel y no se aproximaron los resultados parciales.

b) Cuando se emplea la calculadora, los valores estimados para Y son entregados por ésta en forma

directa, mediante tecla Y (Vea instrucciones sobre Uso de la Calculadora).

c) Para graficar la recta de regresión, en el diagrama de dispersión, sólo basta representar dos puntos. Estos se definen con valores de X y valores de Y respectivos. Para hacer un buen gráfico es conveniente usar los puntos asociados con los valores de X extremos (esto es el menor y el mayor). En el ejemplo, los puntos utilizados podrían ser A(32;143,5) y B(55;164,6).

d) Si se cambia el rol de las variables, esto es, se emplea como variable independiente (X) la Talla y como

variable dependiente (Y) al Peso la ecuación de Regresión cambia, no así el Coeficiente de Correlación que mantiene su valor. Compruebe que se obtiene:

ˆ 99,83 0,932peso tallaY X= − + 7.7. GRÁFICO DE REGRESIÓN USANDO EXCEL Excel permite graficar la recta de regresión y obtener la ecuación junto al gráfico. El procedimiento consiste en graficar el diagrama de dispersión primero, lo que activa las opciones para gráfico, de las que se emplea “Agregar Línea de Tendencia”. Esta opción permite completar el diagrama de dispersión con la recta y ecuación respectiva, así como posibilita emplear y seleccionar otros modelos de ajuste. El procedimiento se detalla en los gráficos siguientes, que ilustran el proceso usando los mismos datos de Peso y Talla ya empleados, los que conviene resaltar antes de seleccionar el gráfico de dispersión, como se ilustra en el diagrama siguiente a. Selección del Gráfico de Dispersión del Ayudante Gráfico

Page 104: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 100

b. Escritura de títulos y eliminación de leyenda

c. Ubicación del gráfico en hoja y formato de eje X para mejorar aspecto

Poniendo el Mouse sobre eje X se puede mejorar el formato del mismo, para aprovechar mejor el área del gráfico

d. Agregar Línea de Tendencia

Luego de mejorar aspecto del gráfico (ubicando Mouse en elemento que se desea arreglar: eje X, eje Y, área del gráfico, área de trazado, puntos del gráfico etc.) se selecciona el menú “Grafico” y en el, seleccionar la opción “Agregar línea de tendencia” como se muestra a continuación:

Page 105: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 101

e. Seleccionar el TIPO de Línea de Tendencia.

En el ejemplo se ha seleccionado la primera opción “Lineal”, para ajustar una línea recta.

f. Opciones de Línea de Tendencia

Seleccionando Opciones se tiene pantalla que se presenta a continuación. De ella se activa “Presentar ecuación en el gráfico” y “Presentar el valor de RCuadrado en el gráfico”. Todo lo anterior se presenta en pantalla siguiente:

R2 es el “Coeficiente de Determinación” siendo una medida de la calidad del ajuste del gráfico a los datos respectivos. Su valor fluctúa entre 0 (pésimo ajuste) a 1 (ajuste perfecto).

Cuando se ajusta una recta a los datos, hay una relación entre el Coeficiente de Correlación de Pearson ( r ) y el Coeficiente de Determinación (R2) tal que el cuadrado del Coeficiente de Correlación es igual al Coeficiente de Determinación.

r2=R2

g. Gráfico de dispersión con Ecuación y Línea de Tendencia

El gráfico resultante presenta la ecuación de regresión Y = 114,09 + 0,9187X y el valor del “Coeficiente de Determinación” R2= 0,8564

Page 106: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 102

h. Mejorando el Gráfico

Como se aprecia en último gráfico, esas leyendas se pueden cambiar la fuente (ennegreciendo y cambiando fuente del menú) y mover de posición, (con el Mouse) para mejorar presentación del gráfico.

Page 107: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 103

7.8. EJERCICIOS 1. Emplee los datos de los ejercicios de correlación. Obtenga rectas de regresión y analice su significación

en ejercicios 1 y 2. 2. Se tiene la siguiente información sobre horas de estudio y calificaciones de cinco estudiantes.

a) Ajuste una recta a los datos (Use calculadora o Excel) b) Determine las calificaciones estimadas empleando la recta ajustada. c) Dibuje el diagrama de dispersión con la recta ajustada. d) ¿Si Tito estudia 7 horas, cuál sería su calificación esperada?¿Cómo se interpreta ese valor?. e) ¿Qué representan las calificaciones estimadas por la recta de regresión? f) Calcule el error de estimación. g) Compruebe que la correlación entre las variables es 0,84 y estudie su significación.

ALUMNO Eduardo Rosa Matías Claudia Andrea

HORAS DE ESTUDIO (X) 0 10 6 8 6 CALIFICACIONES (Y) 52 95 83 71 64

3. En un estudio se investigaba sobre la relación entre el grado de empatía (escala 0 a 100) que lograban

los Psicólogos y el grado de satisfacción de los pacientes (escala 0 a 10). En un muestra piloto de 4 parejas de Psicólogos y pacientes se obtuvieron los datos siguientes. Realice lo pedido en el ejercicio 1. a) ¿Si un Psicólogo tiene un nivel de empatía de 65, cuál sería el grado de satisfacción esperado del

paciente?, ¿Cómo se interpreta ese valor?. b) Compruebe que la correlación es 0,90. Determine si es significativa.

PAREJA 1 2 3 4 EMPATIA PSICOLOGO (X) 70,58 94,58 36,58 48,58

SATISFACCIÓN PACIENTE (Y) 4,58 5,58 2,58 1,58 3. Los siguientes son los puntajes obtenidos por 12 adolescentes sordomudos en la escala WAIS

(Weschler Adult Intelligence Scale) y 4 escalas de orientación vocacional profesional. Un puntaje mayor significa una mayor aptitud. a. Estime las 4 rectas de regresión siendo X la Escala WAIS. Use Excel b. Grafique las rectas. usando Excel., en un mismo gráfico c. Usando los valores de los Coeficientes de Determinación estudie que recta presenta un mejor

ajuste. d. Calcule los Coeficientes de Correlación para las 4 rectas. Verifique la relación entre los

Coeficientes de Correlación y Determinación. ¿Qué coeficientes de correlación son significativos?

e. Usando los resultados anteriores analice las relaciones entre escalas e interprete resultados.

PUNTAJES EN LAS ESCALAS

CASOPUNTAJE

WAISADMINIS- TRACIÓN COMERCIO TÉCNICA ARTESANIA

1 99 15 33 16 252 103 24 20 20 403 111 17 37 13 214 116 5 42 8 205 127 9 40 6 186 117 5 48 3 177 114 14 34 7 318 113 13 33 13 359 122 24 20 16 3510 113 15 32 12 2711 120 14 43 10 1712 108 12 36 11 28

Page 108: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 104

8. TASAS E ÍNDICES

Cuando se dispone de datos de dos o más variables, medidas en las mismas unidades de análisis

(personas, instituciones, años etc.) otra forma de compararlos es mediante el cálculo de tasas e índices Las tasas y los índices son muy utilizados en la administración, como indicadores de gestión etc. 8.1. Definición de Tasa

Una tasa es una comparación de dos valores (de dos variables diferentes usualmente, medidas en las mismas unidades de análisis) mediante cuociente. El resultado se multiplica por 10, por 100 o por 100 u otra potencia de 10 para hacerlo más claro.

Valor Variable 1Tasa=Valor Variable 2

Ejemplos son la velocidad (que compara distancia con tiempo), por ejemplo: Kilómetros/hora. Otra tasa es: Nº libros/ Nº estudiantes (en la universidad por ejemplo); etc.

Como ejemplos de tasas se presentan los siguientes extraídos del “Balance de Gestión Integral 2005” de la DIBAM. Se indica el valor de la tasa para el año 2005 y la interpretación:

a) 250 = (Nº usuarios en Archivos)/(Dotación efectiva en Archivos) Esta tasa indica que se atendieron 250 usuarios en el año, por cada trabajador de la Sección Archivos. b) 35.417 = (Nº usuarios en Bib. Públicas)/(Dotación efectiva en Bib. Públicas) Esta tasa indica que se atendieron 35.417 usuarios en el año, por cada trabajador de las Bibliotecas Públicas. c) 12,7 = (Nº obras consultadas por usuarios presenciales Biblioteca Nacional)/ (Total de usuarios presenciales Biblioteca Nacional) Esta tasa corresponde a un promedio, esto es, indica que cada usuario presencial de la Biblioteca Nacional consultó un promedio 12,7 obras durante 2005.

Ejemplo (Préstamos en Sala y Préstamos a Domicilio) Los datos siguientes, tomados del “Balance de Gestión Integral 2005” de la DIBAM, corresponden a la cantidad de préstamos en sala y a domicilio de las Bibliotecas Públicas del país. Se calculo la tasa: (Nº Préstamos en sala)/(Nº Prestamos a domicilio). Por ejemplo, la tasa para 2000, que es 4,3 se obtiene dividiendo (6.174.485)/(1.437.121).

Préstamos en sala y a Domicilio de las Bibliotecas Públicas

AÑONº

Prestamos en sala

Nº Prestamos a

domicilio

TASA: Prest.sala/Pr

est. Dom.

2000 6.174.485 1.437.121 4,302001 6.567.537 1.998.039 3,292002 6.866.544 1.565.613 4,392003 7.852.453 2.114.480 3,712004 8.522.425 2.685.531 3,172005 8.417.808 3.075.045 2,74

Interpretación: Se aprecia que entre el año 200 y el 2005 han aumentado tanto los préstamos en sala como a domicilio. Sin embargo, la relación entre Préstamos en sala respecto a los préstamos a domicilio ha disminuido a través de los años, pues en 2000 se realizaban 4,3 préstamos en sala por cada Préstamo a domicilio, mientras que en 2005 esta relación disminuyó a 2,74 préstamos en sala por cada préstamo a domicilio.

Page 109: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 105

Lo anterior se produce, en términos numéricos, por el hecho que el aumento de los préstamos en sala ha aumentado en menor proporción que los préstamos a domicilio, en los años indicados. Este aspecto se analizará mediante el empleo de los índices. Del punto de vista profesional, para entender y explicar este fenómeno habría que analizar las razones de su ocurrencia (políticas de las instituciones, incentivo a la lectura etc.)

8.2. Definición de Índice Simple (de base fija)

Si se dispone de un conjunto de valores de dos variables, una de las cuales corresponde al tiempo, se define como número índice simple al cociente expresado como porcentaje, del valor de la serie para el período k (pk) respecto a uno que es el periodo base (p0).

0

*100kk

pI

p=

El valor de la variables en estudio para el período de tiempo base sirve como el punto estándar de

comparación, mientras que los valores en otros periodos de tiempo se usan para mostrar el cambio porcentual en valor con respecto al valor estándar del período base.

8.3. Definición de Serie Indexada

Una serie de tiempo indexada es una lista de números índices para dos o más períodos de tiempo, en donde para cada número se usa el mismo año base.

Una serie de tiempo indexada es simplemente una transformación de la serie original a otra que

presenta el valor para cada año (o periodo de tiempo) como porcentaje del valor del año base.

Ejemplo : Se emplearán los mismos datos de Préstamo en Sala y Préstamos a Domicilio

Préstamos en sala y a Domicilio de las Bibliotecas Pública

Nº INDICE 2000=100 Variación Nº INDICE

2000=100 Variación

2000 6.174.485 100,0 0,0 1.437.121 100,0 0,02001 6.567.537 106,4 6,4 1.998.039 139,0 39,02002 6.866.544 111,2 11,2 1.565.613 108,9 8,92003 7.852.453 127,2 27,2 2.114.480 147,1 47,12004 8.522.425 138,0 38,0 2.685.531 186,9 86,92005 8.417.808 136,3 36,3 3.075.045 214,0 114,0

PRÉSTAMOS EN SALA AÑO

PRÉSTAMOS A DOMICILIO

El ejemplo anterior presenta la información sobre préstamos en sala y a domicilio. Se han calculado los índices usando como base el año 2000. Por lo tanto, para préstamos en sala se usa el valor 6.174.485 y para préstamos a domicilio se úsale valor 1.437.121 para comparar los valores de los otros años.

Por ejemplo, el índice para 2001 con base en 2000 para préstamos en sala se calculo así:

2001Nº Prestamos en Sala año 2001 6.567.537100 100 106,4Nº Prestamos en Sala año 2000 6.174.485

I = = =

Page 110: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 106

Por su parte, el índice para 2001 con base en 2000 para préstamos a domicilio es:

2001Nº Prestamos a Domicilio año 2001 1.998.039100 100 139,0Nº Prestamos a Domicilio año 2000 1.437.121

I = = =

Para los años 2002, 2003, 2004 y 2005 se sigue el mismo procedimiento. La diferencia entre el valor del índice para un año determinado y el periodo base (100) se denomina VARIACIÓN e indica el aumento o disminución experimentado en el periodo analizado. Por ejemplo, en 2001 se aprecia un aumento del 6,4% de los Préstamos en Sala y de 39% de los Préstamos a Domicilio. Los índices presentados en la tabla anterior, permiten apreciar que los préstamos en sala y a domicilio van aumentando cada año respecto al año 2000, que es el período base. Sin embargo, también se aprecia que el porcentaje de aumento de los préstamos en sala es menor al porcentaje de aumento de los préstamos a domicilio. Por ello, en el año 2005 los préstamos en sala presentan un aumento del 36,3% respecto al año 2000. Pero los préstamos a domicilio presentan un aumento del 114,0% respecto al año 2000, el cual es tres veces mayor que el experimentado por los préstamos en sala en ese año. 8.4. Ejercicios 2. Empleando los datos para Préstamos en Sala y a Domicilio calcule la correlación entre dichos valores. 3. Usando los valores de los años (variable X) y Prestamos en Sala (variable Y) ajuste una recta a dichos

datos. 4. Usando los valores de los años (variable X) y Prestamos a Domicilio (variable Y) ajuste una recta a

dichos datos. 5. Compare las pendientes de las rectas (y los gráficos de las rectas). ¿Qué le sugieren los valores de las

pendientes y los gráficos? 6. Los datos siguientes corresponden a los visitantes a los Museos Nacionales de Bellas Artes, de Historia

Natural e Históricos, entre los años 2000 y 2005. Con Excel, calcule índices con base en el año 2000 para los visitantes a los museos y para el total de visitantes. a) Compare y determine que Museo ha experimentado mayor variación (en porcentaje) en el

número de visitantes. b) Compare las variaciones (en porcentaje) de los visitantes a los museos respecto a las variaciones

del Total de Visitantes.

MUSEO 2000 2001 2002 2003 2004 2005Museo Nacional de

Bellas Artes 419.465 309.216 414.051 262.161 421.383 673.132

Museo Nacional de Historia Natural 173.319 159.578 199.602 222.640 247.297 232.414

Museo Histórico Nacional 120.527 114.873 126.348 124.155 97.186 146.758

Total Visitantes 713.311 583.667 740.001 608.956 765.866 1.052.304

Page 111: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 107

9. BIBLIOGRAFÍA (complementaria) AGRESTI Alan & AGRESTI, Barbara F. (1979) Statistical Methods for the Social Sciences. San Francisco: Dellen Pub. Co. ARON, Arthur y ARON, Elaine N. (2001) Estadística para Psicología. Buenos Aires: Pearson Education. DIBAM (2006) Balance de Gestión Integral 2005. (on line). Disponible en: http://www.dibam.cl (Visitado

01.08.06) DOANE, David (1985) Exploring Statistics with the IBM PC. Reading, Mass.: Addison-Wesley Pub. Co. DOWNIE, N. M., HEATH, R. W (1973) Métodos estadísticos aplicados. México: Harla ELORZA, Haroldo (1987) Estadística para ciencias del comportamiento. México: Harla ESCALANTE, Eduardo y CARO, Alberto (2002) Análisis y Tratamiento de Datos en SPSS. Valparaíso: Ediciones Univ. de Playa Ancha de Cs. de la Ed. GARNER, Robert C. (2003) Estadística para Psicología usando SPSS para Windows. México: Pearson Educación. GUILFORD, J. P. y FRUCHTER, B. (1984) Estadística aplicada a la Psicología y la Educación. México: Mc Graw-Hill. HOPKINS, Kenneth D., HOPKINS, B. R. y GLASS, Gene V. (1997) Estadística Básica para las Ciencias

Sociales y del Comportamiento (3ª Ed.). México: Prentice-Hall Hispanoamericana S. A. LOPES, Paulo Alfonso (2000) Probabilidad & Estadística. Conceptos, modelos, aplicaciones en Excel.

Santa Fé de Bogotá: Pearson Educación de Colombia Ltda. MARQUES DE CANTÚ, María José (1990) Probabilidad y Estadística para ciencias Químico- Biológicas. México: McGraw-Hill. NORMAN, G. R. y STREINER, D. L. (1996) Bioestadística. Madrid: Mosby/Doyma Libros S. A. PÉREZ, César (2001) Técnicas Estadísticas con SPSS. Madrid: Pearson Educación. PÉREZ, César (2002) Estadística Aplicada a través de Excel. Madrid: Pearson Educación. SPIEGEL, Murray R. (1987) Estadística. Serie Schaum (2ª Ed.) Panamá: McGraw-Hill.

Page 112: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 108

APENDICE 1

FÓRMULARIO

OBS: Este formulario y tablas se pueden emplear en las pruebas. No agregar información o ejemplos

1 inf1inf 1

2 2

2 2 21 1

(0,5 ) ( )1

( ) ( )

1 1

n

ij j ji

jj

n m

i i ii i

X C n F f X LX Me L F

n f n n

X X X X fSCV S S S SX n n

α−=−

= =

− − = = + = +

− −= = = =

− −

∑ ∑

1 1 2 2

1 2 ...k k

k

n X n X n Xn n nX

1

1 1

( )inf ( ) ( )

j j j

j j j j

C f ff f f fMo L

1

1 1

( )inf ( ) ( )

j j

j j

C ff fMo L

2

2(1 )1

ii

T

Skk S

a

1 ( 1)k rk r

α ⋅=

+ −

X XZS−

= T= 10∙z + 50 PAA= 100∙z + 500 W=15∙z+100

1 1

2 2 2 2 2 2

1 1 1 1

( )( )

( ) ( ) ( ) ( )

n n

i i i ii i

n n n n

i i i ii i i i

X X Y Y X Y nXYr

X X Y Y X nX Y nY

= =

= = = =

− − −= =

− − − ⋅ −

∑ ∑

∑ ∑ ∑ ∑= 1

2 2( 1) ( 1)

n

i ii

X Y

X Y nXY

n S n S=

− ⋅ −

22 2 2

1 ( )( )( )( )1 ( 1)( ) ( )

n n nn ni i i ii i ii i i ii i

n n nXii i ii i

X Y X YX X Y Y X Y nXYnbn SX X X X

n

−− − −= = =

−− −

∑ ∑ ∑∑ ∑∑ ∑ ∑

a Y bX= −

Y= a+bX 2 2r R= Valor Variable 1Tasa=

Valor Variable 2

0

*100kk

pI

p=

Page 113: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 109

APENDICE 2

TABLAS DE COEF. DE SIMETRIA Y APUNTAMIENTO de Pearson y Hartley

TABLA DE INTERVALOS DE CONFIANZA DEL COEFICIENTE DE SIMETRÍA DE PEARSON

(Con 90% confianza)

POBLACIÓN POBLACIÓN Asimétrica POBLACIÓN AsimétricaNegativa SIMETRICA Positiva

Límite Inferior Límite Superior

TAMAÑO MUESTRA

LÍMITE INFERIOR

LÍMITE SUPERIOR

25 -0,711 0,711 30 -0,662 0,662 35 -0,621 0,621 40 -0,587 0,587 50 -0,534 0,534 75 -0,446 0,446 100 -0,389 0,389 150 -0,321 0,321 200 -0,280 0,280 300 -0,230 0,230 400 -0,200 0,200 500 -0,179 0,179

TABLA DE INTERVALO DE CONFIANZA DEL COEFICIENTE DE APUNTAMIENTO DE PEARSON

(Con 90% de confianza)

POBLACIÓN POBLACIÓN POBLACIÓN Platicúrtica Mesocúrtica Leptocúrtica

(Menos Apuntada que Normal) (Igual que Normal) (Más Apuntada que Normal)

Límite Inferior Límite Superior

TAMAÑO MUESTRA

LÍMITE INFERIOR

LÍMITE SUPERIOR

50 2,15 3,99 75 2,27 3,87 100 2,35 3,77 150 2,45 3,65 200 2,51 3,57 300 2,59 3,47 400 2,61 3,41 500 2,67 3,37

Tablas adaptadas de

DOANE, David (1985) Exploring Statistics with the IBM PC. Reading, Mass.:Addison-Wesley Pub. Co.

Que cita como fuente a: Pearson, E. S. & Hartley, H. O. (1970) Biometrika Tables for Statisticians (3th. Ed.).

Cambridge University Press (Pag. 207-208).

Page 114: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 110

APENDICE 3

0,10 0,05 0,02 0,011 0,988 0,997 0,9995 0,99992 0,900 0,950 0,980 0,9903 0,805 0,878 0,934 0,9594 0,729 0,811 0,882 0,9175 0,669 0,755 0,833 0,8746 0,621 0,707 0,789 0,8347 0,582 0,666 0,750 0,7988 0,549 0,632 0,715 0,7659 0,521 0,602 0,685 0,735

10 0,497 0,576 0,658 0,70811 0,476 0,553 0,634 0,68412 0,458 0,532 0,612 0,66113 0,441 0,514 0,592 0,64114 0,426 0,497 0,574 0,62315 0,412 0,482 0,558 0,60616 0,400 0,468 0,543 0,59017 0,389 0,456 0,529 0,57518 0,378 0,444 0,516 0,56119 0,369 0,433 0,503 0,54920 0,360 0,423 0,492 0,53721 0,352 0,413 0,482 0,52622 0,344 0,404 0,472 0,51523 0,337 0,396 0,462 0,50524 0,330 0,388 0,453 0,49625 0,323 0,381 0,445 0,48726 0,317 0,374 0,437 0,47927 0,312 0,367 0,430 0,47128 0,306 0,361 0,423 0,46329 0,301 0,355 0,416 0,45630 0,296 0,349 0,409 0,44935 0,275 0,325 0,381 0,41840 0,257 0,304 0,358 0,39345 0,243 0,288 0,338 0,37250 0,231 0,273 0,322 0,35455 0,220 0,261 0,307 0,33960 0,211 0,250 0,295 0,32570 0,195 0,232 0,274 0,30280 0,183 0,217 0,257 0,28390 0,173 0,205 0,242 0,267100 0,164 0,195 0,230 0,254125 0,147 0,174 0,206 0,228150 0,134 0,159 0,189 0,208175 0,124 0,147 0,175 0,193200 0,116 0,138 0,164 0,181250 0,104 0,124 0,146 0,162

Adaptada de:Norman, G. R y Streiner D. L. (1996) Bioestadística. Madrid: Mosby/Doyma Libros, S.A.

g.l. =n-2Nivel de significación ( Bilateral)

VALORES CRÍTICOS DEL COEFICIENTE DE CORRELACIÓN DE PEARSON

Page 115: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 111

APENDICE 4

VALORES DE LA FUNCIÓN DE DISTRIBUCIÓN NORMAL ESTÁNDARΦ(Z) = P(Z<z)

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09-3,0 0,0013 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0000-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,42470,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,46410,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,57530,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,61410,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,65170,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,68790,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,72240,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,75490,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,78520,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,81330,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,83891,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,86211,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,88301,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,90151,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,91771,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,93191,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,94411,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,95451,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,96331,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,97061,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,97672,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,98172,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,98572,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,98902,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,99162,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,99362,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,99522,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,99642,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,99742,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,99812,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,99863,0 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000

Page 116: 12 Estadistica 1 Con Excel v12 (Rev 23.04.12)

Estadística 1 – Prof. Alberto Caro M. – v.08 – Pág. 112

APENDICE 5

1 2 3 1 2 31 161,40 199,50 215,70 1 4.052,00 4.999,00 5.403,002 18,51 19,00 19,16 2 98,49 99,01 99,173 10,13 9,55 9,28 3 34,12 30,81 29,464 7,71 6,94 6,59 4 21,20 18,00 16,695 6,61 5,79 5,41 5 16,26 13,27 12,066 5,99 5,14 4,76 6 13,74 10,92 9,787 5,59 4,74 4,35 7 12,25 9,55 8,458 5,32 4,46 4,07 8 11,26 8,65 7,599 5,12 4,26 3,86 9 10,56 8,02 6,99

10 4,96 4,10 3,71 10 10,04 7,56 6,5511 4,84 3,98 3,59 11 9,65 7,20 6,2212 4,75 3,88 3,49 12 9,33 6,93 5,9513 4,67 3,80 3,41 13 9,07 6,70 5,7414 4,60 3,74 3,34 14 8,86 6,51 5,5615 4,54 3,68 3,29 15 8,68 6,36 5,4216 4,49 3,63 3,24 16 8,53 6,23 5,2917 4,45 3,59 3,20 17 8,40 6,11 5,1818 4,41 3,55 3,16 18 8,28 6,01 5,0919 4,38 3,52 3,13 19 8,18 5,93 5,0120 4,35 3,49 3,10 20 8,10 5,85 4,9421 4,32 3,47 3,07 21 8,02 5,78 4,8722 4,30 3,44 3,05 22 7,94 5,72 4,8223 4,28 3,42 3,03 23 7,88 5,66 4,7624 4,26 3,40 3,01 24 7,82 5,61 4,7225 4,24 3,38 2,99 25 7,77 5,57 4,6826 4,22 3,37 2,98 26 7,72 5,53 4,6427 4,21 3,35 2,96 27 7,68 5,49 4,6028 4,20 3,34 2,95 28 7,64 5,45 4,5729 4,18 3,33 2,93 29 7,60 5,42 4,5430 4,17 3,32 2,92 30 7,56 5,39 4,5140 4,08 3,23 2,84 40 7,31 5,18 4,3160 4,00 3,15 2,76 60 7,08 4,98 4,13120 3,92 3,07 2,68 120 6,85 4,79 3,95

3,84 2,99 2,60 6,64 4,60 3,78

Adaptada de: Agresti, Alan &Agresti, Barbara F. (1979) Statistical Methods for the Social Sciences

San Francisco: Dellen Pub. Co.Que cita como fuente a: Fisher, R. A. & F. Yates, F. (1974) Statistical Tables for Biological, Agricultural and Medical Research

London: Longman Group Ltd.

Grados de Libertad del

Denominador

Nivel de significación (α =0,01)Grados de Libertad del Numerador

Grados de Libertad del

Denominador

DISTRIBUCIÓN F

Nivel de significación (α =0,05)Grados de Libertad del Numerador

∞ ∞