analisis de datos

46
Análisis de Datos CAPITULO 1: CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS 1. INTRODUCCIÓN Debemos diferenciar entre dos tipos de estadísticas: Estadística teórica: Se ocupa de los aspectos formales y normativos Estadística aplicada: Constituye la aplicación a un campo concreto. Ha tenido distintos nombres, entre ellos “Análisis de Datos” 2. LA INVESTIGACIÓN EN PSICOLOGÍA S.XVII: El método científico se convierte en la fuente de conocimiento más utilizada. La Psicología utiliza el método científico para acercarse a su objeto de estudio: La conducta El método científico Definición: Consiste en dar razón sistemática, empírica y experimental de los fenómenos. Características Sistemático: Tiene etapas definidas (sigue un sistema) Replicable: Los datos obtenidos pueden ser utilizados por otro investigador Fases 1. Definición del Problema 2. Deducción de hipótesis contrastables 3. Establecimiento de un procedimiento de recogida de datos 4. Análisis de resultados obtenidos (de este punto se ocupa la asignatura) 5. Discusión de dichos resultados y búsqueda de soluciones 6. Elaboración de un informe de investigación A continuación repito los puntos anteriores pero ejemplificados con el ejemplo de la página 17. 1. Posible influencia de las estrategias sobre el control del estrés en la hipertensión 2. El grupo que recibe terapia tendrá unos niveles menores en la hipertensión 3. Escoger 40 pacientes y dividirlos en 2 grupos de manera aleatoria 4 y 5: Se analizan los niveles de los 2 grupos para comprobar si realmente el grupo que ha recibido tratamiento tiene los niveles más bajos que el grupo que no lo ha recibido. 6. Elaboramos un informe para difundir los resultados. 3. CONCEPTO Y FUNCIONES DE LA ESTADÍSTICA: DESCRIPTIVA e INFERENCIAL La estadística se ocupa de la sistematización, recogida, ordenación, y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. A partir de aquí obtenemos dos grandes áreas:

Upload: xose-httpkatharoooblogspotcom

Post on 22-Jun-2015

4.623 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Analisis de datos

Análisis de DatosCAPITULO 1: CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS

1. INTRODUCCIÓN

Debemos diferenciar entre dos tipos de estadísticas: Estadística teórica: Se ocupa de los aspectos formales y normativos Estadística aplicada: Constituye la aplicación a un campo concreto. Ha tenido distintos nombres, entre ellos “Análisis de Datos”

2. LA INVESTIGACIÓN EN PSICOLOGÍA S.XVII: El método científico se convierte en la fuente de conocimiento más utilizada. La Psicología utiliza el método científico para acercarse a su objeto de estudio: La conducta El método científico Definición: Consiste en dar razón sistemática, empírica y experimental de los fenómenos. Características Sistemático: Tiene etapas definidas (sigue un sistema) Replicable: Los datos obtenidos pueden ser utilizados por otro investigador Fases

1. Definición del Problema 2. Deducción de hipótesis contrastables 3. Establecimiento de un procedimiento de recogida de datos 4. Análisis de resultados obtenidos (de este punto se ocupa la asignatura) 5. Discusión de dichos resultados y búsqueda de soluciones 6. Elaboración de un informe de investigación

A continuación repito los puntos anteriores pero ejemplificados con el ejemplo de la página 17.

1. Posible influencia de las estrategias sobre el control del estrés en la hipertensión 2. El grupo que recibe terapia tendrá unos niveles menores en la hipertensión 3. Escoger 40 pacientes y dividirlos en 2 grupos de manera aleatoria 4 y 5: Se analizan los niveles de los 2 grupos para comprobar si realmente el grupo que ha recibido tratamiento tiene los niveles más bajos que el grupo que no lo ha recibido. 6. Elaboramos un informe para difundir los resultados.

3. CONCEPTO Y FUNCIONES DE LA ESTADÍSTICA:

DESCRIPTIVA e INFERENCIAL La estadística se ocupa de la sistematización, recogida, ordenación, y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. A partir de aquí obtenemos dos grandes áreas:

Page 2: Analisis de datos

Análisis de DatosCAPITULO 1: CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS

Estadística descriptiva Se organizan y resumen conjuntos de observaciones procedentes de una muestra o de la población total, en forma cuantitativa. Procedimientos (no entro en detalle porque dice que los veremos en profundidad en los siguientes temas) Para una variable

- Indices de tendencia central - Estadísticos de variabilidad - Estadísticos de asimetría

Para dos variables

- Coeficientes de correlación - Ecuaciones de regresión

Estadística Inferencial Se realizan inferencias acerca de una población basándose en los datos obtenidos a partir de una muestra. Procedimientos : El cálculo de probabilidades Conceptos importantes Población: Es el conjunto de todos los elementos que cumplen una determinada característica objeto de estudio.(según el ejemplo de antes, la población serían todas las personas que padecen hipertensión) Muestra: Es un subconjunto cualquiera de una población (las 40 personas escogidas) Parámetro: Es una propiedad descriptiva (una medida) de una población. (para una encuesta electoral queremos conocer el porcentaje de la población que respondería “Sí” a favor de una ley; ese “sí” sería el parámetro en este caso) Estadístico: Es una propiedad descriptiva (una medida) de una muestra. (es el porcentaje de la muestra que responde sí). Las conclusiones obtenidas de una muestra solo servirán para el total de una población si la muestra es representativa. Para asegurarnos que la muestra es representativa se utilizan métodos de muestreo probabilístico. Si queremos saber qué porcentaje de hombres españoles se declaran seguidores del Real Madrid y la muestra que escogemos está formada por mujeres, los resultados que obtengamos no van a ser representativos. También existen las muestras no probabilísticas como por ejemplo la muestra de conveniencia o incidental (personas cercanas al investigador, por lo cual acceder a ellas es mucho más fácil)

Page 3: Analisis de datos

Análisis de DatosCAPITULO 1: CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS

4. MEDICIÓN Y ESCALAS DE MEDIDA

Medir la altura de una persona es algo sencillo, sin embargo en ocasiones la Psicología debe medir cosas más complicadas, como por ejemplo la timidez de una persona. Para ello existen numerosas herramientas que nos ayudan. Medición: Es el proceso por el cual se asignan números a objetos o características según determinadas reglas. Característica: Cualquier propiedad de objetos o personas que deseamos estudiar. Modalidad: Distintas formas de presentarse esta característica. Por lo tanto… Se asigna un número a cada una de las modalidades de una característica. Ejemplo: A las dos modalidades de la característica sexo (hombre y mujer) le asignamos los números 1 y 2. Tipos de escala de medida Según las relaciones que puedan verificarse empíricamente entre las modalidades de las características, distinguimos 4 tipos de escalas:

1) Escala Nominal Asignación de números o símbolos. Por lo tanto la única relación que obtenemos es la de igualdad o desigualdad. Ejemplo: Católicos practicantes (1) frente a católicos no practicantes (2). No tiene sentido hacer relaciones como 1+1=2. Esta escala solo nos dice si un sujeto es diferente o igual a otro.

2) Escala Ordinal Como su propio nombre indica, aparte de decirnos la igualdad o la diferenciación, también nos indica el orden de las posiciones de lo que está clasificado. Nos permite establecer relaciones del tipo “mayor que” o “menor que”. Ejemplo: Estatus socioconómico, bajo (1), medio (2), alto (3). Los números no solo indican diferencia de modalidades sino también orden entre ellas.

3) Escala de intervalo Además de las características de la escala nominal (igualdad o desigualdad) y de la escala ordinal (orden), la escala de intervalo se identifica porque cada número es una unidad de medición, podemos sumarlos o restarlos obteniendo resultados coherentes (a diferencia de la escala nominal). Es importante señalar que en la escala de intervalo el origen es arbitrario

Page 4: Analisis de datos

Análisis de DatosCAPITULO 1: CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS

Ejemplo: En el conocido test de inteligencia, la escala comienza en 0, pero este 0 es arbitrario ya que si alguien lo obtiene no significa que no tenga absolutamente nada de inteligencia. Esta arbitrariedad indica que aunque una persona obtenga un coeficiente de 80 y otra 160, no significa que la segunda persona sea el doble de inteligente que la primera.

4) Escala de razón Además de todas las características de las 3 escalas diferentes, supera a las demás en que se puede establecer un punto de origen verdadero de valor 0 (a diferencia del 0 arbitrario de la escala de intervalo). Es lo que se conoce como valor absoluto. Ejemplo: La altura y el peso.. En la página 25 del libro tenemos un cuadro resumen que explica todo lo anterior de manera bastante esquemática.

5. VARIABLES: CLASIFICACIÓN Y NOTACIÓN Variable: Representación numérica de una característica que presenta más de una modalidad (valor) de un conjunto determinado. Si una característica tiene una única modalidad se llama constante. Según el nivel de medición tenemos tantas variables como escalas (variable nominal, ordinal, de intervalo, de razón). Tipos de variables A)Nominal (Cualitativa) B) Ordinal (Cuasicuantitativa) C) De intervalos, razón (cuantitativa)

Dicotómica: 2 categorías (sexo) Politómica: + de 2 categorías (nacionalidad)

Discreta: Valores fijos (número de hijos). Entre 1 y 2 hijos no pueden haber 1,5 hijos. Continua: Puede haber medidas intermedias entre los valores. Por ejemplo el peso(entre 89 y 90 podemos tener 89,5.

Page 5: Analisis de datos

Análisis de DatosCAPITULO 1: CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS

Aparte de esta clasificación existen más clasificaciones:

- Variable independiente: Cualquier suceso que sospechamos es la causa de otro - Variable dependiente: Medida utilizada para estudiar la variable independiente - Variable extraña: Aquellas que pueden influir sobre la variable dependiente pero

no nos interesa estudiar sus efectos.) Ejemplo de la hipertensión visto anteriormente: - Variable independiente: Tipo de tratamiento - Valor 1 de la variable independiente: Tratamiento estándar - Valor 2 de la variable independiente: Tratamiento estándar más terapia - Variable dependiente: Hipertensión arterial - Variable extraña: Obesidad (sabemos que la obesidad puede influir en la hipertensión arterial pero no nos interesa estudiarla en este caso) Para referirnos a un valor cualquiera de la variable X se utiliza el subindice i (Xi ), siendo n el número de elementos que componen la muestra:

6. DISTRIBUCIÓN DE FRECUENCIAS Una distribución de frecuencias es una representación de la relación entre un conjunto de medidas exhaustivas y mutuamente influyentes y la frecuencia de cada una de ellas. Funciones:

- Ofrecer la información necesaria para realizar representaciones gráficas - Facilitar los datos para obtener los estadísticos muestrales

En este punto es necesario leer y comprender los gráficos de las páginas 29 y 30. Son tan sencillos que ni siquiera es necesario sacar la calculadora. De momento lo que explica se comprende con la sola lectura. Ya tendremos tiempo de que todo se complique. Conceptos Frecuencia absoluta (ni): Número de veces que se repite cada uno de los valores de una variable. La suma de todas las frecuencias absolutas representa el total de la muestra (n) Proporción o frecuencia relativa (pi): Cociente entre la frecuencia absoluta de cada valor de la variable (ni) y el número total de observaciones (n). pi = ni /n Porcentaje (Pi): Valor de la frecuencia relativa (pi) multiplicado por cien: Pi = pi x 100 Frecuencia absoluta acumulada (na): Número de veces que se repita cada modalidad o cualquiera de las modalidades inferiores.

Xi siendo i = 1,2,3 …n

Page 6: Analisis de datos

Análisis de DatosCAPITULO 1: CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS

Proporción acumulada o frecuencia relativa acumulada (pa): Cociente entre la frecuencia absoluta acumulada de cada clase y el total de observaciones. pa = na / n Porcentaje acumulado (Pa): Valor de la frecuencia relativa acumulada multiplicado por cien. Pa= pax 100 Más conceptos Si la variable cuantitativa es reducida (número de hijos) no hay problema, la utilizamos tal cual. Pero si ocurre que puede ser muy amplia (edad) debemos recurrir a la agrupación en intervalos. La amplitud de los intervalos representa al número de unidades que tenemos dentro de cada intervalo. No es lo mismo tener una amplitud de intervalos de 10 en 10 (11-20) (21-30) (31-40) que de 5 en 5 (15-19) (20-24) (25-29). Obviamente al establecer intervalos siempre se pierde información. Por lo tanto hay que buscar equilibrio entre la precisión que buscamos y lo cómodo que sea trabajar con esos datos (si no estableciésemos intervalos podríamos encontrarnos con tablas de 100 filas) Aunque tengamos un intervalo de edad (25-35) (36-45) no significa que no pueda haber personas con 35,5 años. Por lo tanto los intervalos (25-35) y (36-45) reciben el nombre de limites informados o aparentes. (aparentan ser lo que no son) ya que en realidad los límites verdaderos son (25,5-35,5) y (35,5-45,5). El límite superior exacto del primer intervalo (35,5) coincide con el límite inferior exacto del siguiente (35,5) Cálculo de límites exactos Límite exacto = Valor informado (el que nos han dado) +- 0,5 x I I = Instrumento de medida. (en el caso de las edades I = 1) Punto Medio: Es la semisuma del límite superior e inferior del intervalo. Se calcula a través de los límites informados o de los límites exactos. El libro asume que hemos nacido con el concepto de la “semisuma” escrito en nuestros genes ya que no explica en qué consiste. Quizá soy la única persona a la que no le han otorgado este don de la naturaleza, pero lo explicaré por si hay alguien más en mi situación: Con un poco de sentido común el punto medio se haya sumando los dos valores del intervalo y dividiendo el resultado entre 2 Tomemos el intervalo (26-35) = 26 + 35 = 61/2 = 35,5. Ya sabemos lo que es la semisuma! Intervalo abierto: Son los intervalos finales que se utilizan para no tener frecuencia nula. Ejemplo de edad: (76 años o más)

Page 7: Analisis de datos

Análisis de DatosCAPITULO 1: CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS

7. REPRESENTACIONES GRÁFICAS

Imprescindible acompañar estos apuntes con el libro para comprender los conceptos gráficos. Un gráfico es una forma rápida de visualizar un conjunto de datos o distribución de frecuencias. El sistema de coordenadas más habitual está formado por: Eje vertical (ordenada o eje Y) Eje horizontal (abscisa o eje X) Origen: Punto donde se juntan ambos ejes Representación gráfica de una variable a) Diagrama de barras Se utiliza para variables nominales, ordinales y cuantitativas discretas. - En el eje X se colocan los valores y en el Y las frecuencias. Sobre cada valor de la variable se dibuja un rectángulo o barra perpendicular cuya altura debe ser igual a la frecuencia. Diagrama de barras acumulativo Variedad del diagrama de barras que se utiliza en variables ordinales y cuantitativas discretas. En el eje X se sitúan los valores de la variable y en el eje Y las frecuencias acumuladas. b) Diagrama de sectores Se utiliza para variables cualitativas y cuasicuantitativas - Representación en forma de círculo. El círculo se divide en secciones cuya superficie es proporcional a la frecuencia de la modalidad correspondiente. Para determinar el ángulo de los sectores de cada modalidad se multiplica la frecuencia relativa por 360, que es el número de grados de una circunferencia. c) Pictograma Se utiliza para variables cualitativas - Son dibujos alusivos al objeto de estudio. Son escalas que deben ser proporcionales al valor que representan. d) Histograma (parecido al diagrama de barras pero no hay espacio entre los rectángulos) Se utiliza para variables cuantitativas continuas con datos agrupados en intervalos - En el eje X se colocan los límites exactos de los intervalos y en el eje Y la frecuencia.

Page 8: Analisis de datos

Análisis de DatosCAPITULO 1: CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS

e) Polígono de frecuencias

Se utiliza para variables discretas

- La forma que obtenemos es una línea poligonal cuya figura se obtiene a partir de una diagrama de barras o de un histograma.

- También se puede utilizar en frecuencias acumuladas (figura página 41) Representación gráfica de dos variables a) Diagrama de barras conjunto Se utiliza cuando al menos una de las dos variables es cualitativa

- Los datos se organizan en una tabla de doble entrada. Se sitúan los valores de una variable en las filas y los valores de la otra variable en las columnas.

- Una vez construida la tabla, se procede a dibujar los gráficos por columnas b) Diagrama de dispersión o nube de puntos Se utiliza en el caso de dos variables cuantitativas

- Una variable se sitúa en el eje X y la otra en el eje Y. Para cada par de datos se localiza la intersección entre ambas variables y se marca con un punto.

- Es una manera rápida de hallar relaciones lineales entre las dos variables.

8. PROPIEDADES DE LA DISTRIBUCIÓN DE FRECUENCIAS a) Tendencia central Se refiere al lugar donde se centra una distribución particular en la escala de valores. b) Variabilidad Se refiere al grado de concentración de las observaciones en torno al promedio. Una distribución de frecuencias será: Homogénea (tiene poca variabilidad). Si los valores de distribución están cercanos al promedio. (cuando hay pocos rectángulos alrededor del central) Heterogénea (tiene mucha variabilidad). Si los valores se dispersan mucho en torno al promedio. (cuando hay muchos rectángulos alrededor del central) c) Asimetría o sesgo (con calma que es muy fácil pero cuesta un poco de entender al principio) Se refiere al grado en que los datos se reparten equilibradamente por encima y por debajo de la tendencia central.

Page 9: Analisis de datos

Análisis de DatosCAPITULO 1: CONCEPTOS BÁSICOS Y ORGANIZACIÓN DE DATOS

Diremos que una distribución será simétrica cuando al dividirla en dos a la altura de la media, las dos mitades se superponen. Si esto no ocurre decimos que se produce asimetría. Hay dos tipos de asimetría: Asimetría positiva: Cuando la mayor concentración de puntuaciones se produce en la parte baja de la escala. Asimetría negativa: Cuando la mayor parte de puntuaciones se sitúa en la parte alta de la escala.

Page 10: Analisis de datos

Análisis de DatosCAPITULO 2: MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN

1. MEDIDAS DE TENDENCIA CENTRAL

Lo importante en una tendencia central es calcular un valor central que actúe como resumen numérico para representar al conjunto de datos. Estos valores son las medidas o índices de tendencia central. Las medidas de tendencia central más utilizadas son 3..

1) La media aritmética

- Es la más utilizada - Es el valor central alrededor del cual están la mayoría de las observaciones - Sólo puede calcularse para variables cuantitativas (números)

Se calcula sumando todos los valores de la variable divididos por el número total de observaciones.

_ X = Σ Xi / n

_ X = Media aritmética ∑ = Símbolo sumatorio (indica que se están sumando todas las X que hay) Xi= Valor que toma la variable u observación del sujeto i n = Número total de observaciones Si el número de observaciones es muy grande, la media aritmética se puede calcular a

partir de las frecuencias absolutas (ni) o de las frecuencias relativas (pi) (recordemos que las frecuencias relativas también las llamábamos proporciones)

Para frecuencias absolutas: _

X = Σ niXi / Σni Para frecuencias relativas: _

X = Σ piXi

En realidad da igual cual de los dos procedimientos escojamos, ya que ante una misma distribución de frecuencias el resultado va a ser el mismo aunque se haga por la fórmula de frecuencias absolutas o mediante la fórmula de frecuencias relativas. Recordemos que pi = ni / n (esto lo vimos en el primer tema)

Propiedades de la media aritmética 1. En una distribución, la suma de las desviaciones de cada valor con respecto a su

media es igual a cero. _ Σ (Xi-X) = 0

Page 11: Analisis de datos

Análisis de DatosCAPITULO 2: MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN

2. Si a los valores de la variable X les aplicamos la siguiente transformación lineal:

_ _ Yi = bXi + a la media de los nuevos valores Y será Y = bX + a Con tanta letra esto suena un poco dificil pero básicamente explica que si cada uno de los valores antiguos (X) lo multiplicamos por un número cualquiera y le sumamos otro número, obtenemos nuevos valores (Y) pero con la misma proporción anterior. Es decir, si tenemos dos valores: X=4 y X=8 y los multiplicamos por 10, tendremos Y=40 y Y=80, pero la proporción se sigue manteniendo, el segundo valor sigue siendo el doble que el primero. El libro pone el ejemplo (pág 63) más extenso con el ejercicio pero la idea básica es esta. Limitaciones de la media aritmética a) Cuando los datos están agrupados en intervalos, la media no se puede calcular si el intervalo máximo no tiene límite superior y/o el intervalo mínimo no lo tiene inferior. b) Puede que a la hora de tomar los datos nos encontremos con valores muy extremos (asimétricos), en ese caso debemos valorar si son errores, entonces deberemos eliminarlos para realizar la media. Pero si por el contrario estos valores extremos son importantes para nuestro estudio, deberemos escoger otros índices de medición, como por ejemplo la mediana que veremos a continuación.

2) La mediana

- La utilizaremos cuando la distribución sea muy asimétrica. - Los valores extremos no le afectan (a diferencia de la media aritmética) ya que para

su cálculo sólo se toman los valores que ocupan posiciones centrales. - Se puede calcular para todo tipo de variables, excepto cualitativas.

La Mediana de una variable X, representada por Md, se define como el valor de la variable que divide la distribución de frecuencias en dos partes iguales, conteniendo cada una el 50% de las observaciones. Cálculo de mediana con pocos casos (muy fácil, Pág. 65 y 66) 1º - Se ordenan las puntuaciones n de mayor a menor 2º - Se Observa si el número de observaciones n es par o impar

- Si es impar, la mediana es el valor de la posición central - Si es par, la mediana es la media aritmética de los dos valores centrales.

Page 12: Analisis de datos

Análisis de DatosCAPITULO 2: MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN

Cálculo de la mediana con muchos casos (esto ya no es tan fácil…) Al ser muchos casos, los datos vienen presentados en intervalos. El intervalo en el que se encuentra la mediana se llama Intervalo crítico y se corresponde con aquel en el que la frecuencia absoluta acumulada na es igual o superior a n/2. Md = Li + ( n/2 - nd ) I nc

Li = Límite exacto inferior del intervalo crítico n = Número de observaciones nd = Frecuencia absoluta acumulada por debajo del intervalo crítico nc = Frecuencia absoluta del intervalo crítico I = Amplitud del intervalo crítico En la página 68 hay un ejemplo numérico para hallar la mediana resuelto de dos maneras diferentes. La primera manera consiste simplemente en aplicar la fórmula, hacerlo paso por paso y comprendiendo qué es cada cosa es bastante sencillo. La segunda manera consiste en una regla de tres. Los dos procedimientos dan el mismo resultado. Casos especiales (pág 69-71) Si hemos entendido el caso anterior, esto es más de lo mismo pero con un par de puntualizaciones) A) Cuando se trata de una distribución de frecuencias pero los datos no están agrupados en intervalos. Como los datos son unitarios, la amplitud (I) será = 1 Es prácticamente lo mismo que el ejemplo anterior pero con I = 1 B) No se puede calcular la mediana cuando los datos están agrupados en intervalos y existe un intervalo abierto en el que se encuentra la mediana.

3) La moda (la más fácil de todas las medidas de tendencia central)

- Se puede calcular para variables cualitativas y cuantitativas. - Se representa por Mo y se define como el valor o categoría de la variable con

mayor frecuencia absoluta. - Si los datos están agrupados en intervalos, la moda se puede calcular excepto si el

intervalo modal coincide con el intervalo abierto.

- Si la variable es cualitativa, la moda es la categoría con la máxima frecuencia. - Si la variable es cuantitativa, la moda es el valor con la máxima frecuencia absoluta. - Si la variables es cuantitativa con datos en intervalos, se localiza el intervalo modal (intervalo con la frecuencia máxima) y la moda es el punto medio de dicho intervalo. Podemos tener distinto número de modas en la distribución (1= unimodal) (2=bimodal) (3=trimodal); etc. Distribución amodal = cuando no hay moda ya que todos los valores tienen la misma frecuencia absoluta.

Page 13: Analisis de datos

Análisis de DatosCAPITULO 2: MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN

La elección de una medida de tendencia central

- En primer lugar probaremos con la media aritmética (menos en los casos en que la distribución sea muy asimétrica, o el nivel de medida sea nominal u ordinal, o existan datos agrupados en intervalos con intervalos abiertos.

- Si vemos que por alguna de estas razones la media aritmética no funciona probaremos con la mediana. Sin embargo la mediana no podremos utilizarla cuando el nivel de la variable sea nominal o la mediana se encuentre en el intervalo abierto.

- Entonces, descartando las dos medidas anteriores, probaremos con la moda.

Aunque no podremos calcularla si la distribución es amodal o el intervalo abierto coincide con el intervalo modal.

Hoy en día se recomienda calcular las 3 (siempre que se pueda).

- Variables cualitativas: Solo podremos calcular la moda - Variables ordinales: moda y mediana - Variables cuantitativas: Podemos calcular las 3.

2. MEDIDAS DE POSICIÓN La medida de tendencia central buscaba un indicador para representar a un conjunto de datos. En cambio, las medidas de posición buscan un indicador para representar a un sujeto o a un dato en particular. Medidas de tendencia central: Nota media de un examen en una clase de 30 niños Medidas de posición: ¿Qué nota debe sacar un alumno para superar al 50% de compañeros? Las medidas o índices de posición (también llamados cuantiles), informan acerca de la posición relativa de un sujeto con respecto a su grupo de referencia. Dependiendo de cuántos valores de la variable utilicemos para dividir la distribución, hablaremos de percentiles, cuartiles o deciles. Percentiles También llamados “centiles”, son los 99 valores de la variable que dividen en 100 partes iguales la distribución de frecuencias. Percentil k (Pk ): Es un valor de la variable de interés que deja por debajo de sí un porcentaje k de sujetos, donde k = 1,2…99 Ejemplo P40 = 25 (25 es la puntuación en un examen) Quiere decir que los sujetos con X= 25 están por encima del 40% de los sujetos.

Page 14: Analisis de datos

Análisis de DatosCAPITULO 2: MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN

En los percentiles, la mediana coincide con el percentil 50 (es justo la mitad). Por esta razón el percentil lo calcularemos a partir de las fórmulas para la mediana. Cálculo de los percentiles Utilizaremos la misma fórmula que la mediana pero sustituyendo nk/100 en lugar de n/2 Pk = Li + ( nk/100 - nd ) I nc Li = Límite exacto inferior del intervalo crítico n = Número de observaciones nd = Frecuencia absoluta acumulada por debajo del intervalo crítico nc = Frecuencia absoluta del intervalo crítico I = Amplitud del intervalo Ejemplo numérico en la página 78. Tenemos que tener en cuenta que lo primero que hay que hacer es hallar el intervalo crítico mediante la fórmula (nk/100) a diferencia de cómo lo hallábamos para la mediana que era mediante la fórmula (n/2) Aparte de hallar el valor de los percentiles, también puede ocurrir que ya tengamos un valor y queramos saber qué posición ocupa ese valor en la distribución (es como lo de antes pero al revés, es decir, antes tenía una posición y quería hallar un valor. Ahora tengo un valor y quiero hallar una posición. Por lo tanto la fórmula cambia un poco. k = (Pk - Li ) nc / I + nd . 100

n Si el resultado de k es decimal se redondea. Cuartiles y deciles Cuartiles: 3 valores de la distribución que dividen en 4 partes de igual frecuencia a la distribución. Primer Cuartil (Q1) = Deja por debajo de sí al 25% y por encima al 75% (Q1 = P25) Segundo Cuartil (Q2) = Deja por debajo de sí al 50% y por encima al 50% (Q2 = P50 = Md) Tercer Cuartil (Q3) = Deja por debajo de sí al 75% y por encima al 25% (Q3 = P75) Por lo tanto como cada cuartil se corresponde con un percentil, utilizaremos las fórmulas de los percentiles para hallar cada cuartil. Deciles: Son 9 valores que dividen en 10 partes iguales a la distribución. Se representan por D1, D2 …D9 …y al igual que los cuartiles, también se corresponden con cada percentil: D1 = P10 ; D2 = P20 etc… Por lo tanto también utilizaremos las fórmulas de los percentiles para calcular los deciles.

Page 15: Analisis de datos

Análisis de DatosCAPITULO 3: MEDIDAS DE VARIABILIDAD Y ASIMETRÍA

1. INTRODUCCIÓN

En el tema 1 veíamos que la distribución de frecuencias tiene tres propiedades: tendencia central, variabilidad y asimetría. Las medidas de tendencia central las hemos visto en el tema 2, ahora vamos a ver las medidas de las otras dos propiedades (variabilidad y asimetría).

2. MEDIDAS DE VARIABILIDAD La variabilidad o dispersión hace referencia al grado de variación que hay en un conjunto de puntuaciones (ejemplo de gráficos con más y menos dispersión – Pág. 92) Cuanto menor es la variabilidad en una distribución, más homogénea es la muestra de sujetos en la variable que estamos midiendo. El caso extremo de máxima homogeneidad es que todos los valores serían iguales entre sí y no habría variabilidad. Para cuantificar la dispersión de los datos se distinguen 2 tipos de índices:

- Los que miden el grado en que las puntuaciones se asemejan o diferencian entre sí: Amplitud total o rango y amplitud semi-intercuartil

- Los que la dispersión de mide con respecto a alguna medida de tendencia central

como la media aritmética: Varianza y desviación típica. Amplitud total o rango La amplitud total, (AT) de un conjunto de puntuaciones es la distancia que hay en una escala numérica entre los valores que representan la puntuación máxima y la puntuación mínima. (ejemplo en página 94, muy fácil. Hay que tener en cuenta lo que eran los límites exactos, superior e inferior, que vimos en el primer tema) AT = Xmax – Xmin

Sin embargo esta medida sólo aporta datos de los valores extremos, pero no nos dice la poca o mucha dispersión que pueda existir en el resto de valores. Varianza y desviación típica La medida de variabilidad también se puede basar en la distancia observada entre las puntuaciones y la media aritmética. Por lo tanto:

- Una distribución con poca variabilidad es aquella en la que la mayoría de las puntuaciones están muy próximas a la media.

- Una distribución con mucha variabilidad tiene sus puntuaciones muy alejadas del valor medio de la variable.

Page 16: Analisis de datos

Análisis de DatosCAPITULO 3: MEDIDAS DE VARIABILIDAD Y ASIMETRÍA

Aquí utilizaremos un índice llamado desviación media:

_ DM = Σ IXi - XI / n

El libro dice que este índice se utiliza muy poco en la actualidad y que apenas existen técnicas estadísticas basadas en este índice. Sin embargo conviene que lo estudiemos en profundidad no vaya a ser que en los próximos años se convierta en una herramienta completamente fundamental y necesaria para desarrollar la profesión de psicólogo. La varianza de un conjunto n de puntuaciones en una variable X denotada por S2

x, se define como el promedio de los cuadrados de las desviaciones de las puntuaciones con respecto a la media. _

S2x = Σ (Xi - X)2 / n

Esta otra fórmula sirve para lo mismo: _

S2x = (ΣX2

i / n) – X2

Aunque supongo que a estas alturas todo el mundo lo sabrá, pero estas fórmulas están en la Addenda y nos dejan tenerla con nosotros durante el examen. Cuando los datos se presentan en tablas de distribución de frecuencias, agrupados o sin agrupar en intervalos, la varianza se puede calcular con las siguientes fórmulas. _

S2x = Σni (Xi - X)2 / n (para frecuencias absolutas)

_

S2x = Σni X2

i / n) – X2 (para frecuencias absolutas)

n = número total de observaciones (como siempre) Xi = es el valor i de la variable X o el punto medio del intervalo Ni = es la frecuencia absoluta del valor o intervalo i Otra fórmula más: _ S2

x = Σpi X2i - X2 (para frecuencias relativas)

pi = Frecuencia relativa o proporción de observaciones del valor o del intervalo i Ejercicios de ejemplo en la página 98 y 99.

- La varianza es un número positivo que se expresa en las unidades de la variable al cuadrado. Si la variable X se mide en metros, la varianza vendrá expresada en metros al cuadrado. Por lo tanto para encontrar una medida de dispersión que tenga las mismas unidades que la variable, debemos hacer la raíz cuadrada de la varianza (para quitarle el cuadrado) y obtener un índice llamado desviación típica.

Page 17: Analisis de datos

Análisis de DatosCAPITULO 3: MEDIDAS DE VARIABILIDAD Y ASIMETRÍA

La desviación típica de un conjunto de n puntuaciones, que se representa pos SX, es la raíz cuadrada de la varianza.

Sx =(Xi − X)

2∑n

Propiedades de la varianza y la desviación típica

- Para calcularlas las dos requieren la utilización de todas las puntuaciones de la distribución.

- Las dos miden la variabilidad de los datos con respecto a la media aritmética, por lo que sólo deben aplicarse si estamos utilizando la media como medida central

- Siempre son iguales o mayores que 0. - Si a una variable X se le suma o resta una constante a, la varianza y desviación

típica de la variable original no se ven afectadas y siguen siendo las mismas. En cambio, cuando multiplicamos los valores de X por una constante b, la varianza queda multiplicada por la constante al cuadrado y la desviación típica por el valor absoluto de dicha constante.

Un primo hermano de la varianza y que se utiliza en inferencia estadística es la cuasivarianza: _

S2n-1 = Σ (Xi - X)2 / n - 1

Al igual que ocurría con la varianza normal, en la cuasivarianza también podemos medir la cuasidesviación típica que es la raiz cuadrada de la cuasivarianza (fórmula en 101)

Sn−12 =

(Xi − X)2∑

n −1

Coeficiente de variación Se trata de un índice de variabilidad relativa que no depende de las unidades de medida. _ CV = (SX/X) 100 Cuando comparamos dos conjuntos de puntuaciones obtenidas de la misma variable, también es necesario el coeficiente de variación para comparar la dispersión de ambas distribuciones Cuidado con el ejemplo 3.5 de la página 102, ya que hay una errata que me ha hecho perder unos cuantos minutos de más (como si me sobraran) En concreto en el enunciado dice …y una varianza de 17,3, esto está mal, la varianza es de 16.

Page 18: Analisis de datos

Análisis de DatosCAPITULO 3: MEDIDAS DE VARIABILIDAD Y ASIMETRÍA

Amplitud semi-intercuartil (Q o rango semi-intercuartil) Como hemos dicho antes, este índice se utiliza cuando la distribución es muy asimétrica . Se define como la distancia media entre el tercer y el primer cuartil. No informa de la variabilidad del conjunto de puntuaciones sino del 50% de las mismas comprendidas entre el percentil 25 y el 75 de la distribución. El ejercicio de la página 104-105 que ejemplifica este índice es muy fácil, lo dificil es calcular los percentiles que ya lo vimos en el tema 2.

Q = Q – Q1 / 2 = P75 – P25 / 2

3. INDICE DE ASIMETRÍA DE PEARSON La asimetría es una propiedad de la distribución de frecuencias que nos indica el grado en el que las puntuaciones de los sujetos se reparten por debajo y por encima de la medida de tendencia central. El índice de Pearson es un índice numérico que cuantifica el grado de asimetría de una distribución. _

AS= X - Mo / Sx

- Este índice es adimensional (no tiene unidades de medida) y se aplica a distrobuciones unimodales.

- Cuando la distrubición es simétrica, la media y la moda coinciden, por lo que el numerador se anula y el valor del índice (As) es = 0.

- En distribuciones con asimetría positiva, la media es mayor que la moda, por lo tanto AS será mayor que 0. (recordamos que asimetría positiva se produce cuando la mayor cantidad de puntuaciones se concentran en la parte baja de la tabla)

- En distribuciones con asimetría negativa, la media es menor que la moda, por lo tanto AS será menor que 0. (la asimetría negativa se produce cuando la mayor cantidad de puntuaciones se sitúa en la parte alta de la tabla)

Ejemplo 3.7 en la página 106. Debemos recordar cómo se obteníamos la moda, (Mo), cuando los datos están agrupados en intervalos, la moda es el punto medio del intervalo modal. Y el intervalo modal es el intervalo con la frecuencia máxima, es decir, aquel donde ni es mayor.

4. PUNTUACIONES TÍPICAS Hasta ahora hemos visto puntuaciones directas (nota de un sujeto en un test), sin embargo estas puntuaciones nos dan poca información ya que no sabemos si se trata de un valor alto o bajo, ya que esto depende del promedio del grupo. Si a una puntuación directa Xi le restamos la media de su grupo obtenemos una puntuación diferencial (xi)

_ xi = Xi – X

Page 19: Analisis de datos

Análisis de DatosCAPITULO 3: MEDIDAS DE VARIABILIDAD Y ASIMETRÍA

Propiedades de las puntuaciones diferenciales

- Su media es cero: _

x = 0

- La varianza de las puntuaciones diferenciales es igual a la varianza de las puntuaciones directas:

S2x = S2

x Sin embargo, dos puntuaciones diferenciales idénticas pueden tener un significado muy diferente en función de la media y de la varianza de las distribuciones de las que proceden. Para solucionar este problema tenemos las puntuaciones típicas que nos permiten no sólo comparar las puntuaciones de un sujeto en dos variables distintas sino también comparar dos sujetos distintos en dos pruebas o variables distintas. _

zx = x / Sx = X – X / Sx

Al proceso de obtener puntuaciones típicas se llama tipificación. Por ello estas puntuaciones también se llaman puntuaciones tipificadas. Propiedades de las puntuaciones típicas

- Su media es cero: _

zx = 0/nsx = 0

- Su varianza es igual a 1

S2zx = 1

Ejercicio en el ejemplo 3.8 para comprobar estas propiedades.

Page 20: Analisis de datos

Análisis de DatosCAPITULO 4: ANALISIS CONJUNTO DE DOS VARIABLES

1. INTRODUCCIÓN

Este tema se centra en el estudio conjunto de dos variables. Dos variables cualitativas - Tabla de datos - Tabla de contingencia - Diagrama de barras - Tabla de diferencias entre frecuencias empíricas y teóricas - Calculo de coeficiente X2

- Cálculo del coeficiente de contingencia Dos variables cuantitativas - Tabla de datos conjuntos - Diagrama de dispersión - Cálculo de covarianza - Cálculo del coeficiente de correlación de Pearson Además… Si dos variables cuantitativas están relacionadas linealmente utilizaremos la recta de regresión. 2. CONCEPTOS PREVIOS Asociación y/o relación entre dos variables: Dos variables están relacionadas entre sí cuando ciertos valores de una de las variables se asocian con ciertos valores de la otra variable. 3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS Recordamos que la variable cualitativa era aquella que estaba medida en una escala nominal o de clasificación (tema 1). Además pueden ser: Dicotómicas: Cuando solo representan dos categorías Politómicas: Cuando representan un mayor número Cuando se dispone de los datos de dos variables cualitativas para todos los sujetos de una muestra, se puede elaborar la Tabla de contingencia y su correspondiente diagrama de barras (página 125). Los datos de esta tabla son las frecuencias empíricas u observadas y se representan por (ne) Ahora tenemos que construir una nueva tabla con las frecuencias teóricas (nt). Para ello utilizaremos la fórmula:

Frecuencia teórica = nt =

Totalfila_ x _ totalcolumnan

Page 21: Analisis de datos

Análisis de DatosCAPITULO 4: ANALISIS CONJUNTO DE DOS VARIABLES

Una vez creada esta segunda tabla (página 126) tenemos que crear una tercera tabla que muestra las diferencias entre la tabla 1 y la tabla 2. Es decir, la tabla de diferencias entre las frecuencias empíricas menos las frecuencias teóricas. (página 127)

- Es importante quedarnos con el dato de que la suma de las filas y las columnas de esta tercera tabla siempre es igual a 0, si sale otra cosa es que algo hemos hecho mal.

Una vez que tenemos la tabla debemos interpretarla: La interpretación que hace el libro se basa en analizar los valores positivos (8) como fuente de información. (parece ser que los valores negativos no nos aportan información) .Así tenemos un 8 en Sí-V y en No-M. Por lo tanto concluiremos que los varones tienen mayor tendencia a padecer estrés (Sí-V) y las mujeres tiene menos tendencia a padecer estrés (No-M). Y ahora… Calculamos un estadístico X2

Estadístico X2 =

(ne − nt )2

nt∑

ne = frecuencia empírica nt = frecuencia teórica Para calcular el estadístico no hace falta información nueva, ya que extraemos todos los números de las tablas anteriores. Sin embargo este estadístico nos da poca información porque desconocemos su límite superior. Sólo sabemos que si nos da valor 0 no hay relación entre las dos variables. Sin embargo si nos da un valor cualquiera como por ejemplo 10,78 (página 128) no sabemos que interpretar ya que el límite podría ser 20, 50 , 100 etc y lo desconocemos. Para resolver este problema se calcula algo que sí que sabemos sus límites y es el índice o Coeficiente de Contingencia, C. (da valores entre 0 y 1)

Coeficiente de contingencia = C =

X 2

X 2 + n

Además del Coeficiente de Contingencia tenemos también que calcular su máximo (para posteriormente poder comparar uno con otro )

Cmáx =k −1k

k = Número de filas y número de columnas (en el ejemplo que vamos a ver a continuación K=2 porque tenemos mismo número de filas (2) que de columnas (2)

Page 22: Analisis de datos

Análisis de DatosCAPITULO 4: ANALISIS CONJUNTO DE DOS VARIABLES

Siguiendo el ejemplo del libro, el Coeficiente de contingencia nos da 0,312 y su máximo 0,707. Por lo tanto el coeficiente de contingencia está prácticamente a la mitad de su máximo y por ello diremos que la relación entre las dos variables es de tipo medio. También tenemos el ejemplo de tablas con distinto número de filas y columnas, por lo tanto no podremos calcular el Cmáx. Y la información la extraeremos directamente de C (ejemplo página 129-130) En este ejemplo el procedimiento para calcular las tablas es el mismo que el explicado en la primera parte, la única diferencia es cuando llegamos a C ya que no podemos calcular su Cmáx. Para concluir: Características del Coeficiente C

- Tiene valores entre 0 y 1 - Cuando C = 0 diremos que no existe relación entre ellas - C = 1 nunca se puede dar

- Cuanto mayor es C, mayor es la relación entre las dos variables y viceversa

- Cuando utilicemos C para comparar la relación entre dos variables cuyos datos

tenemos en dos tablas de contingencia diferentes, tenemos que vigilar que tienen el mismo número de filas y de columnas. De lo contrario los valores de C no permiten una comparación válida.

- Cuando existe un valor elevado de C, no podemos afirmar con rotundidad que una

de las variables es causa de la otra, ya que puede haber una tercera variable que está relacionando a ambas.

- Cuando la tabla de contingencia tiene igual número de filas que de columnas,

podemos estimar un valor máximo que alcanzará C. 4. CORRELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS Nos presentan una tabla de datos conjuntos (página 132) Lo primero que hacemos es elaborar el diagrama de dispersión o nube de puntos (página 133) Una vez realizado el diagrama y tan sólo observándolo, podemos decir que existe una relación lineal en las variables X e Y. Es decir, a valores mayores de X corresponderán valores mayores de Y y viceversa. Una vez llegados a este punto calculamos 2 índices que nos permiten ponerle números a todo esto que llevamos analizado:

Page 23: Analisis de datos

Análisis de DatosCAPITULO 4: ANALISIS CONJUNTO DE DOS VARIABLES

El primero de estos índices es la covarianza y hace referencia a la variación conjunta de dos variables.

Covarianza =

SXY =XiYi∑n

− XY

Xi = Valor de la variable X en el caso i Yi = Valor de la variable Y en el caso i

X = Media de la variable X

Y = Media de la variable Y n = número de casos de la muestra Si el signo de la covarianza es positivo, diremos que existe relación lineal directa. Si el signo de la covarianza es negativo, diremos que existe relación lineal inversa. En el ejemplo de la página 134 observamos que la covarianza da 6,4 (signo positivo) por lo tanto se cumple la relación lineal directa que ya habíamos observado en el diagrama de dispersión. Sin embargo la covarianza tiene un problema y es que no conocemos su rango (de la misma manera que con el estadístico X2 no sabíamos su límite superior y teníamos que calcular el coeficiente de contingencia) , por lo tanto para la covarianza calcularemos algo llamado Coeficiente de Correlación de Pearson (rxy)

rXY =SXYSX SY

SX = Desviación típica de la variable X (tema 3) SY = Desviación típica de la variable Y (tema 3) SXY = Covarianza entre X e Y Propiedades del coeficiente de Correlación de Pearson

- Toma valores comprendidos entre -1 y +1 - Cuando vale 0 no existe relación lineal entre X e Y - Cuando vale exactamente +1 o -1 diremos que una variable es una transformación

lineal de la otra - Cuanto mayor es el valor absoluto del coeficiente nos está indicando que la relación

lineal entre las dos variables es más fuerte. - Cuando el signo es positivo, indica que a valores mayores de la variable X, tienden

a corresponder valores mayores de la variable Y y a valores menores de la variable X tienden a corresponder valores menores de la variable Y. Es una relación directa.

- Cuando el signo es negativo, indica que a valores mayores de la variable X, tienden a corresponder valores menores de la variable Y, y a valores menores de la variable X tienden a corresponder valores mayores de la variable Y. Es una relación inversa.

Page 24: Analisis de datos

Análisis de DatosCAPITULO 4: ANALISIS CONJUNTO DE DOS VARIABLES

Página 137 y 138: Ejemplos de diagramas de dispersión y nubes de puntos con sus correspondientes explicaciones. Caso A

- Coeficiente de correlación positivo - Relación lineal directa bastante clara

Caso B

- Coeficiente de correlación negativo - Relación lineal inversa

Caso C

- Coeficiente de correlación lineal cercano a 0 - No existe correlación lineal

Caso D

- Coeficiente de correlación lineal cercano a 0 - No existe una relación lineal pero sí existe una relación curvilínea entre las dos

variables. (sin embargo el coeficiente de correlación no puede detectar esto por lo tanto diremos que es una de sus limitaciones)

Como hemos dicho antes… Cuando rXY= +1 o -1 , existe correlación lineal perfecta Cuando rXY= 0 , existe ausencia total de correlación lineal ¿pero qué pasa cuando tenemos valores intermedios como por ejemplo 0,55? En ese caso no podemos afirmar que ese valor indica correlación alta o baja ya que dependerá del tipo de datos que estemos analizando

- Será baja si se trata de dos tests similares que estemos aplicando a los mismos sujetos o si tenemos pocos sujetos

- Será alta si se trata de tests bastante diferenciados o si tenemos muchos sujetos. 4. REGRESIÓN LINEAL Cuando existe relación lineal podemos utilizar la recta de regresión para efectuar pronósticos de los valores de una variable a partir de otra variable.

Y = a + bX

Page 25: Analisis de datos

Análisis de DatosCAPITULO 4: ANALISIS CONJUNTO DE DOS VARIABLES

Para hallar la recta tenemos que calcular a y b con las siguientes fórmulas:

b =n (XY ) − X Y∑∑∑n X 2 − ( X∑ )2∑

a =Y − bX La recta pasa por el punto

X,Y . Las puntuaciones obtenidas mediante la recta de regresión las denominaremos puntuaciones pronosticadas. A la diferencia entre la: puntuación real o verdadera

Yi y su pronóstico

Yi′

lo llameremos error y lo representaremos por Ei

E = (Y −Y ′ )

Propiedades de las puntuaciones pronosticadas y de los errores - La media de los errores es cero

E = 0 - La media de las puntuaciones pronosticadas coincide con la media de las verdaderas puntuaciones en Y.

Y′=Y

- La varianza de las puntuaciones en Y es igual a la suma de la varianza de los pronósticos, más la varianza de los errores:

SY2 = S

Y ′2 + SYX

2

Además también se pueden comprobar las siguientes igualdades:

b = rXYSYSX

rXY2 =

SY ′2

SY2

1− rXY2 =

SYX2

SY2

Page 26: Analisis de datos

Análisis de DatosCAPITULO 5: NOCIONES BÁSICAS DE PROBALIDAD

1. INTRODUCCIÓN

En cualquier investigación es importante poder generalizar o inferir nuestros resultados a un colectivo mucho más amplio al que hemos denominado población. Por esta razón estudiamos la probablidad.

2. CONCEPTOS PREVIOS Experimento aleatorio (3 características):

- Todos los resultados posibles son conocidos con anterioridad a su realización - No se puede predecir con certeza el resultado que vamos a obtener - El experimento puede repetirse todas las veces que se desee en idénticas

condiciones. Espacio muestral: Es el conjunto de todos los resultados posibles de un experimento aleatorio. Se representa por la letra E. En el ejemplo de tirar un dado, E serían todos los valores del 1 al 6. Suceso: Son los resultados de un experimento aleatorio o subconjuntos del espacio muestral. Pueden ser:

- Elementales: Un solo resultado del espacio muestral (un cuatro en el dado) - Compuestos: Dos o más resultados del espacio muestral (número par en el dado)

Las siguientes tres letras muestran 3 sucesos distintos. A es elemental y B y C son compuestos. Este ejemplo va a ayuda para comprender los conceptos siguientes. A=4 B=2,4,6 (número par) C=3,6 (múltiplo de 3) Suceso seguro: Es sinónimo de E, siempre ocurre. Suceso imposible: No puede ocurrir, se representa por

φ (conjunto vacío) Unión: Unión de dos sucesos A y B es el subconjunto de E formado por los sucesos elementales que pertenecen a A, a B o a ambos a la vez.

A∪ B = 2,4,6 Intersección: La intersección de dos sucesos A y B es el subconjunto de E formado solamente por los sucesos elementales que pertenecen a A y a B a la vez.

A∩ B = 4

Si la intersección no contiene elementos comunes diremos que los sucesos son incompatibles o excluyentes:

A∩ B = { } = φ

Page 27: Analisis de datos

Análisis de DatosCAPITULO 5: NOCIONES BÁSICAS DE PROBALIDAD

complementario: De un suceso A es el subconjunto de E formado por todos los sucesos que no pertenecen a A. Se representa por

A

A = 1,2,3,5,6 Unión, Intersección y complementario se pueden representar gráficamente mediante los diagrámas de Venn. (pág 160).

3. DEFINICIÓN DE PROBABILIDAD 3 tipos de definiciones Definición clásica: La probabilidad de un suceso es igual al cociente entre el número de casos favorables de que ocurra ese suceso y el número de casos posibles en el supuesto de que todos los casos tengan la misma oportunidad de ocurrir. Probabilidad de un suceso = Número de casos favorables/número de casos posibles Probabilidad de conseguir un 2 en el dado = 1/6 Probabilidad de conseguir un número par = 3/6 Definición estadística: La probabilidad de un suceso es el límite al que tiende la frecuencia relativa de aparición de un suceso A cuando el número de ensayos, n, tiende a infinito:

P(A) = limn→∞

nAn

Definición axiomática: La probabilidad de un suceso A, definido en el espacio muestral E y que designamos por P(A), a un número real que asignamos al suceso A, tal que cumple las siguientes propiedades:

0 ≤ P(A) ≤1P(E) =1P(A) =1− (A)

A estas propiedades se le añade el: Teorema de la suma: La probabilidad de que ocurra el suceso A o el suceso B es igual a la probabilidad de que ocurra A más la probabilidad de que ocurra B, menos la probabilidad de que ocurran ambos, A y B:

P(A∪ B) = P(A) + P(B) − P(A∩ B) Si A y B son incompatibles, la regla queda así:

P(A∪ B) = P(A) + P(B)

Page 28: Analisis de datos

Análisis de DatosCAPITULO 5: NOCIONES BÁSICAS DE PROBALIDAD

4. PROBABILIDAD CONDICIONADA

Dos sucesos, A y B, son dependientes cuando la probabilidad de A está condicionada al suceso B. P(A/B)= Probabilidad de A condicionado a B. Definición: Para dos sucesos cualesquiera A y B, la probabilidad de A condicionado a B es igual a la probabilidad de la intersección dividido por la probabilidad de la condición B:

P(A /B) =P(A∩ B)P(B)

(siempre que P(B) no sea 0)

P(A /B) =P(A∩ B)P(B)

(siempre que P(A) no sea 0)

Si los sucesos A y B son independientes: P(A/B) = P(A) y P(B/A)=P(B)

5. LA REGLA DEL PRODUCTO Y EL TEOREMA DE BAYES

P(A∩ B) = P(A) ⋅ P(A /B) esto se conoce como la regla o teorema del producto

P(A∩ B) = P(A) ⋅ P(B) cuando los sucesos A y B son independientes Todo esto se ejemplifica en los ejercicios pág 167-172: Son bastante sencillos pero hay que verlos con calma.

Otra forma de expresar el Teorema de Bayes:

P(A /B) =P(A) − P(B /A)

P(B)

Page 29: Analisis de datos

T ema 6

DISTRIBUCIONES DISCRETAS DE PROBABILIDAD

Variable aleatoria: definición y tipos:

Una variable aleatoria es una función que asigna un número real, y sólo uno, a cada uno de los resultados de un experimento aleatorio. Las variables aleatorias se representan por letras mayúsculas de nuestro alfabeto latino y utilizaremos las minúsculas con subíndices, para los valores concretos de las variables.Las variables aleatorias pueden ser discretas o continuas. Discreta cuando la variable sólo puede tomar un conjunto infinito y numerable de valores (los números naturales) o finito de valores (número de sucesos). Y continua cuando puede tomar infinitos valores o un conjunto de valores no numerable.

Variables aleatorias discretas:

Función de probabilidad:

Se llama función de probabilidad de una variable aleatoria discreta, X, y se representa por f(x), a aquella función que asocia a cada valor de la variable la probabilidad de que ésta adopte ese valor. Es decir:

f(x) = P (X=x)

Ejemplo:E x P

⊕ ⊕ ⊕ 1/8 = 0,125

⊕ ⊕

⊕ ⊕

⊕ ⊕3/8 = 0,375

⊕3/8 = 0,375

1/8 = 0,125

x1 = 0

x2 = 1

x3 = 2

x4 = 3

Page 30: Analisis de datos

Donde:

x 0 1 2 3

f(x) 0,125 0,375 0,375 0,125

La función de probabilidad de una variable aleatoria discreta puede representarse mediante un diagrama de barras.Las dos propiedades que debe cumplir la función de probabilidad son:

1. Para cualquier valor de x, siempre toma valores positivos o nulos:

x ϵ X f(x) > 0

2. La suma de todas las probabilidades correspondientes a cada valor de x es igual a

uno:

∑ f(x) = f(x1)+f(x2)+...+f(xn) = 1

Función de distribución:

La función de distribución de una variable aleatoria X, se representa igual que la de probabilidad pero en mayúscula: F(x); y es aquella función que asocia a cada valor de la variable la probabilidad de que ésta adopte ese valor o cualquier otro inferior.

F(x) = P (X < x)

De la misma forma:F(x) = P (X < x) = f(x1)+f(x2)+...+f(x)

Retomando el ejemplo anterior calculamos F(0), F(1), F(2) y F(3):

F(0) = P(X < 0) = P(X = 0) = 0,125

F(1) = P (X < 1) = P (X = 0) + P (X = 1) = f(0) + f(1) = 0,125 + 0,375 = 0,5

F(2) = P (X < 2) = P (X = 0) + P (X = 1) + P (X = 2) = f(0) + f(1) + f(2) = = 0,125 + 0,375 + 0,375 = 0,875

F(3) = P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) =f(0) + f(1) + f(2) + f(3)= 0,125 + 0,375 + 0,375 +0,125 = 1

Las Propiedades que debe cumplir son:

1. Todos los valores que toma la función de distribución de probabilidad son positivos o nulos:

x F(x) > 0

Page 31: Analisis de datos

2. F(x) es nula, vale 0, para todo valor inferior al menor valor de la variable aleatoria, x1:

F(x) = 0 si x < x1

3. F(x) es igual a uno para todo valor igual o superior al mayor valor de la variable aleatoria, llamando a éste “xk”:

F(x) = 1 si x > xk

4. La función F(x) es no decreciente ya que es una acumulación o suma de probabilidades que son siempre positivas o nulas.

5. La probabilidad, P, de que la variable aleatoria X tome valores x comprendidos entre x1 y x2 (x1 < x < x2) es la diferencia entre los valores de la función de distribución correspondientes a su valor superior menos su valor inferior.

P (x1 < x < x2) = F(x2) – F(x1)

Media y varianza de una variable aleatoria:

La media, μ, de una variable aleatoria discreta X viene definida por la siguiente expresión:

μ = ∑ x.f(x)

La media de una variable X, también se le conoce por esperanza matemática o valor esperado de X y se representa por E(X).

Ejemplo:x f(x) x.f(x)

0 0,125 0,000

1 0,375 0,375

2 0,375 0,750

3 0,125 0,3751,5

μ = E(X) = ∑x.f(x) =x0.f(x0) + x1.f(x1) + x2.f(x2)+ x3.f(x3) == 0.0,125 + 1.0,375 + 2.0,750 + 3.0,375 = 1,5

La varianza σ de una variable aleatoria discreta X viene definida por:

σ = ∑ (x – μ) . f(x)

Otra alternativa; a veces muy útil, es:

σ = E(X ) - [E(X)]

donde: E(X ) = ∑ x .f(x) y [E(X)] es la media elevada al cuadrado.

2

2 2

2 2 2

2 2 2

Page 32: Analisis de datos

De la misma forma la desviación típica será la raíz cuadrada de la varianza:

σ = σ

Distribuciones discreta de probabilidad:

Para algunas distribuciones discretas se emplean una serie de tablas que facilitan su aplicación a unos problemas en concreto.En Ciencias Sociales y de la Salud se trabajan con variables que toman sólo dos valores (dicotómicas 1 – 0); En este caso se utiliza la distribución binomial.

La distribución binomial:

El ensayo anterior de la moneda al aire se denomina Bernouilli, autor de éste. Un experimento binomial consiste en repetir “n” veces un ensayo Bernouilli. Una variable aleatoria X sigue una distribución binomial (con parámetros n y p) si expresa el número de realizaciones independientes “n” con la probabilidad “p” y por tanto (1 – p) de obtener fracaso. Se representa por B(n, p); donde B indica binomial, n el número de ensayos y p la probabilidad de éxito.

Ejemplo:Si tiramos tres veces la moneda al aire y definimos X como el número de caras, esta variable seguirá los parámetros n = 3 y p = 0,5. Lo mismo que B(3; 0,5).

Las características fundamentales son:

1. Función de probabilidad:

f(x) = P(X = x) = p q

2. Función de distribución:

F(x) = P (X < x) =∑ p q

3. Media: μ = np

4. Varianza : σ = npq;

donde x es el numero de aciertos, n el número de ensayos, p la probabilidad de éxito de cada

ensayo, q la probabilidad de fracaso (1-p) y el número combinatorio , que se lee “n

sobre x” es igual a .

Ejemplo:A) Calcularemos la probabilidad de obtener exactamente 2 caras:

2

n x

x n-x

n x

x n-x

2

n x

n!x! (n - x)!

Page 33: Analisis de datos

f(2) = P(X = 2)= .0,5 .0,5 = .0,5 .0,5 = .0,5 .0,5=

= 3.0,5 .0,5 = 3.0,25.0,5 = 0,375B) Calcularemos la probabilidad de obtener dos caras o menos:

F(2) = P(X < 2) = f(0)+f(1)+f(2) = 0,125 + 0,375 + 0,375 = 0,875

puesto que:

f(0) = P(X = 0) = .0,5 .0,5 = .1.0,5 = .1.0,125= 1.1.0,125 = 0,125

f(1) = P(X = 1) = .0,5 .0,5 = .0,5.0,5 = .0,5.0,25 = 3.0,5.0,25 = 0,375

f(2) = P(X = 2) = 0,375 (ver apartado A)

C) Calcular la probabilidad de obtener más de dos caras:

P(X > 2) = 1 – P(X < 2) = 1 – F(2) = 1 – 0,875 = 0,125

Podemos calcular también la media y la varianza:

μ = np = 3.0,5 = 1,5σ = npq = 3.0,5.0,5 = 0,75

Otras distribuciones discretas:

Existen otros modelos de distribuciones discretas. El modelo Poisson de los “sucesos raros”, que se utilizan en condiciones similares a las binomiales pero con un elevado número de ensayos y un valor p muy pequeño.

32

32

3!2!.1!

2 3-2 2 2

2

30

30

3!0!.3!

0 3-0 3

31

31

3!1!.3!

1 3-1 2

2

Page 34: Analisis de datos

Tema 7

DISTRIBUCIONES CONTINUAS DE PROBABILIDAD

La distribución normal:

La distribución normal, campana de Gauss o, curva normal, también definida por De Moivre.

Características y propiedades:

La siguiente fórmula recoge la función:

f(x) = e para - ∞ < x < ∞

donde μ y σ, media y desviación típica, son sus parámetros, π = 3,1416 y e = 2,718 y base de los logaritmos neperianos.Si una variable X tiene una distribución que se ajusta a la fórmula anterior, es una distribución normal y se expresa X N; indicando que tiene una distribución normal con parámetros μ y σ.Si una variable X le aplicamos una transformación lineal Y = bX+a, la nueva variable se distribuirá normalmente pero con media bμ + a y la desviación típica |b|σ . Si restamos la media y dividimos por la desviación típica obtenemos una nueva variable “z”. Por tanto:

z N (0,1)Y su función de probabilidad será:

f(z) = . e para - ∞ < z < ∞

Una distribución normal es simétrica a su media, μ, coincide con su mediana y su moda.La curva normal tiene dos puntos de inflexión; dos puntos donde la curva pasa de ser cóncava a convexa. Estos puntos están a la distancia de una desviación típica de la media.Es asintótica en el eje de abscisas, se extiende desde - ∞ hasta + ∞ sin tocar nunca el eje.

Casos de utilización de las tablas:

En el supuesto que la tabla no recoja el valor, podemos utilizar el más próximo.

1. Cálculo de la probabilidad para valores menores o iguales que una determinada puntuación típica:

En este caso se mira directamente en la tabla.

2. Cálculo de la probabilidad para valores mayores que una determinada puntuación:

1

σ 2π

1 2

X- μ

σ

2

-

x x

1σ 2π

- Z2

2

Page 35: Analisis de datos

En este supuesto se mira en la tabla la probabilidad que esa puntuación deja por debajo y se resta a 1.

3. Cálculo de la probabilidad entre dos puntuaciones determinadas:

Aquí se restan las probabilidades que dejan por debajo de sí las dos puntuaciones típicas.

Histograma y distribución normal:

Si disponemos de los datos originales de una variable X, y su distribución es normal,utilizaremos las tablas III y IV, pero anteriormente transformaremos las puntuaciones directas en puntuaciones típicas:

Aproximación de la binomial a la normal:

Cuando las distribuciones binomiales superan sus valores de 20, se puede aproximar a la binomial normal. Teniendo una variable X, con distribución binomial, su media es μ = np y su desviación típica σ = npq. Podemos realizar:

P(X = x) = P < <

P(X = x) = P < z <

Ejemplo:

Tiramos 20 veces una moneda al aire; ¿cuál es la probabilidad de que salgan 12 caras?Tenemos que número de caras x = 12, con números de intentos n = 20 y p = 0,5. Mirando en la tabla I el valor de la probabilidad de éxito es 0,1201.Ahora calculamos la media y la desviación típica:

μ = 20 . 0,5 = 10 // y; σ =

Para aproximar la distribución binomial a la normal establecemos un intervalo entre 0,5 a la izquierda y a la derecha:

P [(12-0,5) < x < (12+0,5)]

Convertimos las puntuaciones en típicas:

P

y quedaría:

zi =

Xi - X

Sx

(x–0,5) - μ

σ

x-μ

σ(x+0,5) - μ

σ

(x-0,5) - np

npq

(x+0,5) - np

npq

npq = 20.0,5.0,5 = 5 = 2,24

(12-0,5)-μσ

< x-μσ

< (12+0,5)-μσ

P(12-0,5)-μ

σ< z <

(12+0,5)-μσ

Page 36: Analisis de datos

dándole valor a μ y σ:

finalmente utilizamos las tablas de distribución normal:

la aproximación es muy buena; hay una diferencia de una diezmilésima para 20 intentos. A medida que aumenta n (intentos) mejora la aproximación.

Sumar y restar el valor 0,5 se llama corrección por continuidad, permitiendo utilizar las puntuaciones discretas como continuas.

La distribución “CHI CUADRADO” de Pearson:

En la distribución de Chi cuadrado de Pearson una variable X con distribución pasa a ser X = . Su media y varianza valdrán μ = n y, σ = 2n.Esta distribución se usa para contrastar si la distribución de una variable se ajusta a una distribución determinada. Entre sus propiedades señalamos:

1. Nunca adopta valores menores de 0.2. Es asimétrica positiva pero a medida que aumentan sus grados de libertad se va

aproximando a la distribución normal.3. Para n > 30 la podemos aproximar a una distribución N(n, 2n).

En la tabla V se hallan algunos valores de las distribuciones X .

Ejemplo:

En una variable con 5 grados de libertad, X X , el valor 11,07 deja por debajo de sí una proporción de 0,95, representándose de la siguiente manera: Ahora si quisiéramos calcular P (X > 11,07):

P (X > 11,07) = 1 – P (X < 11,07) = 1 – 0,95= 0,05

La distribución “t” de Student:

Para definir estas distribuciones,al igual que hemos hecho con el Chi Cuadrado, emplearemos otras distribuciones.Teniendo dos variables X e Y con una distribución (0,1) y . La variable aleatoria sigue una distribución “t”con n grados de libertad y se expresa: T

Su media siempre vale 0 y su varianza .

Una distribución “t” es el cociente entre una variable N(0,1) y la raíz cuadrada de X dividida por sus grados de libertad.

P (12-0,5)-102,24

< z <(12+0,5)-10

2,24 =P(0,67 < z < 1,12)

P(0,67 < z < 1,12) = 0,8686 – 0,7486 = 0,12

X21, X2

2, ..., X2

n

X2n

2

2

25

0,95X2

5 = 11,07.

X2n

T= X

Y/ntn.

σ 2 =nn -2

2n

Page 37: Analisis de datos

Sus características son:

1. Es simétrica, con μ = 0. Su forma es muy parecida a la N(0,1), aunque menos apuntada.

2. Puede tomar cualquier valor (-∞ +∞).3. A medida que aumentan los grados de libertad, la distribución se aproxima más a una

distribución normal.4. La curva es asintótica al eje de abscisas.

Se emplea en estadística inferencial en contrastes. En la tabla VI se muestran los valores de esta distribución.

La distribución de “F” de Snedecor:

Se emplea principalmente en el contraste de hipótesis.

Sigue una distribución F con grados de libertad Siendo “n1”los grados del numerador y “n2” los del denominador; su media y varianza se definen:

Se caracteriza por:

1. Es asimétrica positiva por lo que nunca toma valores menores que 0.2. Si X es variable con distribución F con n1 y n2 grados de libertad, la variable Y = 1/X

es también una distribución F (propiedad recíproca):

donde p es la propiedad asociada al valor de la variable. Se emplea para calcular algunos percentiles o probabilidades que no aparecen la tabla. En la tabla VII sólo aparece la probabilidad de que X = 0,900; 0,950; 0,975 y 0,990.

Ejemplo:

Una variable X con distribución F5,10:

A) Calcular P(X<3,33);buscamos el valor de 5 grados de libertad en el numerador y 10 grados en el denominador en la tabla VII, donde se encuentra el valor3,33. Observamos que se corresponde con una probabilidad de 0,95; por tanto 3,33 se corresponde con el percentil 95.

B) Determinar el valor del percentil 5 de X, es decir: 0,05 F5,10;

F = X

1 / n

1

X2 / n

2

n1 y n

2(F

n1,n2).

μ =n

2

n2 - 2 para n

2 > 2;

σ2 =2n2

2 (n

1+n

2-2)

n1 (n

2-4)(n

2-2)2 para n

2 > 4.

1-pF

n1,n2=

1

pF

n2,n1;

Page 38: Analisis de datos

en este caso haremos uso de la propiedad recíproca:

En la tabla VII vemos que: 0,95F10,5 = 4,74.Por tanto:

0,05F

5,10= 1

1-0,05F

10,5

=1

0,95F

10,5

0,05F

5,10=

0,95F

10,5

1=

14,74 =0,211

Page 39: Analisis de datos

T ema 8

ESTIMACIÓN

Conceptos previos

Población y muestra:

Población se refiere al conjunto total de elementos que se quieren estudiar una o más características. Debe estar bien definida. Llamaremos N al número total de elementos de una población. También se suelen utilizar los términos individuos, sujetos y casos para referirnos a los elementos de la población. Cuando se dispone de un censo (listado) de la población, se puede estudiar a todos ellos.No siempre es factible estudiar a la totalidad de una población; por lo que se estudia un subconjunto de los elementos totales; es decir, un muestra. Llamaremos n al número de los elementos de una muestra.

Muestreo:

El muestreo es un proceso de selección con el fin de obtener una muestra lo más semejante posible a la población y así obtener estimaciones precisas. El tamaño es una característica esencial; ya que debe ser lo suficientemente amplia para representar adecuadamente las propiedades de la población y reducida para que pueda ser examinada en la práctica.El muestreo probabilístico se conoce la probabilidad asociada a una muestra y cada elemento de la población tiene una probabilidad conocida de pertenecer a la muestra. El no-probabilístico se desconoce, o no se tiene en cuenta, la probabilidad asociada a cada muestra y se selecciona la que más le parezca representativa al investigador.

Una forma de obtener una muestra de una población homogénea es utilizar:

– El muestreo aleatorio simple; por el cual se garantiza que cada elemento de la población tenga la misma probabilidad de formar parte de la muestra. Primero se asigna un número a cada elemento y

Page 40: Analisis de datos

después mediante algún medio (sorteo, papeletas,...) se elijen tantos elementos como sea necesario para la muestra.

– Cuando los elementos están ordenados o pueden ordenarse se utiliza el muestreo sistemático. Se selecciona al azar entre los que ocupan los lugares . Ejemplo: N = 100; n = 5; 100/5= 20; escogeríamos los elementos situados en las posiciones 20. El riesgo de este muestreo es la falta de representación; que se pudiese dar, del total de los elementos.

– Cuando topamos con una población heterogénea, utilizamos el muestreo estratificado. Se emplea cuando disponemos de información suficiente sobre alguna característica y podemos elegir una muestra en función del número de elementos según estas características o estratos.

– Ante poblaciones desordenadas y conglomeradas en grupos, se emplea el muestreo por conglomerados; donde se van seleccionando de todos los grupos, subgrupos, clases, … y finalmente de los elementos restantes la muestra.

– De la unión del estratificado y del conglomerado, surge otro muestreo el polietápico.

En ocasiones el muestreo es muy costoso y se recurre a métodos no probabilísticos:

– El muestreo por cuotas (accidental) se basa en un buen conocimiento de los estratos o individuos más representativos para la investigación. Similar al estratificado pero carente del carácter aleatorio.

– El muestreo opinático (intencional) muestra el interés por incluir en la muestra a grupos supuestamente típicos.

– El causal (incidental) selección de los individuos de fácil acceso.– Bola de nieve; donde un elemento seleccionado lleva a otro y éste a

otro y así sucesivamente hasta completar la muestra.

Una muestra es representativa si exhibe internamente el mismo grado de diversidad que la población y es aleatoria si los elementos han sido extraídos al azar de la población.

Inferencia estadística

El valor estadístico obtenido de una muestra (como media) no será igual al

N n

Page 41: Analisis de datos

valor del parámetro de población. Para inferir un parámetro a partir de un estadístico hay que aplicar herramientas estadísticas de tipo inferencial como la estimación por intervalo (intervalos de confianza) o contraste de hipótesis.

Estimación de la media

La media muestral es una variable aleatoria que toma un valor según la muestra concreta que se obtenga. Se denomina distribución muestral de la media a su función de probabilidad.La distribución muestral de un estadístico es un concepto central, tanto de la estimación como del contraste de hipótesis.

Distribución muestral de la media

Una función de probabilidad queda caracterizada por su forma, su media y su varianza. La media de la distribución muestral de la media es igual a la media de la población (μ). La varianza de la distribución muestral de la media es y la desviación típica de la distribución muestral de la media, denominada error típico de la media, es .

La forma de la distribución original de la media se parece a una distribución normal aunque la distribución original de la variable en la población no es normal.Dado el muestreo aleatorio simple:

• Si la distribución de X en la población es normal con media μ y desviación típica σ, entonces la distribución muestral de la X es normal

• Si la distribución de X en la población no es normal con media μ y desviación típica σ, entonces la distribución muestral de la X tiende a la normal a medida que n crece (Teorema Central del Límite), siendo la aproximación buena para n 30.

Media, varianza y desviación típica de la variable cuantitativa X en la población y en la muestra, y de la distribución muestral de la media (X).

Población MuestraDistribución muestral

(μx)

σn

σx=σ2

n=

σn2

μ,n

σ

>

Page 42: Analisis de datos

de la media

Media

Varianza

Desviación típica

La media como estimador

Un estimador es un estadístico que se utiliza para estimar un parámetro. Por lo que la media de la muestra es un estimador de la media poblacional; y el valor del estimador en una muestra se denomina estimación o estimación puntual.La media muestral X es un estimador insesgado de la media poblacional (μ). El error típico de la media es un indicador de la precisión de la estimación de la media; cuanto menor es el error típico, mayor es la precisión. Dependiendo de la desviación típica de la población y del tamaño de la muestra.

Estimación de la proporción

Para la obtención de la distribución muestral de la proporción se puede hacer como la media.

Distribución muestral de la proporción

Sea X una variable que sólo toma valores 0 y 1, la proporción de la muestra P se define como:

Dado el muestreo aleatorio simple, el estadístico proporción (P) se distribuye según una binomial:

Como P es la media de los valores de X en la muestra, según el Teorema Central del Límite, a medida que el tamaño crece, la distribución muestral dela proporción tiende a la normal con media π y varianza .Cuanto más alejado esté π de 0,5, más elementos debe tener la muestra para realizar la aproximación a la normal.

μ = ΣX

N X = ΣX

nµx = µ

σ2 =

Σ(X - μ)2 Σ(X - X)2

S2n - 1

= n - 1Nσ2

x =

σ2

σ = Σ(X - μ)2

S2n - 1

= Σ(X - X)2

n - 1Σ x

=σ2

P =ΣX

n

μp = π y σ2

p =π (1 - π)

n

π (1 - π)n

N

n

n n

Cuasivarianza

Cuasidesviación típica Error tipico de la media

Page 43: Analisis de datos

Media, varianza y desviación típica de la variable dicotómica o dicotomizada (X) en la población y en la muestra, y de la distribución muestral de la proporción (P):

Población Muestra Distribución muestral de la proporción (P)

Media

Varianza

Desviación típica

La proporción como estimador

La proporción muestral (p) es un estimador insesgado de la proporción poblacional (π).El error típico de la proporción, es un indicador de la precisión de la estimación de la proporción. Cuanto menor es el error típico, mayor es la precisión.

Intervalos de confianza

Concepto

La finalidad de un intervalo de confianza es estimar un parámetro desconocido de una población a partir de una muestra. Al estimar la media de la población a partir de una muestra, podemos cometer un error de estimación |X- μ|.La estimación por intervalo consiste en acotar el error con una alta probabilidad 1 – α (nivel de confianza) de forma que |X- μ| no sea superior a un estimado máximo (Emáx). El error de estimación máximo (Emáx) es función de la variabilidad de la variable en la población, del nivel de confianza (n.c.) y del tamaño de la muestra:

π =ΣXN

donde X: 0,1

P =ΣXn

donde X: 0,1

μp = μ

σ2 = π (1 - π) S2 = P (1 - P) σ2p =

π (1 - π)n

π (1 - π)σ = S = P (1 - P)

σp = π (1 - π)

nError típico de la

proporción

Page 44: Analisis de datos

donde:• z1-α/2 es función del n.c. = 1 – α y se obtiene en la tabla de la

distribución normal tipificada (tabla IV).• Es la desviación típica de la distribución muestral de la media,

es decir, el error típico de la media.• σ es la desviación típica de la población que es conocida.• n es el tamaño de la muestra.

A partir de esta ecuación deducimos tanto el tamaño de la muestra como los límites del intervalo de confianza.El tamaño de la muestra se obtiene despejando n de la ecuación:

vemos que n depende de:• La desviación típica de la población.• El nivel de confianza.• El error de estimación máximo.

Los límites inferior (Li) y superior (Ls) se obtienen a partir del Emáx:

El n.c. o probabilidad 1 – α significa que si extrajésemos todas las muestras posibles de una población, calculásemos la media en cada una de ellas y el intervalo de confianza, una proporción 1 – α de todos los intervalos de confianza contendrá la media poblacional y una proporción α no lo contendrá.

Tamaño de la muestra

Interesa que un intervalo sea lo más estrecho posible y con alta probabilidad. A mayor nivel de confianza mayor es el error de estimación máximo, por lo que más amplio será el intervalo y menos precisa será la estimación. Una forma de mantener y reducir el error de estimación máximo dado y aumentar el n.c., es aumentando n.

Emáx

= z1 - α/2

σ

n

α

n

n =z2

1 - α/2 σ2

E2máx

Li = X – E

máx // L

i = X – z

1 - α/2

Ls = X + E

máx// L

s = X+ z

1 - α/2

σ

σn

n

Page 45: Analisis de datos

Otro factor que interviene es la variabilidad de la variable, cuanto mayor sea la desviación típica de la población, mayor debe ser n para alcanzar una misma precisión.Para calcular el tamaño de la muestra desconociendo σ, hay que sustituir en la ecuación, la desviación típica por la cuasidesviación típica (Sn-1) y z1-

α/2 por tn-1, 1-α/2 (tabla VI).

Aplicaciones

Los pasos para aplicar un intervalo de confianza son los siguientes:• Establecer un error de estimación máximo para un nivel de confianza

1 – α.• Obtener el tamaño de la muestra n para el error de estimación

máximo especificado.• Extraer una muestra aleatoria de tamaño n y medir la variable.• Calcular el estadístico (es estimador del parámetro) con las medidas

obtenidas.• Calcular los límites del intervalo de confianza.

Intervalo de confianza para la media

Límites de los intervalos de confianza y supuestos para la estimación de la media:

Supuestos Límites del intervalo de confianza para la media

• Muestreo aleatorio simple.• σ conocida.• Distribución normal o no normal con n >

30 (aprox. a la normal).

• Muestreo aleatorio simple.• σ desconocida.• Distribución normal.• n <

• Muestreo aleatorio simple.• σ desconocida.• Distribución normal o no normal con n >

30 (aprox. a la normal).

305.

Li = X – z

1 - α/2σ

x L

s = X + z

1 - α/2σ

x

z1 - α/2

→ Tabla IV

σx =σ

n

Li = X – t

n -1; 1- α/2S

x L

s = X + t

n -1; 1 - α/2S

x

Ʌ

Ttn–1;1- α/2

→ Tabla VI

Ʌ

Sx =

Ʌ Sn -1

n

Li = X – z

1 - α/2S

x L

s = X + z

1 - α/2S

x

z1 - α/2

→ Tabla IV

Sx =

Sn -1

Ʌ Ʌ

Page 46: Analisis de datos

Sn-1 es la cuasidesviación típica calculada en la muestra.

Intervalo de confianza para la proporción

El error de estimación máximo de la proporción es:

donde:• z1-α/2 es función del nivel de confianza 1 – α (tabla IV).• es el error típico de la proporción: σp.

• π es la proporción de la población que no es conocida.• n es el tamaño de la muestra y se debe cumplir nπ(1-π) > 5 para la

aproximación a la normal.

Los límites inferior y superior del intervalo de confianza se obtienen a partir del error de estimación máximo. Como desconocemos π, que es lo que precisamente queremos estimar, operamos con la proporción muestral P. Así, si en Emáx sustituimos π por la proporción muestral P, los límites inferior y superior del intervalo de confianza son:

Y la probabilidad de obtener un intervalo de confianza que contenga al parámetro π es:

Emáx

= z1 - α/2

π(1-π)

n

π(1-π)

n

Li=P – z

1 - α/2P(1-P)

n = P - Emáx

Ls=P + z

1 - α/2P(1-P)

n= P + E

máx

P P – z1 - α/2

P(1-P)

n< π < P + z

1 - α/2 P(1-P)

n= 1 - α