estadistica discriptiva

29
Estadística La Estadística es una ciencia formal que estudia la recolección, análisis e interpretación de datos de una muestra representativa, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional . Sin embargo, la estadística es más que eso, es decir, es el vehículo que permite llevar a cabo el proceso relacionado con la investigación científica . LA ESTADÍSTICA SE DIVIDE EN DOS GRANDES ÁREAS: La estadística descriptiva : se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar . Algunos ejemplos gráficos son: histograma , pirámide poblacional , gráfico circular , entre otros. La estadística inferencial : se dedica a la generación de los modelos , inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no ( prueba de hipótesis ), estimaciones de unas características numéricas ( estimación ), pronósticos de futuras observaciones, descripciones de asociación ( correlación ) o modelamiento de relaciones entre variables ( análisis de regresión ). Otras técnicas de modelamiento incluyen anova , series de tiempo y minería de datos .

Upload: yuliethgomez

Post on 11-Aug-2015

95 views

Category:

Documents


0 download

DESCRIPTION

se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.

TRANSCRIPT

Page 1: ESTADISTICA DISCRIPTIVA

Estadística

La Estadística es una ciencia formal que estudia la recolección, análisis e interpretación de datos de una muestra representativa, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo, la estadística es más que eso, es decir, es el vehículo que permite llevar a cabo el procesorelacionado con la investigación científica.

LA ESTADÍSTICA SE DIVIDE EN DOS GRANDES ÁREAS:

La estadística descriptiva: se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.La estadística inferencial: se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen anova, series de tiempo y minería de datos.

La estadística descriptiva es una gran parte de la estadística que se dedica a recolectar, ordenar, analizar y representar un conjunto de datos, con el fin de describir apropiadamente las características de ese conjunto. Este análisis es muy básico. Aunque hay tendencia a generalizar a toda la población, las primeras conclusiones obtenidas tras un análisis descriptivo, es un estudio calculando una serie de medidas de tendencia central, para ver en qué medida los datos se agrupan o dispersan en torno a un valor central. Esto es lo que podria ser un concepto aproximado.La estadística descriptiva es una gran parte de la estadística que se dedica a recolectar, ordenar, analizar y representar un conjunto de datos,

Page 2: ESTADISTICA DISCRIPTIVA

con el fin de describir apropiadamente las características de ese conjunto. Este análisis es muy básico. Aunque hay tendencia a generalizar a toda la población, las primeras conclusiones obtenidas tras un análisis descriptivo, es un estudio calculando una serie de medidas de tendencia central, para ver en qué medida los datos se agrupan o dispersan en torno a un valor central. Esto es lo que podria ser un concepto aproximado.Es el arte de realizar inferencias y sacar conclusiones a partir de datos imperfectos. Los datos son generalmente imperfectos en el sentido que aún cuando posean información útil no nos cuentan la historia completa. Es necesario contar con métodos que nos permitan extraer información a partir de los datos observados para comprender mejor las situaciones que los mismos representan. Algunas técnicas de análisis de datos son sorprendentemente simples de aprender y usar más allá del hecho que la teoría matemática que las sustentan pueden ser muy compleja. Todos, aún los estadísticos, tenemos problemas al enfrentarnos con listados de datos.Existen muchos métodos estadísticos cuyo propósito es ayudarnos a poner de manifiesto las características sobresalientes e interesantes de nuestros datos que pueden ser usados en casi todas las áreas del conocimiento. Los métodos estadísticos pueden y deberían ser usados en todas las etapas de una investigación, desde el comienzo hasta el final. Existe el convencimiento de que la estadística trata con el ANÁLISIS DE DATOS (quizás porque esta es la contribución más visible de la estadística), pero este punto de vista excluye aspectos vitales relacionados con el DISEÑO DE LAS INVESTIGACIONES. Es importante tomar conciencia que la elección del método de análisis para un problema, se basa tanto en el tipo de datos disponibles como en la forma en que fueron recolectados.

LA ESTADÍSTICA DESCRIPTIVA: es la rama de las Matemáticas que recolecta, representa y caracteriza un conjunto de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc.) con el fin de describir apropiadamente las diversas características de ese conjunto.Al conjunto de los distintos valores numéricos que adopta un carácter cuantitativo se llama variable estadística.Las variables pueden ser de dos tipos:

DISTRIBUCIÓN DE FRECUENCIAS

La distribución de frecuencias la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto proporciona un valor añadido a la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase. Estas agrupaciones de datos suelen estar agrupadas en forma de tablas.Una distribución de frecuencias es un formato tabular en la que se organizan los datos en clases, es decir, en grupos de valores que describen una característica de los [datos] y muestra el número de observaciones del conjunto de datos que caen en cada una de las clases.La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el número de

Page 3: ESTADISTICA DISCRIPTIVA

veces que aparece, es decir, su Frecuencia. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia simple y la frecuencia acumulada.La tabla de frecuencias puede representarse gráficamente en un histograma(Diagrama De Barras). Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores.La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.

TIPOS DE FRECUENCIA

FRECUENCIA ABSOLUTA: La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico. Se representa por ni. La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N. Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee suma o sumatoria. puesto que es mentira se hace el intercambio en la interfaz de la frecuencia absoluta.

FRECUENCIA RELATIVA

La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento y se representa por fi. La suma de las frecuencias relativas es igual a 1.

FRECUENCIA ACOMULADA

Page 4: ESTADISTICA DISCRIPTIVA

La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. Se representa por Fa.31 8 24 0.258 0.77432 3 27 0.097 0.87133 3 30 0.097 0.96834 1 31 0.032 1

Este tipo de tablas de frecuencias se utiliza con variables discretas.

DISTRIBUCIÓN DE FRECUENCIAS AGRUPADAS

La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un número grande de valores o la variable es continua. Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente. Límites de la clase. Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase. La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros.Construcción de una tabla de datos agrupados:3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.

1 Se localizan los valores menor y mayor de la distribución. En este caso son 3 y 48.2 Se restan y se busca un número entero un poco mayor que la diferencia y que sea divisible

por el número de intervalos queramos establecer.Es conveniente que el número de intervalos oscile entre 6 y 15.En este caso, 48 - 3 = 45, incrementamos el número hasta 50 : 5 = 10 intervalos.Se forman los intervalos teniendo presente que el límite inferior de una clase pertenece al intervalo, pero el límite superior no no pertenece intervalo, se cuenta en el siguiente intervalo.

Page 5: ESTADISTICA DISCRIPTIVA

ci fi Fi ni Ni[0, 5) 2.5 1 1 0.025 0.025[5, 10) 7.5 1 2 0.025 0.050[10, 15) 12.5 3 5 0.075 0.125[15, 20) 17.5 3 8 0.075 0.200[20, 25) 22.5 3 11 0.075 0.2775[25, 30) 27.5 6 17 0.150 0.425[30, 35) 32.5 7 24 0.175 0.600[35, 40) 37.5 10 34 0.250 0.850[40, 45) 42.5 4 38 0.100 0.950[45, 50) 47.5 2 40 0.050 1Total: 1

MEDIDAS DE TENDENCIA CENTRAL.

Las medidas de tendencia central son valores numéricos que tienden a localizar la parte central de un conjunto de datos. Nos dan un centro de la distribución de frecuencias, es un valor que se puede tomar como representativo de todos los datos. Hay diferentes modos para definir el "centro" de las observaciones en un conjunto de datos. A continuación se presentan los más usados.

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más menos centrada, se habla de estas medidas como medidas de posición.1 En este caso se incluyen también los cuantiles entre estas medidas. Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan variables cuantitativas.

LA MEDIA

Page 6: ESTADISTICA DISCRIPTIVA

En matemáticas y estadística una media o promedio es una medida de tendencia central que según la Real Academia Española (2001) «[…] resulta al efectuar una serie determinada de operaciones con un conjunto de números y que, en determinadas condiciones, puede representar por sí solo a todo el conjunto». Existen distintos tipos de medias, tales como la media geométrica, la media ponderada y la media armónica aunque en el lenguaje común, el término se refiere generalmente a la media aritmética. Y se define como la suma de los valores de todas las observaciones divididas por el número total de datos. Se representa por x o por la letra μ según se calcule en una muestra o en la población, respectivamente

PROPIEDADES DE LA MEDIA ARITMÉTICA• Puede ser calculada en distribuciones con escala relativa e • Todos los valores son incluidos en el cálculo de la media. • Una serie de datos solo tiene una media. • Es una medida muy útil para comparar dos o más poblaciones. • Es la única medida de tendencia central donde la suma de las desviaciones de cada valor respecto a la media es igual a cero. Por lo tanto, podemos considerar a la media como el punto de balance de una serie de datos.

DESVENTAJAS DE LA MEDIA• Si alguno de los valores es extremadamente grande o extremadamente pequeño, la media no es el promedio apropiado para representar la serie de datos. • No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos.

Ejemplos de medias

Existen numerosos ejemplos de medias , una de las pocas propiedades compartidas por todas las medias es cualquier media está comprendida entre el valor máximo y

el valor mínimo del conjunto de datos:

Page 7: ESTADISTICA DISCRIPTIVA

MEDIA ARITMÉTICA

La media aritmética es un promedio estándar que a menudo se denomina "promedio".La media se confunde a veces con la mediana o moda. La media aritmética es el promedio de un conjunto de valores, o su distribución; sin embargo, para las distribuciones consesgo, la media no es necesariamente el mismo valor que la mediana o que la moda. La media, moda y mediana son parámetros característicos de una distribución de probabilidad. Es a veces una forma de medir el sesgo de una distribución tal y como se puede hacer en las distribuciones exponencial y de Poisson.Por ejemplo, la media aritmética de 34, 27, 45, 55, 22, 34 (seis valores) es

MEDIA ARITMÉTICA PONDERADA

A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para

determinado estudio. En esos casos se puede utilizar una media ponderada. Si es un conjunto de datos o media muestral y son números reales positivos, llamados "pesos" o factores de ponderación, se define la media ponderada relativa a esos pesos como:

La media es invariante frente a transformaciones lineales, cambio de origen y escala, de las variables, es decir si X es una variable aleatoria e Y es otra variable aleatoria que depende linealmente de X, es decir, Y = a·X + b (donde a representa la magnitud del cambio de escala y b la del cambio de origen) se tiene

que:

MEDIA ESTADÍSTICA

Page 8: ESTADISTICA DISCRIPTIVA

La media estadística se usa en estadística para dos conceptos diferentes aunque numéricamente similares:

● La media muestral, que es un estadístico que se calcula a partir de la media aritmética de un conjunto de valores de una variable aleatoria.

● La media poblacional, valor esperado o esperanza matemática de una variable aleatoria.En la práctica dada una muestra estadística suficientemente grande el valor de la media muestral de la misma es numéricamente muy cercano a la esperanza matemática de la variable aleatoria medida en esa muestra. Dicho valor esperado, sólo es calculable si se conoce con toda exactitud la distribución de probabilidad, cosa que raramente sucede en la realidad, por esa razón, a efectos prácticos la llamada media se refiere normalmente a la media muestral.

LA MEDIANA

En el ámbito de la estadística, la mediana, representa el valor de la variable de posición central en un conjunto de datos ordenados. De acuerdo con esta definición el conjunto de datos menores o iguales que la mediana representarán el 50% de los datos, y los que sean mayores que la mediana representarán el otro 50% del total de datos de la muestra. La mediana coincide con el percentil 50, con el segundo cuartil y con el quinto decil. Su cálculo no se ve afectado por valores extremos.

Cálculo de la mediana

1 Ordenamos los datos de menor a mayor.2 Si la serie tiene un número impar de medidas la mediana es la puntuación central de la

misma.2, 3, 4, 4, 5, 5, 5, 6, 6Me= 5

3 Si la serie tiene un número par de puntuaciones la mediana es la media entre las dos puntuaciones centrales.

7, 8, 9, 10, 11, 12Me= 9.5

CALCULO DE LA MEDIANA PARA DATOS AGRUPADOS

La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas.

Es decir tenemos que buscar el intervalo en el que se encuentre .

Page 9: ESTADISTICA DISCRIPTIVA

Li es el límite inferior de la clase donde se encuentra la mediana.

es la semisuma de las frecuencias absolutas.Fi-1 es la frecuencia acumulada anterior a la clase mediana.ai es la amplitud de la clase.La mediana es independiente de las amplitudes de los intervalos.

Ejemplo

Calcular la mediana de una distribución estadística que viene dada por la siguiente 100/2 = 50

Clase de la mediana: [66, 69)

MODA

Es el valor de la variable que más veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. Puede haber más de una moda en una distribución. Se denota por Mo.

En estadística, la moda es el valor con una mayor frecuencia en una distribución de datos. Hablaremos de una distribución bimodal de los datos adquiridos en una columna cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Una distribución trimodal de los datos es en la que encontramos tres modas. Si todas las variables tienen la misma frecuencia diremos que no hay moda.El intervalo modal es el de mayor frecuencia absoluta. Cuando tratamos con datos agrupados antes de definir la moda, se ha de definir el intervalo modal. La moda, cuando los datos están agrupados, es un punto que divide al intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:

Page 10: ESTADISTICA DISCRIPTIVA

Siendo la frecuencia absoluta del intervalo modal las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al intervalo modal.

Para averiguar la moda en un grupo de números:● Ordena los números según su tamaño.● Determina la cantidad de veces de cada valor numérico.● El valor numérico que más se repite es la moda.● Puede haber más de una moda cuando dos o más números se repiten la misma cantidad de

veces y además este es el máximo número de veces del conjunto.● No hay moda si ningún número se repite más de una vez.

EJEMPLO

Hallar la moda de la distribución:2, 3, 3, 4, 4, 4, 5, 5 Mo= 4

Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la máxima, la distribución es bimodal omultimodal, es decir, tiene varias modas.

1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9

Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda.

2, 2, 3, 3, 6, 6, 9, 9Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda es el promedio de las dos puntuaciones adyacentes.

0, 1, 3, 3, 5, 5, 7, 8 Mo = 4

MEDIDAS DE POSICIÓN CENTRAL.

Las medidas de posición no central permiten conocer otros puntos característicos de la distribución que no son los valores centrales. Entre las medidas de posición no central más importantes están los cuantiles. Las medidas de posición central nos facilitan información sobre la serie de datos que estamos analizando. Estas medidas nos permiten conocer diversas características de esta serie de datos. Informan sobre los valores medios de la serie de datos.

Page 11: ESTADISTICA DISCRIPTIVA

Las principales medidas de posición central son:

MEDIA: Es el valor medio ponderado de la serie de datos. se puede calcular diversos tipos de media.MEDIANA: Es el valor de la serie de datos que se sitúa justamente en el centro de la muestra.MODA: Es el valor que más se repite el la muestra.

CUARTILES

Se llama cuartiles a tres valores que dividen a los datos en cuatro partes iguales. Se representan por Q1, Q2 y Q3, y se llaman cuartil primero(supera el 25% de los datos), segundo(50%) y tercero(75%) respectivamente. Estos parámetros son del tipo de la mediana se calculan de la misma forma.Ejemplo: Las calificaciones en una determinada asignatura de los 40 alumnos de un curso deCOU vienen dadas por la siguiente tabla:CALIFICACIONES 1 2 3 4 5 6 7 8 9Nº DE ALUMNOS 2 2 4 5 8 9 3 4 3F. Acumuladas 2 4 8 13 21 30 33 37 40Después de construir la tabla en la que aparezca la frecuencia absoluta acumulada, para calcular Q1, hay que tener en cuenta que el cuartil primero deja la cuarta parte de la distribución a la izquierda y como N/4=40/4=10, se verifica que Q1=4 porque este es el primer valor de la variable cuya frecuencia absoluta acumulada excede a la cuarta parte del número de datos.Q2 coincide con la mediana vale 5.Para calcular Q3 tendremos en cuenta que deja las tres cuartas partes de la distribución la izquierda. Como , se verifica que Q3= (6+7) / 2 = 6.5. Al coincidir exactamente con un valor tenemos que hacer la media.

Ejemplo: Se ha aplicado un test sobre un determinado tema a 88 trabajadores de una fábrica,obteniéndose los siguientes resultados:

PUNTUACIONES Nª.TRABAJADORES Ni N / 4 = 22[38,44) 7 7 [44,50) 8 15[50,56) 15 30 ³ Clase del 1 cuartil[56,62) 25 55 3 N / 4 = 3A88 / 4 = 66[62,68) 18 73 ³ Clase del 3 cuartil[68,74) 9 82

Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos.Q2 coincide con la mediana.

Cálculo de los cuartiles

1 Ordenamos los datos de menor a mayor.2 Buscamos el lugar que ocupa cada cuartil mediante la expresión

.

Page 12: ESTADISTICA DISCRIPTIVA

Número impar de datos

2, 5, 3, 6, 7, 4, 9

Número par de datos

2, 5, 3, 4, 6, 7, 1, 9

Cálculo de los cuartiles para datos agrupados

En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.

Cálculo del segundo cuartil

Cálculo del tercer cuartil

Page 13: ESTADISTICA DISCRIPTIVA

Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados. Son medidas que describen las posiciones es un conjunto de datos ordenados de menor a mayor.

Son nueve valores que divide un conjunto de datos en 10 partes porcentualmente iguales se expresan como: D1, D2, D3,.....D9.

Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales. Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos. D5 coincide con la mediana.

Cálculo de los deciles

Page 14: ESTADISTICA DISCRIPTIVA

En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.

del primer decil

Cálculo del segundo decil

Cálculo del tercer decil

Cálculo del cuarto decil

Page 15: ESTADISTICA DISCRIPTIVA

PERCENTILES: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados.repeticiones.Los Percentiles, (P), son los que dividen a la distribución en cien partes. Hay 99 percentiles que dividen a una serie en 99 partes iguales CÁLCULO DE LOS PERCENTILES Estos valores se calculan También en base a: Datos no agrupados Datos agrupados de tablas de distribución de frecuenciasPercentiles

Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.P50 coincide con la mediana.

En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.

Percentil 35

Percentil 60

Page 16: ESTADISTICA DISCRIPTIVA

Cálculo de los percentile

DATOS SIN AGRUPAR

Sean los datos de una muestra ordenada en orden creciente y designando la

mediana como , distinguimos dos casos:

a) Si n es impar, la mediana es el valor que ocupa la posición una vez que los datos han sido ordenados (en orden creciente o decreciente), porque éste es el valor central. Es

decir: .

Por ejemplo, si tenemos 5 datos, que ordenados son: , , ,

, => El valor central es el tercero: . Este valor, que es la mediana de ese conjunto de datos, deja dos datos por debajo ( , ) y otros dos por encima de él ( , ).

b) Si n es par, la mediana es la media aritmética de los dos valores centrales. Cuando es

par, los dos datos que están en el centro de la muestra ocupan las posiciones y .

Es decir:

DATOS AGRUPADOS

Al tratar con datos agrupados, si coincide con el valor de una frecuencia acumulada, el valor de la mediana coincide con la abscisa correspondiente. Si no coincide con el valor de ninguna abcisa, se calcula a través de semejanza de triángulos en el histograma o polígono de frecuencias acumuladas, utilizando la siguiente equivalencia:

Donde y son las frecuencias absolutas acumuladas tales que , y son los extremos, interior y exterior, del intervalo donde se alcanza la mediana y es la abscisa a calcular, la moda. Se observa que es la amplitud de los intervalos seleccionados para el diagrama

Page 17: ESTADISTICA DISCRIPTIVA

Datos sin agrupar

Sean los datos de una muestra ordenada en orden creciente y designando la

mediana como , distinguimos dos casos:

a) Si n es impar, la mediana es el valor que ocupa la posición una vez que los datos han sido ordenados (en orden creciente o decreciente), porque éste es el valor central. Es decir:

.

Por ejemplo, si tenemos 5 datos, que ordenados son: , , , ,

=> El valor ce ntral es el tercero: . Este valor, que es la mediana de ese conjunto de datos, deja dos datos por debajo ( , ) y otros dos por encima de él ( , ).

b) Si n es par, la mediana es la media aritmética de los dos valores centrales. Cuando es par, los dos

datos que están en el centro de la muestra ocupan las posiciones y . Es decir:

..

VARIABLES

una variable es un nombre asociado a un elemento de datos que está situado en posiciones contiguas de la memoria principal, y su valor puede cambiar durante la ejecución de un programa.Una variable representa un valor numérico o de cadena o un objeto de una clase. El valor que la variable almacena puede cambiar, pero el nombre sigue siendo el mismo. Variables estadísticas.

Una variable estadística es cada una de las características, cualidades o modalidades (atributos) que poseen los individuos de una población.Una variable es un contenedor de información, en el que podemos almacenar números enteros, números decimales, caracteres.El contenido de las variables se puede leer y se puede cambiar durante la ejecución de una página PHP.En PHP todas las variables comienzan con el símbolo del dólar $ y no es necesario definir una variable antes de usarla.Tampoco tienen tipos, es decir que una misma variable puede contener un número y luego puede contener caracteres.

VARIABLE. Característica de interés sobre cada elemento individual de una población o muestra. (La edad de un estudiante que ingresa a la Universidad, el color de su cabello, su estatura y su peso son cuatro variables).

VARIABLE. Cualquier propiedad o característica de algún evento, objeto o persona, que puede tener diversos valores en diversos instantes, según las condiciones.

Page 18: ESTADISTICA DISCRIPTIVA

VARIABLE CUANTITATIVA O NUMÉRICA. Variable que cuantifica un elemento de una población. Las operaciones aritméticas, como sumar y obtener promedios, sí son significativas para datos que resultan de una variable cuantitativa

VARIABLE DEPENDIENTE. Variable en un experimento, medida por un investigador para determinar el efecto de la variable independiente.

VARIABLE DISCRETA. Variable para la cual no existen valores posibles entre las unidades adyacentes en una escala. son aquellas cuyas observaciones se agrupan ‘inherentemente’ o ‘naturalmente’ en categorías, porque dichas variable por su naturaleza sólo pueden tomar ciertos valores muy específicos. El “género” de un sujeto es un buen ejemplo de una variable discreta: los seres humanos pueden ser mujeres u hombres, se ajustan a una u otra categoría y no hay continuidad ni puntos intermedios entre ellas. Los países o regiones del mundo también son buenos ejemplos de variables discretas. Otro ejemplo son las calificaciones o educación de los maestros. Podemos crear las siguientes categorías para describir esta última variable: (a) educación primaria completa, (b) educación secundaria completa, (c) educación superior incompleta, (d) educación superior completa y (e) educación de postgrado.

VARIABLE CONTINUAS. sólo se pueden agrupar en forma arbitraria en categorías, porque por su naturaleza pueden tomar cualquier valor a lo largo de un continuo (o de una escala numérica continua). La estatura de los habitantes de un país es un ejemplo de variable continua, así como el ingreso de las familias en dicho país. Un buen ejemplo en el área de la educación son las “calificaciones de pruebas”, que sólo se pueden agrupar arbitrariamente creando ‘intervalos’ artificiales, como por ejemplo 1-20, 21-40, etc. Note que los intervalos también podrían ser 1-10, 11-20, 21-30, etc, o cualquier otro intervalo que se prefiera, ya que la variable no se ajusta naturalmente a categorías predeterminadas como en el caso de las variables discretas.

VARIABLE CUALITATIVAEs una variable que no puede expresarse numéricamente sino que tiene naturaleza de categoría, es decir, que genera datos expresados con palabras denotan cualidades o atributos. Si la información de la variable que vamos a organizar corresponde a una variable cualitativa y si los datos generados no implican orden al enunciarlos, dicha información se reagrupa en categorías.

VARIABLE CUALITATIVA NO ORDENABLE

Cuando los sucesos elementales se reagrupan en categorías, pero no requieren un orden determinado, pero si tiene un límite definido excluyentes unas de otras. Ejemplo:Variable CategoríaEstado civil Soltero, casado, viudo, unión libreReligiosidad Católico, protestante, budista, etcSexo Femenino, masculinoNacionalidad Colombiano, peruano, etcRendimiento académico Excelente, Bueno, Regular, DeficienteNivel Socio-económico Alto, Medio, Bajo

VARIABLE CUALITATIVA

Son variables que expresan, distintas cualidades o modalidades, cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos.Las variables cualitativas pueden ser dicotómicas cuando sólo pueden tomar dos valores

Page 19: ESTADISTICA DISCRIPTIVA

posibles como sí y no, lo son politómicas cuando pueden tomar o adquirir tres o más valores. Las variables cualitativas se refieren a características o cualidades que no pueden ser medidas con números. Podemos distinguir dos tipos:Variable cualitativa nominal

Una variable cualitativa nominal presenta modalidades no numéricas que no admiten un criterio de orden. Por ejemplo:

El estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado y viudo.

VARIABLE CUALITATIVA ORDINAL

Una variable cualitativa ordinal presenta modalidades no númericas, en las que existe un orden. Por ejemplo:

La nota en un examen: suspenso, aprobado, notable, sobresaliente.Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, ...Medallas de una prueba deportiva: oro, plata, bronce.

VARIABLES CUANTITATIVASSon variables que se expresan cantidades numéricas. En las variables cuantitativas es muy importante definir si es un número entero o un número decimal. Por ello se debe estar claro del conjunto referencial de dicha variable.

Definición Dominio de la variable.Las variables estadísticas se representan con un símbolo, tal como A, B o C, x, y, z, que puede tomar un valor perteneciente a un conjunto de valores, llamado dominio de la variable.Las variables cuantitativas pueden ser:

● Discretas: Toman un valor del dominio de la variable (los números naturales) y no pueden tomar ningún valor entre dos consecutivos.

Ejemplo: número de hijos, goles metidos por un equipo de fútbol, es decir se pueden contar.Anota lo siguiente

La columna “conteo”, en la tabla 2, se agrega para facilitar el cálculo de la frecuencia absoluta (f).● Continuas: Es la que, teóricamente, puede tomar cualquier valor en una escala de medidas,

entero o fraccionario. Por ejemplo, la estatura de una alumna.● Variables estadísticas.

El estudio estadístico está basado en la observación de la persona o individuo, donde se determinan una o más características de estos elementos, por ejemplo, la edad, preferencias, género, nacionalidad.Definición Variable estadística.Una variable estadística es cada una de las características, cualidades o modalidades (atributos) que poseen los individuos de una población.

Page 20: ESTADISTICA DISCRIPTIVA

Variables cualitativas o categóricas: los alumnos de una clase).no se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, sexo).

Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales).Las variables también se pueden clasificar en:

VARIABLES UNIDIMENSIONALES: Considere los siguientes datos, que reproducen las calificaciones obtenidas por los 14 alumnos de 2º de LADE en la asignatura de Macroeconomía, que se presentaron en una convocatoria extraordinaria. 0, 1,75, 3, 4,25, 5, 5, 5, 6, 6, 6, 6, 7, 8,5, 10 Convendremos que la información así presentada no es demasiado manejable. Quizá podamos mejorar esta presentación, tabulando los datos, es decir, poniéndolos en una tabla de dos columnas: reservamos la primera para la variable notas y en la segunda, la frecuencia de cada nota, esto es, el número de veces que se repite cada observación. Xi (notas) ni (frecuencia) 0 11,75 13 14,25 15 36 47 18,5 110 1Estará de acuerdo con nosotros, en que la información así, se puede analizar mejor. Por ejemplo, podemos apreciar, a simple vista que la nota más repetida –más frecuente- es el 6, que ha sido obtenida por cuatro alumnos. Observe también, que nos es fácil, saber el número total de presentados, sin más que sumar los datos de la columna de frecuencias

DISTRIBUCIONES UNIDIMENSIONALES DE FRECUENCIAS

- Frecuencia absoluta de un determinado valor de la variable xi (y lo representaremos por ni): es el número de veces que se presenta ese determinado valor xi. - Frecuencia relativa de un determinado valor de la variable xi (y lo representaremos por fi): es el cociente de su frecuencia absoluta (ni) y el número total de datos. - Frecuencia absoluta acumulada de un determinado valor de la variable xi (y lo representaremos por Ni): es la suma de las frecuencias absolutas de todos los valores de la variable menores o iguales que dicho valor xi.- Frecuencia relativa acumulada de un determinado valor de la variable xi (y lo representaremos por Fi): es la suma de las frecuencias relativas de todos los valores de la variable menores o iguales que dicho valor xi.Cuando en un conjunto de valores observados de una variable, se realizan las operaciones de: Ordenación y

Page 21: ESTADISTICA DISCRIPTIVA

agrupación de los valores que se repiten, (determinación de la frecuencia de cada valor), se obtiene una tabla estadística de distribución de frecuencias. A dicho conjunto de operaciones se le denomina: Tabulación. Las distribuciones de frecuencias se pueden clasificar en varios tipos de acuerdo con el número de los valores observados de la variable, así como el número de observaciones totales recorrido o rango de una variable, se define como la diferencia entre el mayor y el menor valor de la variable:R = Máx Xi - Mín XiPara facilitar el manejo matemático de los intervalos, es preciso considerar un valor concreto de la variable comorepresentante de cada intervalo. Generalmente se toma como tal el valor central del intervalo, y se le denomina marca de clase. .

VARIABLES BIDIMENSIONALES: Recogen información sobre dos características de la población (por ejemplo:edad y altura de los alumnos de una clase).Las distribuciones unidimensionales son aquellas en las que se estudian al mismo tiempo dos variables de cada elemento de la población: por ejemplo: peso y altura de un grupo de estudiantes; superficie y precio de las viviendas de una ciudad; potencia y velocidad de una gama de coches deportivos. Para representar los datos obtenidos se utiliza una tabla de correlación:

Distribuciones bidimensionales de frecuencias. Descripción numérica y representaciones gráficas.Llamaremos frecuencia absoluta bidimensional: al número de veces que se presenta conjuntamente el par de valores (xi

Page 22: ESTADISTICA DISCRIPTIVA

, yj), y se representa por nij . Llamaremos frecuencia relativa bidimensional: al cociente entre la frecuencia absoluta bidimensional y el número total de datos: Nnfijij =Llamaremos distribución bidimensional: al conjunto formado por los pares de valores de los caracteres (xi,yj), asociado a sus frecuencias absolutas: (xi , yj, nij), o las relativas. Una forma de disponer los datos es la conocida como tabla de doble entrada: -Si es de caracteres cuantitativos o variables se denomina tabla de correlación-Si es de caracteres cualitativos o atributos se denomina tabla de contingencia. Representaciones gráficas: Las distribuciones bidimensionales se pueden representar gráficamente en el espacio de tres dimensiones. En este caso en el eje vertical se representan las frecuencias y en el plano horizontal los valores de las variables X e Y.

Variables pluridimensionales: recogen información sobre tres o más características (por ejemplo:edad, altura y peso de los alumnos de una clase).Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:

CONSTANTES

Una constante es una variable cuyo valor puede determinar el compilador durante la compilación y puede aplicar optimizaciones derivadas de ello. Para que esto sea posible se ha de cumplir que el valor de una constante no pueda cambiar durante la ejecución, por lo que el compilador informará con un error de todo intento de modificar el valor inicial de una constante. Las constantes se definen como variables normales pero precediendo el nombre de su tipo del modificador const y dándoles siempre un valor inicial al declararlas. Es un valor de tipo permanente, que no puede modificarse, al menos no del contexto o situación para cual esta.

DISCRETAS:sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos(puede ser 1, 2, 3...., etc., pero, por ejemplo, nunca podrá ser 3.45).

CONTINUAS:pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehículo puede ser 90.4 km/h, 94.57 km/h...etc.Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos:

INDIVIDUO: cualquier elemento que porte información sobre el fenómeno que se estudia. Así, siestudiamos la altura de los niños de una clase, cada alumno es un individuo; si se estudia el precio de la vivienda, cada vivienda es un individuo.Un individuo o unidad estadística es cada uno de los elementos que componen la población.

Page 23: ESTADISTICA DISCRIPTIVA

POBLACIÓN: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten información sobre el fenómeno que se estudia. Por ejemplo, si se estudia el precio de la vivienda en una ciudad, la población será el total de las viviendas de dicha ciudad.Es el conjunto de datos de los cuales se ocupa un determinado estudio estadistico. Grupo entero de datos, objetos tales como alturas y pesos de los

estudiantes de una universidad. Es la colección, o conjunto de datos individuos, objetos o eventos cuyas propiedades serán analizadas.

MUESTRA: subconjunto que seleccionado de una población. Por ejemplo, si se estudia el precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad,es un conjunto representativo de la población de referencia, el número de individuos de una muestra es menor que el de la población.Es una parte tomada de la población, seleccionada de acuerdo con una regla o

plan. En estadística una muestra estadística (también llamada muestra aleatoria o simplemente muestra) es un subconjunto de casos o individuos de una población estadística.Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual deben ser representativas de la misma. Para cumplir esta característica la inclusión de sujetos en la muestra debe seguir una técnica de muestreo. En tales casos, puede obtenerse una información similar a la de un estudio exhaustivo con mayor rapidez y menor coste (véanse las ventajas de la elección de una muestra, más abajo).Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de toda la población porque el manejo de un menor número de datos provoca también menos errores en su manipulación. En cualquier caso, el conjunto de individuos de la muestra son los sujetos realmente estudiados.El número de sujetos que componen la muestra suele ser inferior que el de la población, pero suficiente para que la estimación de los parámetros determinados tenga un nivel de confianza adecuado. Para que el tamaño de la muestra sea idóneo es preciso recurrir a su cálculo.

DATO: Valor de la variable asociada a un elemento de una población o muestra. Este valor puede ser un número, una palabra o un símbolo. (Por ejemplo: Juan Posada,ingresó a la Universidad a la edad de “23”años, su cabello es “ROJIZO” mide “1.80 m” pesa “83 Kg.” Estas cuatro piezas de datos son los valores de las cuatro variables aplicadas a Juan Posada).