39151481 desarrollo de el temario

24
ESTADISTICA 1 1.1Conceptos de estadística y su clasificación 1.2 Recopilación de datos. 1.3 Distribución de frecuencia. 1.3.1 Histogramas, polígonos de frecuencia, ojivas. 1.4 Medidas de tendencia central para un conjunto datos y datos agrupados. 1.4.1 Media, media ponderada. 1.4.2 Mediana. 1.4.3 Moda. 1.4.4 Relación entre media, mediana y moda. 1.5 Medidas de dispersión para un conjunto de datos y datos agrupados. 1.5.1 Rango. 1.5.2 Desviación media. 1.5.3 Varianza. 1.5.4 Desviación estándar. 1.6 Coeficiente de variación. 1.7 Coeficiente de asimetría de Pearson

Upload: maryoung1

Post on 05-Dec-2015

217 views

Category:

Documents


0 download

DESCRIPTION

desarrollo de un temario.

TRANSCRIPT

Page 1: 39151481 Desarrollo de El Temario

ESTADISTICA 1

1.1Conceptos de estadística y su clasificación

1.2 Recopilación de datos.

1.3 Distribución de frecuencia.

1.3.1 Histogramas, polígonos de frecuencia, ojivas.

1.4 Medidas de tendencia central para un conjunto datos y datos agrupados.

1.4.1 Media, media ponderada.

1.4.2 Mediana.

1.4.3 Moda.

1.4.4 Relación entre media, mediana y moda.

1.5 Medidas de dispersión para un conjunto de datos y datos agrupados.

1.5.1 Rango.

1.5.2 Desviación media.

1.5.3 Varianza.

1.5.4 Desviación estándar.

1.6 Coeficiente de variación.

1.7 Coeficiente de asimetría de Pearson

Page 2: 39151481 Desarrollo de El Temario

1.1 Conceptos de estadística y su clasificación.

Se puede decir que la "estadística es el estudio de los métodos y procedimientos para recoger, clasificar, resumir y analizar datos y para hacer inferencias científicas partiendo de tales datos”.

Esta definición cubre gran parte de la actividad del científico. Es importante observar que el objeto del que realiza el análisis estadístico son los datos y las observaciones científicas por sí mismos, más que el material químico que interviene en el estudio.

Por lo tanto no es posible trazar límites rígidos entre la química, la estadística y la matemática.

La estadística se puede dividir en 2 categorías, la "estadística descriptiva" y la "inferencia estadística".

La estadística descriptiva implica la abstracción de varias propiedades de conjuntos de observaciones, mediante el empleo de métodos gráficos, tabulares ó numéricos. Entre estas propiedades, están la frecuencia con que se dan varios valores en la observación, la noción de un valor típico o usual, la cantidad de variabilidad en un conjunto de datos observados y la medida de relaciones entre 2 ó más variables.

El campo de la estadística descriptiva no tiene que ver con las implicaciones o conclusiones que se puedan deducir de conjuntos de datos. La estadística descriptiva sirve como método para organizar datos y poner de manifiesto sus características esenciales con el propósito de llegar a conclusiones.

La inferencia estadística se basa en las conclusiones a la que se llega por la ciencia experimental basándose en información incompleta.

Por ejemplo, Mendelal estudiar la manera como diferían entre sí las plantas de guisantes en altura, color de las semillas, color de las vainas y color de las flores, tuvo que hacer sus conclusiones necesariamente basándose en un grupo de plantas relativamente poco numeroso comparado con toda la población de plantas de guisantes de un tipo particular.

Al hacer un enunciado, como por ejemplo, sobre el color de las flores, las conclusiones de Mendel dependían de la muestra particular de plantas disponibles para este estudio.

Page 3: 39151481 Desarrollo de El Temario

En la terminología estadística, el procedimiento inductivo implica el hacer inferencias acerca de una población adecuada ó universo a la luz de lo averiguado en un subconjunto aparte o muestra.

La inferencia estadística se refiere a los procedimientos mediante los cuales se pueden hacer tales generalizaciones ó inducciones.

Es importante por todo lo dicho anteriormente, que el proceso de la inferencia científica, implica el grado más elevado de cooperación entre la estadística y el estudio experimental.

1.2 Recopilación de datos

Población y muestra Al recoger datos relativos a las características de un grupo de individuos u objetos, sean alturas y pesos de estudiantes de una universidad o tuercas defectuosas producidas en una fábrica, suele ser imposible o nada práctico observar todo el grupo, en especial si es muy grande. En vez de examinar el grupo entero, llamado población o universo, se examina una pequeña parte del grupo, llamada muestra. Una población puede ser finita o infinita. Por ejemplo, la población consistente en todas las tuercas producidas por una fábrica un cierto día es finita, mientras que la determinada por todos los posibles resultados (caras, cruces) de sucesivas tiradas de una moneda, es infinita. Si una muestra es representativa de una población, es posible inferir importantes conclusiones sobre las poblaciones a partir del análisis de la muestra. La fase de la estadística que trata con las condiciones bajo las cuales tal diferencia es válida se llama estadística inductiva o inferencia estadística. Ya que dicha inferencia no es del todo exacta, el lenguaje de las probabilidades aparecerá al establecer nuestras conclusiones. La parte de la estadística que sólo se ocupa de describir y analizar un grupo dado, sin sacar conclusiones sobre un grupo mayor, se llama estadística descriptiva o deductiva.

1.3 Distribución de frecuencias

Distribución de frecuencias es como se denomina en estadística a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto significa una de las cosas más importantes de la matemática, su estadística con la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase.

Page 4: 39151481 Desarrollo de El Temario

Elementos fundamentales para elaborar una distribución de frecuencia:

1) RANGO.

Es una medida de dispersión que se obtiene como la diferencia entre el número mayor y el número menor de los datos.

R = N_max - N_min

Ejemplo.

Dados los números: 5, 10, 12, 8, 13, 9, 15

R= 15- 5

2) AMPLITUD TOTAL.

Simplemente se obtiene sumándole 1 al rango.

AT = (R+1)

3) LAS CLASES.

Están formadas por dos extremos. El menor se llama límite inferior el mayor se llama límite superior. Hay distintos tipos de clases.

Ej. Notas (20-26) Edades (20-26.5) Salarios (20-26.99)

4) EL NUMERO DE CLASES.

Se determina a través de la formula de Sturges, la cual es válida cuando el No de observaciones sea menor o igual a 500. Formula.

Nc= 1 + 3.33log ( N )

Donde:

Nc es el número de clases. N es la cantidad de muestras tomadas.

5) VALOR DEL INTERVALO O AMPLITUD

Se Obtiene por medio de la ecuación de dicta:

Vi = AT / Nc

Donde:

Vi es el valor de intervalo AT es la amplitud total Nc es el número de clase

Page 5: 39151481 Desarrollo de El Temario

1.3.1 Histogramas, polígonos de frecuencia, ojivas

HISTOGRAMA

En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.

En términos matemáticos, puede ser definida como una función inyectiva (o mapeo) que acumula (cuenta) las observaciones que pertenecen a cada subintervalo de una partición. El histograma, como es tradicionalmente entendido, no es más que la representación gráfica de dicha función.

Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores

POLIGONO DE FRECUENCIA

Un polígono de frecuencia es igual que hacer un histograma.. Solo que no creas barras.. Si no pones puntos en el nivel que se le asigna... no hay fórmula.. Es un gráfico... pero.. Los intervalos de lo que mides... debes hacer con la marca de clase.. O sea.. El límite inferior más el límite superior entre 2.. Para cada clase... y ese es la marca de clase.. De cada clase.. O punto medio... y cada punto del gráfico lo unes... la frecuencia.. Pues es el número de veces que existe cada clase... entonces.. Puede haber polígonos de porcentaje... de frecuencia, de frecuencia relativa.. etc.

OJIVAS:

Cuando se trata de relacionar observaciones en un mismo aspecto para dos colectivos diferentes no es posible ejecutar comparaciones sobre la base de la frecuencia, es necesario tener una base estándar, la frecuencia relativa. La ojiva representa gráficamente la forma en que se acumulan los datos y permiten ver cuántas observaciones se hallan por arriba o debajo de ciertos valores. Es útil para obtener una medida de los cuartiles, deciles , percentiles.

Page 6: 39151481 Desarrollo de El Temario

MEDIDAS DE TENDENCIA CENTRAL PARA UN CONJUNTO DATOS Y DATOS AGRUPADOS

MEDIDAS DE TENDENCIA CENTRAL

La estadística busca entre otras cosas, describir las características típicas de conjuntos de datos y, como hay varias formas de hacerlo, existen y se utilizan varios tipos de promedios. Se les llama medidas de tendencia central porque general mente la acumulación más alta de datos se encuentra en los valores intermedios.

MODA

La moda es el valor que aparece con mayor frecuencia en la serie de datos. Así por ejemplo, de la serie {14, 15, 17, 17, 21, 21, 21, 33, 36, 40}, la moda es 21.

La moda es una medida muy natural para describir un conjunto de datos; su concepto se adquiere fácilmente: es la altura más corriente, es la velocidad más común, etc. Además tiene la ventaja de que no se ve afectada por la presencia de valores altos o bajos.

La principal limitación esta en el hecho de que requiere un número suficiente de observaciones para que se manifieste o se defina claramente.

Otros inconvenientes son que puede darse el caso de que una determinada serie no tenga moda o que tenga varias modas.

Por ejemplo:

L, K, M, O, N (no hay moda)

5, 6, 10, 5, 8, 6, 7, 4 (2 modas)

MEDIANA

La mediana toma en cuenta la posición de los datos y se define como el valor central de una serie de datos o, más específicamente, como un valor tal que no más de la mitad de las observaciones son menores que él y no más de la mitad mayores.

El primer paso es ordenar los datos de acuerdo a su magnitud, luego se determina el valor central de la serie y esa es la mediana. Si el número de datos es par, existirán dos valores centrales y entonces la mediana se obtiene sacando el promedio de ellos.

Por ejemplo:

Page 7: 39151481 Desarrollo de El Temario

7, 8, 8, 10, 12, 19, 23 Mes = 10

3, 4, 4, 5, 16, 19, 25, 30 Med = (5+16)/2 = 10.5

Media Aritmética

La media aritmética es el promedio más comúnmente usado, este puede ser simple o ponderado.

La media aritmética simple está dada por la formula SX/n y que significa: la suma de todos los valores dividida por el número de datos.

Por ejemplo:

10, 13, 10, 13, 14, 10, 13, 10, 15

Media Aritmética Ponderada

Si los valores que toma x en una serie de datos, no todos tienen la misma importancia, es válido asignar "pesos" o "ponderaciones" de acuerdo a la importancia de cada dato.

En la serie del ejemplo anterior aparecen los números; pero cada uno con diferente frecuencia. Si cada uno de estos datos se multiplica por su respectiva frecuencia o ponderación y se suman estos productos, se obtendrá la misma suma que si se hubieran sumado uno por uno.

Sin ponderar Cálculo ponderado

Número x Número x Frecuencia Producto (fx)

10 10 4 40

13 13 3 39

14 14 1 14

15 15 1 15

Suma = 52   9 108

Page 8: 39151481 Desarrollo de El Temario

52/4 = 13 108/9 = 12

Media Geométrica

La media geométrica es la raíz enésima del producto de todos los valores de la serie.

Así por ejemplo la media geométrica de 3,4,9 y 12 seria:

Como este sistema de cálculo resulta muy difícil de emplear, máxime cuando son números grandes o largas series de datos, en la práctica se recurre a los logaritmos.

xg = antilog (S log xi)/n

así la xg del ejemplo se calcularía así:

xg = antilog ( log 3 + log 4 + log 9 + log 12 )                                          4

xg = antilog (0.477 + 0.602 + 0.954 + 1.079 )                                            4

xg = antilog (3.11)                      4

xg = antilog 0.78

xg = 6

Media Armónica

La media armónica se define como el recíproco de la media aritmética de los recíprocos de los valores.

Page 9: 39151481 Desarrollo de El Temario

y reacomodando la fórmula se tiene:

Así la media armónica de 3, 2, 6 sería:

Xa = 3

Cálculo de las medidas de posición en datos agrupados

Cuando los datos están agrupados en distribución de frecuencias las fórmulas varían un poco.

Clases x f F fx

29.5-34.5 32 1 1 32

Page 10: 39151481 Desarrollo de El Temario

34.5-39.5 37 3 4 111

39.5-44.5 42 8 12 336

44.5-49.5 47 9 21 423

49.5-54.5 52 7 28 364

54.5-59.5 57 4 32 228

59.5-64.5 62 3 35 186

64.5-69.5 67 3 38 201

69.5-74.5 72 2 40 144

Total     40 2025

Donde:x es el punto medio de clasef es la frecuencia absolutaF es la frecuencia acumuladafx es el producto del punto medio por la frecuencia absoluta

Moda (datos agrupados)

Donde:L = Limite inferior de la clase modal.d1 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase anterior.d2 = Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase posterior.C = Intervalo de clase.

Por ejemplo:

Primero se localiza la clase modal que es aquella en la que hay la mayor densidad de frecuencia por unidad de intervalo y luego aplicar la formula. La clase es: 44.5 - 49.5

Page 11: 39151481 Desarrollo de El Temario

Entonces:                      Mo = 44.5 +     1     *  5                                           1 + 2

= 44.5 + 1.67  =  46.17

Mediana (datos agrupados)

Donde: n = Número total de observaciones.L = Limite inferior de la clase que contiene la mediana.f  = Frecuencia de la clase que contiene la mediana.F = Frecuencia acumulada "menos de" de la clase anterior.C = Intervalo de clase.

La determinación de la clase que contiene la mediana se hace dividiendo n/2 y viendo en cual clase quedó este acumulado. En el ejemplo es la clase 44.5 - 49.5 ya que en ésta quedó el 20° dato.

Media aritmética (datos agrupados)

Es la suma de los productos de la frecuencia por el punto medio divididos por la frecuencia acumulada total.

x = S fx   = 2025 = 50.62          n           40

Page 12: 39151481 Desarrollo de El Temario

Percentiles (datos agrupados)

Donde: Pm = Percentil m.m = Número del percentil deseado.n = Número total de observaciones.L = Limite inferior de la clase donde está el percentil.f = Frecuencia de la clase que contiene el percentil.F = Frecuencia acumulada de la clase anterior a la que contiene el percentilC = Intervalo de clase.

Cálculo del P72

Primero se determina la clase donde está el percentil deseado así:

m/100  *  n  = 72/100  *  40   =  28.8

O sea que el P72 es el 28.8°  término de la serie y éste queda en la clase 54.5 - 59.5.

P72 = 54.5 + 28.8 - 28 * 5  =  55.5                             4

1.5 Medidas de dispersión para un conjunto de datos y datos agrupados

El conocimiento de la forma de la distribución y del respectivo promedio de una colección de valores de una variable, puede servir para tener una idea bastante clara de la conformación, pero no de de la homogeneidad de cada una de los valores con respecto a la medida de tendencia central aplicada.

En el caso de las variables con valores que pueden definirse en términos de alguna escala de medida de igual intervalo, puede usarse un tipo de indicador que permite apreciar el grado de dispersión o variabilidad existente en el grupo de variantes en estudio.

A estos indicadores les llamamos medidas de dispersión, por cuanto que están referidos a la variabilidad que exhiben los valores de las observaciones, ya que si

Page 13: 39151481 Desarrollo de El Temario

no hubiere variabilidad o dispersión en los datos interés, entonces no habría necesidad de la gran mayoría de las medidas de la estadística descriptiva.

Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión nos dicen hasta que punto estas medidas de tendencia central son representativas como síntesis de la información. Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central. Distinguimos entre medidas de dispersión absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirán comparar varias muestras.

1.5.1 Rango

Se denomina rango estadístico (R) o recorrido estadístico al intervalo de menor tamaño que contiene a los datos; es calculable mediante la resta del valor mínimo al valor máximo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos.

Por ejemplo, para una serie de datos de carácter cuantitativo como es la estatura tal y como:

x1 = 185,x2 = 165,x3 = 170,x4 = 182,x5 = 155

es posible ordenar los datos como sigue:

x(1) = 155,x(2) = 165,x(3) = 170,x(4) = 182,x(5) = 185

donde la notación x(i) indica que se trata del elemento i-ésimo de la serie de datos. De este modo, el rango sería la diferencia entre el valor máximo (k) y el mínimo; o, lo que es lo mismo:

R = x(k) − x(1)

En nuestro ejemplo, con cinco valores, nos da que R = 185-155 = 30

1.5.2 Desviación media

La desviación media es la media de las diferencias en valor absoluto de los valores a la media.

Page 14: 39151481 Desarrollo de El Temario

Este valor estadístico no es de mucha utilidad en estadística debido a que no es fácil manipular dicha función al no ser derivable.

Siendo más formales, la desviación media debería llamarse desviación absoluta respecto a la media, para evitar confusiones con otra medida de dispersión, la desviación absoluta respecto a la mediana, DM, cuya fórmula es la misma, sustituyendo la media aritmética por la mediana M. Pero tal precisión no es relevante, porque la desviación absoluta respecto a la mediana es de uso todavía menos frecuente.

La desviación absoluta respecto a la media, Dm, la desviación absoluta respecto a la mediana, DM, y la desviación típica, σ, de un mismo conjunto de valores verifican la desigualdad:

Siempre ocurre que

donde el Rango es igual a

Rango = valor máximo − valor mínimo

Dm = 0 cuando los datos son exactamente iguales (e iguales a la media aritmética)

justo sólo hay dos valores en los datos, :a,b, y hay exactamente la mitad de datos igual a :a y :b

1.5.3 Varianza

En teoría de probabilidad, la varianza (σ2) de una variable aleatoria es una medida de su dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media.

Está medida en unidades distintas de las de la variable. Por ejemplo, si la variable mide una distancia en metros, la varianza se expresa en metros al cuadrado. La desviación estándar, la raíz cuadrada de la varianza, es una medida de dispersión alternativa expresada en las mismas unidades.

Page 15: 39151481 Desarrollo de El Temario

Hay que tener en cuenta que la varianza puede verse muy influida por los valores atípicos y se desaconseja su uso cuando las distribuciones de las variables aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras medidas de dispersión más robustas.

El término varianza fue acuñado por Ronald Fisher en un artículo de 1918 titulado The Correlation Between Relatives on the Supposition of Mendelian Inheritance.

Varianza o coeficiente de Variación es la variable aleatoria x tiene media μ = E(X) se define la varianza Var(X) (también representada como o, simplemente σ2) de X como

Desarrollando la definición anterior, se obtiene la siguiente definición alternativa (y equivalente):

Si una distribución no tiene esperanza, como ocurre con la de Cauch tampoco tiene varianza. Existen otras distribuciones que, aun teniendo esperanza, carecen de varianza. Un ejemplo de ellas es la de Pareto cuando su índice k satisface 1 < k ≤ 2.

1.5.4 Desviación estándar

La desviación estándar o desviación típica (σ) es una medida de centralización o dispersión para variables de razón (ratio o cociente) y de intervalo, de gran utilidad en la estadística descriptiva.

Se define como la raíz cuadrada de la varianza. Junto con este valor, la desviación típica es una medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable.

Page 16: 39151481 Desarrollo de El Temario

Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer también la desviación que representan los datos en su distribución respecto de la media aritmética de dicha distribución, con objeto de tener una visión de los mismos más acorde con la realidad a la hora de describirlos e interpretarlos para la toma de decisiones

La varianza representa la media aritmética de las desviaciones con respecto a la media que son elevadas al cuadrado.

Si atendemos a la colección completa de datos (la población en su totalidad) obtenemos la varianza poblacional; y si por el contrario prestamos atención sólo a una muestra de la población, obtenemos en su lugar la varianza muestral. Las expresiones de estas medidas son las que aparecen a continuación.

Expresión de la varianza muestral:

Segunda forma de calcular la varianza muestral:

Demostración

Podemos observar que como

(sumamos n veces 1 y luego dividimos por n)

y como

Page 17: 39151481 Desarrollo de El Temario

obtenemos

Expresión de la cuasivarianza muestral (estimador insesgado de la varianza poblacional):

Expresión de la varianza poblacional:

donde μ es el valor medio de {Xi}

Expresión de la desviación estándar poblacional:

El término desviación estándar fue incorporado a la estadística por Karl Pearson en 1894.

Por la formulación de la varianza podemos pasar a obtener la desviación estándar, tomando la raíz cuadrada positiva de la varianza. Así, si efectuamos la raíz de la varianza muestral, obtenemos la desviación típica muestral; y si por el contrario, efectuamos la raíz sobre la varianza poblacional, obtendremos la desviación típica poblacional.

Page 18: 39151481 Desarrollo de El Temario

Desviaciones estándar en una distribución normal.

Expresión de la desviación estándar muestral:

También puede ser tomada como

con a como y s como además se puede tener una mejor tendencia de medida al desarrollar las formulas indicadas pero se tiene que tener en cuenta la media, mediana y moda

1.6 Coeficiente de variación

En estadística el coeficiente de variación (de Pearson), es una medida de dispersión útil para comparar dispersiones a escalas distintas pues es una medida invariante ante cambios de escala. Sirve para comparar variables que están a distintas escalas pero que están correlacionadas estadísticamente y sustantivamente con un factor en común. Es decir, ambas variables tienen una relación causal con ese factor. Su fórmula expresa la desviación estándar como porcentaje de la media aritmética, mostrando una mejor interpretación porcentual del grado de variabilidad que la desviación típica o estándar. Por otro lado presenta problemas ya que a diferencia de la desviación típica este coeficiente es variable ante cambios de origen. Por ello es importante que todos los valores sean positivos y su media de por tanto un valor positivo. A mayor valor de C.V. mayor heterogeneidad de los valores de la variable; y a menor C.V., mayor homogeneidad en los valores de la variable. Suele representarse por medio de las siglas C.V..

Exigimos que:

Se calcula:

Page 19: 39151481 Desarrollo de El Temario

Donde σ es la desviación típica. Se puede dar en tanto por ciento calculando:

Propiedades y aplicaciones

El coeficiente de variación es típicamente menor que uno.

Para su mejor interpretación se lo expresa como porcentaje.

Depende de la desviación típica y en mayor medida de la media aritmética, dado que cuando ésta es 0 o muy próxima a este valor C.V. pierde significado, ya que puede dar valores muy grandes, que no necesariamente implican dispersión de datos.

El coeficiente de variación es común en varios campos de la probabilidad aplicada, como teoría de renovación y teoría de colas. En estos campos la distribución exponencial es a menudo más importante que la distribución normal. La desviación típica de una distribución exponencial es igual a su media, por lo que su coeficiente de variación es 1. Las distribuciones con un C.V. menor que uno, como la distribución de Erlang se consideran de "baja varianza", mientras que aquellas con un C.V. mayor que uno, como la distribución hiperexponencial se consideran de "alta varianza". Algunas fórmulas en estos campos se expresan usando el cuadrado del coeficiente de variación, abreviado como S.C.V. (por sus siglas en inglés).