estad._descriptiva

Upload: oscar-burgos-ortiz

Post on 07-Jan-2016

214 views

Category:

Documents


0 download

DESCRIPTION

ESTADISTICA DESCRIPTIVA UCSC

TRANSCRIPT

  • Medidas de posicin y de tendencia

    central.

    1

  • Media Poblacional

    Sea N=tamao de la poblacin

    11 2 ...

    N

    iiN

    xx x x

    N N =+ + += =

    2

  • Estimacin de la Media Poblacional

    La estimacin de la media aritmtica o simplemente promedio (tambin llamada media muestral ya que generalmente se calcula en relacin a una muestra) se calcula de la siguiente forma: si las observaciones de una muestra de tamao n son x1, x2,,xn entonces

    11 2 ...

    n

    iin

    xx x xX

    n nX

    =+ + += = ==

    3

  • Ejemplo

    Estimar la media de los pesos de los profesores de la PUJ- Cali si se tomo la muestra: 84, 91, 72, 68, 87 y 78 kg.

    4

    80X = =

  • MEDIANA

    se suele definir como el valor ms intermedio una vez que los datos han sido ordenados en forma creciente. Se suele denotar por Me. La forma ms general de calcular la mediana es la siguiente:

    ( )( )( ) ( )

    1 2

    2 ( 2) 1

    2

    n

    n n

    x si n es imparMe x x

    si n es par

    +

    +

    = +5

  • MEDIANA

    y La mediana es aquel valor que deja el cincuenta por ciento de los datos por debajo y otro cincuenta por encima.

    y Cabe destacar que es preferible el uso de la mediana como medida descriptiva del centro cuando se quiere reducir o eliminar el efecto de valores extremos en un conjunto de datos (muy grandes o muy pequeos).

    6

  • Ejemplo: encuentra la Mediana de la muestra: {12, 3 ,5}.

    Ponlos en orden: {3, 5, 12}, el nmero del medio es 5, entonces la mediana es 5.

    n=3 es impar, entonces la medianaes el dato que est en la posicin (n+1)/2=2.

    El dato en la posicin 2 (despus de ordenar) es 5

    7

  • Ejemplo: encuentra la Mediana de la muestra {12, 3 ,5, 2}.

    Ponlos en orden: {2, 3, 5, 12}, los nmeros del medio son 3 y 5, el promedio de 3 y 5 es 4, asque la mediana es 4.

    n=4 es par, entonces la mediana es el promedio de los datos

    en las posiciones (n/2) y (n/2+1). Las posiciones son:n/2=4/2=2

    n/2+1=4/2+1=2+1=3.L d t l i i 2 3 3 5

    8

  • CUARTILES

    Los cuartiles dividen en cuatro partes las observaciones.

    El primer cuartil Q1 es un valor de la variable que supera el 25% de las observaciones y es superado por el 75% de las observaciones.

    El Q2 es la mediana (50%).

    Q3 deja por debajo 75% y por encima 25% de las observaciones. 9

  • CUARTILES

    Mnimo MximoCuartil 1 Q1

    Cuartil 3 Q3

    MedianaCuartil 2 Q2

    25% 25% 25%25%

    25% 75%

    25%75%

    10

  • PERCENTILES

    Mnimo MximoPercentil 20 P20

    20% 80%

    11

  • DECILES

    Mnimo MximoDecil 2

    D2

    20% 80%

    12

  • PERCENTILES; DECILES,

    Mediana.

    Mnimo MximoP50D5Me

    50% 50%

    13

  • Sea Lp la posicin del percentil deseado, est dado por:

    donde n es el numero de datos y P el percentil

    ( 1)100p

    pL n= +

    14

    Procedimiento para el calculo de los percentiles

  • Ejemplo: Comisiones que gan el ultimo mes una muestra de corredores. Determinar: Mediana, Q1, Q3.

    2038 2406 22871940 20971758 14712311 20471721 14602054 22051637 1787

    15

    Procedimiento para el calculo de los percentiles

  • Ejemplo: Se deben ordenar los datos1)1460 8) 2038 15) 24062) 1471 9)20473)1637 10) 20544)1721 11) 20975)1758 12) 22056)1787 13)22877)1940 14) 2311

    16

    Procedimiento para el calculo de los percentiles

  • Ejemplo: a)Mediana=Q2 = P50 Determinar la posicin del P50 .

    El P50 est en la posicin 8, entonces P50 =2038.Mediana=2038 lo que significa que la mitad de

    los corredores obtienen comisiones mayores a 2038 y la mitad ganan menos que 2038. 17

    Procedimiento para el calculo de los percentiles

    5050(15 1) 8

    100L = + =

  • Diagrama de Caja y Bigotes

    18

    Un diagrama es una representacin grfica basada en cuartiles. Para construir el diagrama se necesitan 5 estadsticos:

    Mnimo.Primer Cuartil.Mediana.Tercer Cuartil.Mximo.

  • Diagrama de Caja y Bigotes

    Escala

    Q1 Q3mediana

    Mm

    19

    Rango intercuartil

  • Diagrama de Caja y Bigotes

    20

    Rango intercuartil: Distancia entre 1 y 3 cuartil: Q3 - Q1

    Dato atpico: Es un valor mayor a 1.5 veces la amplitud del rango intercuartil mas pequeo que Q1 o mayor que Q3.

  • Diagrama de Caja y Bigotes

    21

    1

    0

    0

    2

    0

    0

    3

    0

    0

    4

    0

    0

    5

    0

    0

    6

    0

    0

    x

    Grafico No 9: Deuda (dlares) que tienen los trabajadores de la empresa DD con el banco BBB en la ciudad de Cali en el ao 2009.

    El 50% de los trabajadores deben entre 180 y 320 dlares. El 25% de los trabajadores deben mas de 320 dlares y otro 25% deben menos de 180 dlares. La deuda menor de los trabajadores de 100 dlares y la deuda mayor de un trabajador es 600 dlares

    Salida de software R

  • Diagrama de Caja y Bigotes

    22

    1

    0

    0

    2

    0

    0

    3

    0

    0

    4

    0

    0

    5

    0

    0

    6

    0

    0

    x

    Grafico No 9: Deuda (dlares) que tienen los trabajadores de la empresa DD con el banco BBB en la ciudad de Cali en el ao 2009.

    El 50% de los trabajadores deben entre 180 y 320 dlares. El 25% de los trabajadores deben mas de 320 dlares y otro 25% deben menos de 180 dlares. La deuda menor de los trabajadores de 100 dlares y la deuda mayor de un trabajador es 600 dlares

    Salida de software R

  • 23

    2

    0

    0

    0

    2

    5

    0

    0

    3

    0

    0

    0

    S

    .

    A

    m

    e

    r

    m:Mnimo: 2568.0Q1 :Cuartil 1: 2631.5Me:Mediana: 2845.0Q3 :Cuartil 3: 3072.5M:Mximo: 3338.0

    Rango intercuartil (RI): 3072.5- 2631.5=441Datos atpicos son cantidades mayores a: Q3+1.5* RI3072.5+1.5*441=3734 (el mximo es 3338 es menor a 3734, por tanto NO es dato atpico)Datos atpicos son cantidades menores a: Q1-1.5* RI2631-1.5*441=1969.5 (el mnimo es 1500 es menor a 1969, por tanto es dato atpico)

    Diagrama de Caja y Bigotes

    Dato atpico.

  • 24

    0

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    1

    2

    9

    7

    5

    9

    3

    8

    8

    9

    1

    1

    8

    5

    1

    4

    8

    1

    1

    7

    7

    7

    2

    0

    7

    3

    2

    3

    6

    9

    2

    6

    6

    5

    2

    9

    6

    1

    3

    2

    5

    7

    3

    5

    5

    3

    3

    8

    4

    9

    4

    1

    4

    5

    4

    4

    4

    1

    4

    7

    3

    7

    5

    0

    3

    3

    5

    3

    2

    9

    5

    6

    2

    5

    5

    9

    2

    1

    6

    2

    1

    7

    6

    5

    1

    3

    6

    8

    0

    9

    7

    1

    0

    5

    7

    4

    0

    1

    7

    6

    9

    7

    VALORES CORRESPONDIENTES A

    UNA OSCILACION DIARIA ?????

  • 25

    VALORES CORRESPONDIENTES A

    UNA OSCILACION DIARIA ?????

    BOX PLOT

    Median = 1.2765 25%-75% = (1.008, 1.615) Non-Outlier Range = (0.098, 2.523) Outliers Extremes

    Var2-0.5

    0.0

    0.5

    1.0

    1.5

    2.0

    2.5

    3.0

    3.5

  • 26

    0

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    1

    2

    9

    7

    5

    9

    3

    8

    8

    9

    1

    1

    8

    5

    1

    4

    8

    1

    1

    7

    7

    7

    2

    0

    7

    3

    2

    3

    6

    9

    2

    6

    6

    5

    2

    9

    6

    1

    3

    2

    5

    7

    3

    5

    5

    3

    3

    8

    4

    9

    4

    1

    4

    5

    4

    4

    4

    1

    4

    7

    3

    7

    5

    0

    3

    3

    5

    3

    2

    9

    5

    6

    2

    5

    5

    9

    2

    1

    6

    2

    1

    7

    6

    5

    1

    3

    6

    8

    0

    9

    7

    1

    0

    5

    7

    4

    0

    1

    7

    6

    9

    7

    VALORES CORRESPONDIENTES A

    UNA OSCILACION DIARIA ?????

    NIVEL DEL MAR27/2

  • Moda:

    Es una medida de tendencia central que se puede utilizar sea cual sea el tipo de variable a estudiar. La moda de un conjunto de observaciones es el valor que ms se repite, aquel cuya frecuencia absoluta es mxima. Puede ser nica, que haya ms de una, o que no exista.

    27

  • Ejemplo: Determinar la moda 3, 7, 5, 13, 20, 23, 39, 23, 40, 23, 14, 12, 56, 23, 29

    Ordnalos3, 5, 7, 12, 13, 14, 20, 23, 23, 23, 23, 29, 39, 40, 56As es ms fcil ver qu nmeros aparecen ms veces. En este caso la moda es 23.

    28

  • Medidas de Dispersin.

    29

  • Se puede decir que un conjunto de datos tiene una dispersin reducida si los mismos se aglomeran estrechamente en torno a alguna medida de localizacin de inters y se dice que tiene una dispersin grande si se esparcen ampliamente alrededor de alguna medida de localizacin de inters.

    Medidas de Dispersin.

  • Las medidas descriptivas ms comunes de dispersin son: el rango, la varianza, la desviacin estndar y el rango intercuartlico.

    Medidas de Dispersin.

  • El rango

    El rango de la muestra es la medida de variabilidad ms sencilla entre todas las mencionadas; y se define como la diferencia entre la observacin ms grande y la ms pequea :

    R M m=

  • Aunque es una medida muy fcil de calcular, ignora toda la informacin de la muestra entre las observaciones ms grande y ms pequea. Sin embargo, vale la pena resaltar que el rango se utiliza mucho en aplicaciones estadsticas al control de calidad, donde lo comn es emplear muestras con tamaos n = 4 o n = 5 ya que en estos casos la prdida de informacin no se considera relevante

    El rango

  • En general, se desea una medida de variabilidad que dependa de todas las observaciones y no slo de unas pocas; as que parece razonable medir la variacin en trminos de las desviaciones relativas a alguna medida de localizacin (generalmente esta medida es la media)

    El rango

  • Para el conjunto de datos x1, x2,.,xn Las diferencias Determinan las desviaciones de la media.Dado que la suma de estas desviaciones es cero, se utiliza como medida de variabilidad el promedio de los cuadrados de tales desviaciones.

    )(),.....,(),( 21 xxxxxx n

    Desviaciones de la Media

  • Sin embargo, como slo hay n-1 desviaciones independiente se conviene en dividir entre n-1, es decir,

    n

    xxs

    n

    ii

    =

    = 12

    2)(

    Estimacin de la varianza.

  • Esta ltima ser la frmula que emplearemos.

    2

    2 1( )

    12

    n

    ii

    x xS

    n = = = Estimacin de la varianza.

  • Varianza y Desviacin

    La varianza ser estimada por S2 . La varianza no tiene las mismas unidades que los datos, se define la desviacin estndar como la raz cuadrada (positiva) de la varianza a fin de tener una medida en las mismas unidades de los datos;

    La desviacin estndar es til para comparar dispersin entre dos poblaciones, pero tambin lo es para calcular el porcentaje de la poblacin que pueden localizarse a menos de una distancia especfica de la media.

    2

    2 =

  • VARIANZA Y DESVIACIN POBLACIONAL

    2

    2 1( )

    n

    ii

    x

    N

    =

    =

    39

    2

    1( )

    n

    ii

    x

    N

    =

    =

  • Estimacin de la VARIANZA y DESVIACIN POBLACIONAL

    2

    2 2 1( )

    1

    n

    ii

    x xs

    n =

    = =

    40

    2

    1( )

    1

    n

    ii

    x xs

    n =

    = =

  • Estimacin de la VARIANZA y DESVIACIN POBLACIONAL

    41

    12 20 16 18 19 175

    x + + + += =

    Ejemplo: Los salarios por horas de las muestras de empleados de medio tiempo de BBB son: 12, 20, 16, 18, 19.

    Estimar la varianza y la desviacin poblacional.

    Solucin:1) Estimar la media con el promedio.

  • Estimacin de la VARIANZA y DESVIACIN POBLACIONAL

    42

    x x

    2) Estimar la varianza.

    Salario(x)12 -5 2520 3 916 -1 118 1 119 2 485 0 40

    ( )2x x ( )5 22 2 1 40 10

    1 5 1

    ii

    x xs

    n =

    = = = =

    SUMA

  • Estimacin de la VARIANZA y DESVIACIN POBLACIONAL

    43

    2) Estimar la desviacin.

    El salario por horas se desva de la media, en promedio, unidades de la media de 17 dlares por hora.

    10s = =10

  • 44150 160 170 180 190

    0

    .

    0

    0

    0

    .

    0

    1

    0

    .

    0

    2

    0

    .

    0

    3

    0

    .

    0

    4

    0

    .

    0

    5

    150 160 170 180 190

    25% 25% 25% 25%

    Mn. P25 P50 P75 Mx.

    Rango intercuartlico

    Rango

    Medidas de dispersin

  • 45

    Cierta distribucin que veremos ms adelante (normal o gaussiana) quedar completamente determinada por la media y la desviacin tpica.

    A una distancia de una desv. tpica de la media hay ms de la ms de la mitad.

    A una distancia de dos desv. tpica de la media las tendremos casi todas.

    Peso recin nacidos en partos gemelares

    3.300

    2.900

    2.500

    2.100

    1.700

    1.300

    900

    500

    50

    40

    30

    20

    10

    0

    Desv. tp. = 568,43

    Media = 2023

    N = 407,00

  • 46

    Centrado en la MEDIA y a una DESVIACIN TIPICA de distancia hay aproximadamente el 68% de las observaciones.

    A dos desviaciones tpicas tenemos el 95% (aprox.)

    150 160 170 180 190

    0

    .

    0

    0

    0

    .

    0

    1

    0

    .

    0

    2

    0

    .

    0

    3

    0

    .

    0

    4

    0

    .

    0

    5

    xs68.5 %

    150 160 170 180 190

    0

    .

    0

    0

    0

    .

    0

    1

    0

    .

    0

    2

    0

    .

    0

    3

    0

    .

    0

    4

    0

    .

    0

    5

    x 2s95 %

    Regla emprica

  • 47

    Es la razn entre la desviacin tpica y la media. Mide la desviacin tpica en forma de qu tamao tiene con

    respecto a la media

    Tambin se la denomina variabilidad relativa.

    Es frecuente mostrarla en porcentajes Si la media es 80 y la desviacin tpica 20 entonces

    CV=20/80=0,25=25% (variabilidad relativa)

    xSCV =

    Coeficiente de variacin

  • 48

    Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables. Si el costo tiene CV=30% y la ganancia tiene CV=10%,

    las empresas presentan ms dispersin en el costo que en ganancia.

    No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente Por ejemplo 0C 0F

    Coeficiente de variacin

  • Graficas de tallo y hojas

    49

    Ejemplo: Nmero de espacios publicitarios de 30 segundos en la radio que compr cada uno de los 45 Miembros de GBA. Organizar los datos en diagrama de tallo.

    96 93 88 117 127 95 113 96 108 94 148 156139 142 94 107 125 155 155 103 112 127 117 120112 135 132 111 125 104 106 139 134 119 97 89118 136 125 143 120 103 113 124 138

  • Graficas de tallo y hojas

    50

    Tallo Hoja

    8 899 635644710 87346311 73272198312 7570550413 952946814 82315 655

    Tallo Hoja

    8 899 344566710 33467811 12233778912 0045557713 245689914 23815 556

    Grafico No 10: Nmero de espacios publicitarios de 30 segundos en la radio que compraron 45 miembros de GBA en el ao 2009.

  • Graficas de tallo y hojas

    51

    Tallo Hoja

    8 899 344566710 33467811 12233778912 0045557713 245689914 23815 556

    Salida de software R

  • Graficas de tallo y hojas

    52

    Ejemplo: Construir un grafico de tallo y hojas.Data: 1, 3, 2, 5, 2, 2, 0, 1, 3, 1

  • Graficas de tallo y hojas

    53

    Ejemplo: Construir un grafico de tallo y hojas.Data:18 19 29 12 18 15 16 20 17 1122 17 13 16 20 8 21 24 15 19 12 10 16 16 12

  • Graficas de tallo y hojas

    54

    Ejemplo: Construir un grafico de tallo y hojas.Data: 46 38 50 35 32 44 41 35 29 39 42 38 39 42 39 4 44 45 38 51 35 62 44 43 37

  • Diagrama de puntos o de dispersin.

    55

    Es una tcnica til para mostrar relacin entre variables, para trazar el diagrama se necesitan dos variables, se escala una variable sobre el eje X y la otra sobre el eje Y.

    Por lo general una variable depende de la otra.

  • Diagrama de puntos o de dispersin.

    56

    T costo Tiempo uso1 118 301 484 581 664 871 1004 1151 1231 1201 1372 1421 1582 1452 118 332 484 692 664 1112 1004 1562 1231 1722 1372 2032 1582 2033 118 303 484 513 664 753 1004 1083 1231 1153 1372 1393 1582 1404 118 324 484 624 664 1124 1004 1674 1231 1794 1372 2094 1582 2145 118 305 484 495 664 815 1004 1255 1231 1425 1372 1745 1582 177

    Grafico No 11: Costo del auto y tiempo de uso en aos.

    El diagrama muestra relacin positiva entre las variables. Entre mas costo del auto mayor tiempo de servicio.

    Costo

    T

    i

    e

    m

    p

    o

    .

    u

    s

    o

    50

    100

    150

    200

    500 1000 1500

  • Diagrama de puntos o de dispersin.

    57

    Grafico No 12: Errores tipiando y Horas del da trabajadas.

    El diagrama muestra relacin positiva entre las variables. Entre mas horas trabajadas mayor el nmero de errores

  • Correlacin Fuerte

    58

  • Correlacin Dbil

    59

  • Correlacin

    60

  • Correlacin

    61

  • Correlacin

    62