percentiles

6

Click here to load reader

Upload: gagbgagb

Post on 09-Jun-2015

37.292 views

Category:

Documents


4 download

DESCRIPTION

Fórmula para hallar los percentiles para datos no agrupados.

TRANSCRIPT

Page 1: Percentiles

Cálculo de los percentiles con datos no agrupados

Suele existir mucha confusión entre los estudiantes cuando se les habla de

percentiles o de cuantiles. Para aclarar el concepto recordemos (y esto es fundamental)

que disponemos de un conjunto de puntuaciones empíricas de tamaño (forzosamente)

finito. Así, por ejemplo, cuando realizamos mediciones de la “flexibilidad perceptiva”

de un grupo de sujetos tendremos que fijar un número de sujetos máximo: 100, 200,...

Este número nunca podrá ser infinito. Cada observación o medición nos dará un número

(el sujeto número1 tendrá flexibilidad perceptiva en el test de 15, el segundo de 14, el

tercero de 25,...). Los datos los podemos graficar inicialmente mediante un diagrama de

puntos para tener una idea aproximada de cómo se distribuyen. Supongamos que los

datos que tenemos son:

}9,9,9,10,3,2,15,1,7,5,3{

}9,9,9,10,3,2,15,1,7,5,3{ 1110987654321

============= xxxxxxxxxxxdatos

Observemos aquí que el subíndice que acompaña a cada puntuación indica

simplemente el sujeto (el primer sujeto, el segundo, el tercero,..., el onceavo).

Veamos su gráfica de puntos:

Para calcular un percentil con estos datos debemos inicialmente pasar el

percentil a proporción. Así, si nos piden calcular el percentil 32 lo dividimos por 100 y

obtendremos que tenemos que calcular el cuantil 0,32. A este valor le llamaremos p (p =

0,32 en nuestro ejemplo). El valor de p tiene que estar entre 0 y 1 (mientras que el

percentil tiene que estar entre 0 y 100). Para calcular este cuantil tenemos que hacer lo

siguiente:

Page 2: Percentiles

1º paso. Ordenamos los elementos de la muestra obteniendo así lo que llamamos

“estadísticos de orden”. Los representaremos poniendo el subíndice (que en este caso

indica no el número de sujeto sino el orden de la puntuación) entre paréntesis:

},,

,,,,,,,,{_

},,,,,,,,,,{

},,,,,,,,,,{

)()()(

)()()()()()()()(

15109

99753321

9991032151753

9991032151753

11109

87654321

1110987654321

===

==========

============

xxx

xxxxxxxxordenadosdatos

xxxxxxxxxxxdatos

Tenemos los mismos datos que antes pero ordenados. Ahora el subíndice indica el

orden, no el sujeto.

2º paso.- Si el producto entre el cuantil y el número de datos (n ∏ p) no pertenece a los

números naturales (1, 2, 3,....) y sabiendo que cuando encerramos a un número entre

corchetes estamos significando su parte entera tendremos que aplicar la siguiente

fórmula:

[ ] )( 1+⋅= pnp xc

En nuestro ejemplo tenemos n = 11 (el tamaño de la muestra) y p = 0,32. El producto de

ambos es n ∏ p = 11 ∏ 0,32 = 3,52. Este número (3,52) no pertenece a los números

naturales y por tanto tendremos que calcular la parte entera de 3,52. En este caso es

simplemente 3 (le quitamos los decimales). Ahora le sumamos la unidad (tal y como

nos indica la fórmula anterior) y tenemos 4. ¿Cuál es el número que ocupa la posición 4,

o simbólicamente x(4)? En la tabla de datos ordenados vemos que es igual a 3. Entonces

3 es el cuantil 0,32 de estos datos (y el percentil 32 es 3).

Podemos calcular el cuantil para todos los valores desde p = 0.0 hasta

p = 1.0. Una representación gráfica de este cálculo puede verse a continuación (en ella

he representado mediante una flecha verde el cuantil p = 0.32 que hemos calculado

anteriormente y el valor obtenido Cp=0.32 = 3 mediante una flecha roja):

Page 3: Percentiles

Es muy interesante observar dos cosas en esta gráfica. En primer lugar, hay un

buen número de valores de p que tienen el mismo Cp. Así por ejemplo, puede verse en

la grafica que para valores de p entre, aproximadamente, 0.20 y 0.35 tienen todos el

mismo Cp = 3. Todas las líneas horizontales de la gráfica son puntos de p que tienen el

mismo Cp. En segundo lugar ¿a qué se corresponden las líneas rojas en el eje de

ordenadas Cp? Veamoslo.

Page 4: Percentiles

Claramente podemos ver que se corresponde con los datos que tenemos (1,2, 3,

5, 7, 9, 10 y 15). ¿Y donde se representa el hecho de que en los datos originales

teníamos el número 9 tres veces o el 3 dos veces? En la longitud de la línea horizontal.

Vemos que el 9 tiene una longitud superior, v.g., al 2.

3º paso. Pero si el producto n ∏ p es un número entero entonces tendremos que aplicar

esta otra fórmula:

21)()( +⋅⋅ +

= pnpnp

xxc

Simplemente calculamos la semisuma (la suma dividida por la mitad) de los

estadísticos de orden que ocupan la posición n ∏ p y (n ∏ p) +1.

Para poner un ejemplo de este caso he tenido que modificar los datos anteriores.

Para ello he eliminando x(11) y tenemos otro conjunto de datos al que he denominado

(para diferenciarlo del anterior conjunto de datos) “datosO”.

},

,,,,,,,,{_

},,,,,,,,,{

},,,,,,,,,{

)()(

)()()()()()()()(

109

99753321

99910321753

99910321753

109

87654321

10987654321

==

==========

===========

xx

xxxxxxxxordenadosdatosO

xxxxxxxxxxdatosO

Si nos piden calcular el centil 0,60 (Percentil 60) observamos que

n=10, p=0,60, n∏p=6

En consecuencia n ∏ p SÍ pertenece a los números naturales y ahora tenemos que aplicar

la segunda parte de la fórmula:

82

97

2166 =+=

+= + )()( xx

cp

El centil 0,60 es X = 8 (y el percentil 60 es 8).

Veamos la gráfica de centiles de estos datos:

Page 5: Percentiles

Ahora está claro la razón por la que calculamos la semisuma. Para un p = 0.60

tenemos un salto en la función. Cualquier valor entre 7 y 9 sería un valor de Cp para

p = 0.60. Ante este problema hemos de optar por un compromiso. Ese compromiso es

simplemente la media del valor máximo (9) y el mínimo (7) para p=0.60. Eso es lo que

representa la función anterior. Es por ello también que hablamos de percentiles

interpolados.

OTRO PLANTEAMIENTO

(más sencillo pero menos formal)

Desde otro punto de vista es fácil comprender porqué no se ha incluído en el

libro de texto de Análisis de Datos I la definición de Percentil para datos no agrupados.

La definición de percentil, como medida de posición, es la siguiente: dada una

puntuación de la variable X se nos pide determinar el porcentaje de casos (o sujetos) en

un conjunto de datos que tienen puntuaciones inferiores o iguales a un valor concreto de

X.

Pongamos un ejemplo con los datos “datos0”. Recordemos que los datos eran:

Page 6: Percentiles

},

,,,,,,,,{_

},,,,,,,,,{

},,,,,,,,,{

)()(

)()()()()()()()(

109

99753321

99910321753

99910321753

109

87654321

10987654321

==

==========

===========

xx

xxxxxxxxordenadosdatosO

xxxxxxxxxxdatosO

¿Qué porcentaje de casos quedan por debajo o son iguales con respecto a una

puntuación de X igual a 8 . La respuesta a esta pregunta puede realizarse haciendo una

simple regla de tres:

Casos Porcentaje

10 es el total Ø 100 %

Xi § 8? = 6 Ø X %

En primer lugar calculamos el número de casos del vector “datosO” que tienen

puntuaciones inferiores o iguales a 8. Obtenemos que son 6 puntuaciones (las

puntuaciones 1, 2, 3, 3, 5, 7). ¿De 10 puntuaciones totales que tenemos, qué porcentaje

representan estas 6 puntuaciones?

X = 600 / 10 = 60 % y esto es justamente lo que hemos calculado anteriormente

utilizando cuantiles. El percentil 60 es la puntuación 8. Esto se desprende

(implícitamente) de la frase (pág. 131 del texto): “ P54 simboliza la puntuación que deja

por debajo de sí al 54 por ciento de las observaciones...”

Un saludo.

José M. Reales, profesor de Análisis de Datos I