tema 03 dacuesta estadistica descriptiva unidimensional
TRANSCRIPT
BIOESTADISTICA
Departamento de Epidemiología, Medicina
Preventiva, Análisis crítico y Metodología de la
investigación
Universidad Católica de Valencia San Vicente Mártir
Facultad de Medicina
ESTADÍSTICA APLICADAOdontología (OD1)
Departamento de EpidemiologDepartamento de Epidemiologíía, a,
AnAnáálisis critico y Metodologlisis critico y Metodologíía de la investigacia de la investigacióónn
BIOESTADISTICA
� Tema 3: Estadística Descriptiva
Departamento de EpidemiologDepartamento de Epidemiologíía, a,
AnAnáálisis critico y Metodologlisis critico y Metodologíía de la investigacia de la investigacióónn
OBJETIVOS DEL TEMA:OBJETIVOS DEL TEMA:
1.1. Conocer como se produce la recopilaciConocer como se produce la recopilaci óón y tabulacin y tabulaci óón de los datos.n de los datos.
2.2. Representar grRepresentar gr ááficamente datos de variables categficamente datos de variables categ óóricas: Diagramas de Barras y ricas: Diagramas de Barras y
Sectores.Sectores.
3.3. Conocer y Calcular los estadConocer y Calcular los estad íísticos descriptivos de tendencia central, variabili dad, sticos descriptivos de tendencia central, variabili dad,
forma y posiciforma y posici óón. n.
4.4. Representar grRepresentar gr ááficamente datos de variables continuas: polficamente datos de variables continuas: pol íígonos de frecuencias, gonos de frecuencias,
histogramas, grhistogramas, gr ááfico de caja y bigotes, grfico de caja y bigotes, gr ááfico de tallo y hojas.fico de tallo y hojas.
5.5. Conocer la terminologConocer la terminolog íía ma méédica especifica en la que se aplican proporciones, tasas y dica especifica en la que se aplican proporciones, tasas y
ratios. Calcular proporciones, tasas y ratios a par tir de datos ratios. Calcular proporciones, tasas y ratios a par tir de datos proporcionados.proporcionados.
BIOESTADISTICADepartamento de EpidemiologDepartamento de Epidemiologíía, a,
AnAnáálisis critico y Metodologlisis critico y Metodologíía de la investigacia de la investigacióónn
GuiGuióón:n:
1.1. IntroducciIntroduccióón a la estadn a la estadíística descriptivastica descriptiva..
2.2. OrganizaciOrganizacióón de los datos: Tablas de Frecuencias.n de los datos: Tablas de Frecuencias.
3.3. RepresentaciRepresentacióón Grafica de Variables Categn Grafica de Variables Categóóricas.ricas.
4.4. EstadEstadíísticos descriptivos de Variables Continuas.sticos descriptivos de Variables Continuas.
5.5. RepresentaciRepresentacióón Grafica de Variables Continuas.n Grafica de Variables Continuas.
� Tema 3: Estadística Descriptiva
BIOESTADISTICA
¿¿CuCuáál es el campo de la estadl es el campo de la estadíística?stica?
La estadLa estadíística trata de la variabilidad de las situaciones de la vida stica trata de la variabilidad de las situaciones de la vida
cotidiana. Esta variabilidad implica incertidumbre.cotidiana. Esta variabilidad implica incertidumbre.
Se sabe que “fumar provoca cáncer”. Fumar no causa cáncer del mismo modo que al golpear una bola de billar con otra, ésta última se
mueva. Mucha gente fuma mucho durante mucho tiempo y no desarrolla cáncer. La formación de cáncer como consecuencia de
fumar no es una consecuencia invariable sino que ocurre sólo algunas veces. Los datos recogidos para examinar la asociación entre fumar y tener cáncer debe ser analizada reconociendo un resultado incierto y
variable.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
El campo de la EstadEl campo de la Estadíística tiene que ver con la stica tiene que ver con la
recopilacirecopilacióón, presentacin, presentacióón, ann, anáálisis y uso de lisis y uso de datosdatos
para tomar decisiones y resolver problemas.para tomar decisiones y resolver problemas.
Todos recibimos informaciTodos recibimos informacióón en forma de datos y a n en forma de datos y a
menudo es necesario menudo es necesario extraer conclusiones extraer conclusiones a partir de a partir de
la informacila informacióón contenida en los mismos.n contenida en los mismos.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Las herramientas de la estadLas herramientas de la estadíística tienen por objetivo el stica tienen por objetivo el
ayudarnos a generar, recopilar y analizar los datos ayudarnos a generar, recopilar y analizar los datos
referentes a un problema de interreferentes a un problema de interéés, con el fin de s, con el fin de
extraer la informaciextraer la informacióón n úútil til contenida en dichos datos.contenida en dichos datos.
El primer paso en el anEl primer paso en el anáálisis estadlisis estadíístico de los datos stico de los datos
consiste en la consiste en la descripcidescripcióónn de los mismos, de los mismos,
organizando la informaciorganizando la informacióón contenida de manera que n contenida de manera que
el usuario pueda aprehenderla con la mayor facilidad.el usuario pueda aprehenderla con la mayor facilidad.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
El El ananáálisis descriptivo lisis descriptivo consiste en la tabulaciconsiste en la tabulacióón de los n de los
datos, la generacidatos, la generacióón de unos pocos estadn de unos pocos estadíísticos sticos
capaces de capturar las principales caractercapaces de capturar las principales caracteríísticas de sticas de
los datos y la elaboracilos datos y la elaboracióón de grn de grááficos adecuados.ficos adecuados.
La descripciLa descripcióón de un conjunto de datos a travn de un conjunto de datos a travéés de un s de un
nnúúmero reducido de estadmero reducido de estadíísticos y representaciones sticos y representaciones
grgrááficas adecuadas se conoce como ficas adecuadas se conoce como EstadEstadíística stica
DescriptivaDescriptiva..
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
• Tablas• Gráficos• Estadísticos
•• TablasTablas•• GrGr ááficosficos•• EstadEstadíísticossticos
DatosDatos
DecisionesDecisiones
InformaciónInformación
Las herramientas de la estadística descriptiva (tablas, gráficos y estadísticos) nos ayudan a extraer la información “oculta” en los datos, asistiéndonos en la toma de decisiones.
Las herramientas de la estadística descriptiva (tablas, gráficos y estadísticos) nos ayudan a extraer la información “oculta” en los datos, asistiéndonos en la toma de decisiones.
EstadEstadíística Descriptivastica Descriptiva
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICADepartamento de EpidemiologDepartamento de Epidemiologíía, a,
AnAnáálisis critico y Metodologlisis critico y Metodologíía de la investigacia de la investigacióónn
GuiGuióón:n:
1.1. IntroducciIntroduccióón a la estadn a la estadíística descriptiva.stica descriptiva.
2.2. OrganizaciOrganizacióón de los datos: Tablas de Frecuencias.n de los datos: Tablas de Frecuencias.
3.3. RepresentaciRepresentacióón Grafica de Variables Categn Grafica de Variables Categóóricas.ricas.
4.4. EstadEstadíísticos descriptivos de Variables Continuas.sticos descriptivos de Variables Continuas.
5.5. RepresentaciRepresentacióón Grafica de Variables Continuas.n Grafica de Variables Continuas.
� Tema 3: Estadística Descriptiva
BIOESTADISTICA
¿¿CCóómo podemos representarlos de forma mo podemos representarlos de forma úútil?til?
¿¿CCóómo descubrir estructuras en un montmo descubrir estructuras en un montóón de datos desnudos?n de datos desnudos?
¿¿CCóómo resumir de forma bmo resumir de forma báásica los datos?sica los datos?
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Lo primero que necesitamos son unos cuantos datos Lo primero que necesitamos son unos cuantos datos para analizarpara analizar……... ...
Tema 3: Estadstadíística Descriptivastica Descriptiva
Se ha recogido una muestra de Se ha recogido una muestra de 82 estudiantes midiendo su peso 82 estudiantes midiendo su peso
en librasen libras
Sexo Peso (Libras) Sexo Peso (Libras)Hombre 140 Hombre 140Hombre 145 Hombre 145Hombre 160 Hombre 160Hombre 190 Hombre 190Hombre 155 Hombre 155Hombre 165 Hombre 165Hombre 150 Hombre 150Hombre 190 Hombre 190Hombre 195 Hombre 195Hombre 138 Hombre 138Hombre 160 Hombre 160Hombre 155 Hombre 155Hombre 153 Hombre 153Hombre 145 Hombre 145Hombre 170 Hombre 170Hombre 175 Hombre 175Hombre 175 Hombre 175Hombre 180 Hombre 180Hombre 135 Hombre 135Hombre 170 Hombre 170Hombre 157 Hombre 157Hombre 130 Hombre 130Hombre 185 Hombre 185Hombre 190 Hombre 190
BIOESTADISTICA
Esos datos se pueden resumir agrupando los Esos datos se pueden resumir agrupando los individuos en cada pesoindividuos en cada peso
Tema 3: Estadstadíística Descriptivastica Descriptiva
Peso (Libras) Cuenta de Peso (Libras)102 1108 2110 2112 1115 1116 2118 1120 3121 1123 1125 6130 4131 1133 1135 3136 1138 2140 3142 1145 5150 9153 1155 8157 1160 4164 1165 1170 2175 2180 3185 1190 4195 2215 1
Total general 82
BIOESTADISTICA
Esos datos se pueden resumir aun mas convirtiendo el Esos datos se pueden resumir aun mas convirtiendo el peso en una variable categpeso en una variable categóórica (Categorrica (Categoríías de peso)as de peso)
Tema 3: Estadstadíística Descriptivastica Descriptiva
Categoria Estudiantes
<120 10
120-140 23
140-160 28
160-180 10
180-200 10
>200 1
Total general 82
BIOESTADISTICA
Esos datos se pueden resumir aun mas convirtiendo el Esos datos se pueden resumir aun mas convirtiendo el peso en una variable categpeso en una variable categóórica (Categorrica (Categoríías de peso)as de peso)
Tema 3: Estadstadíística Descriptivastica Descriptiva
Cat
egor
ia
Fre
cuen
cia
Abs
olut
a
Fre
cuen
cia
Abs
olut
a A
cum
ulad
a
Fre
cuen
cia
Rel
ativ
a
Fre
cuen
cia
Rel
ativ
a A
cum
ulad
a
<120 10 10 12,20% 12,20%120-140 23 33 28,05% 40,24%140-160 28 61 34,15% 74,39%160-180 10 71 12,20% 86,59%180-200 10 81 12,20% 98,78%
>200 1 82 1,22% 100,00%Total general 82 82 100,00% 100,00%
BIOESTADISTICA
•• Una tabla de frecuencia o distribuciUna tabla de frecuencia o distribucióón de frecuencias n de frecuencias
simple, muestra los resultados de la tabulacisimple, muestra los resultados de la tabulacióón de una n de una
serie de observaciones (frecuencia) en cada nivel o valor serie de observaciones (frecuencia) en cada nivel o valor
de la variable.de la variable.
•• Su aspecto no difiere para variables numSu aspecto no difiere para variables numééricas ricas
(discretas o continuas medidas en cualquier escala (discretas o continuas medidas en cualquier escala
(intervalo o raz(intervalo o razóón), las categn), las categóóricas o cualitativas (en ricas o cualitativas (en
escala nominal) o las ordinales.escala nominal) o las ordinales.
Tablas de frecuencias: DefiniciTablas de frecuencias: Definicióónn
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Tablas de frecuenciasTablas de frecuencias
Supongamos que conocemos el valor que toma una variable X Supongamos que conocemos el valor que toma una variable X
para cada uno de los n individuos de una poblacipara cada uno de los n individuos de una poblacióón. Si los I n. Si los I
posibles valores de la variable (modalidades) son {x1, x2, posibles valores de la variable (modalidades) son {x1, x2, ……, ,
xIxI}, definimos, para cada modalidad }, definimos, para cada modalidad xixi,,
Frecuencia absoluta ni: Frecuencia absoluta ni: NNºº de individuos con dicha modalidad.de individuos con dicha modalidad.
FrecuenciaFrecuencia absoluta acumulada Ni:absoluta acumulada Ni: nnºº de individuos con de individuos con
modalidad menor o igual a modalidad menor o igual a xixi y se calcula acumulando las y se calcula acumulando las
frecuencias absolutas hasta la ifrecuencias absolutas hasta la i--éésimasima, es decir, es decir……
Ni = n1 + n2 + Ni = n1 + n2 + …… + ni.+ ni.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Tablas de frecuenciasTablas de frecuencias
Frecuencia relativa Frecuencia relativa fifi:: es el cociente entre ni y n y se es el cociente entre ni y n y se
corresponde con la proporcicorresponde con la proporcióón de individuos que presentan la n de individuos que presentan la
modalidad modalidad xixi..
Frecuencia relativa acumulada Frecuencia relativa acumulada FiFi:: es el cociente entre Ni y n y es el cociente entre Ni y n y
se corresponde con la proporcise corresponde con la proporcióón de los individuos que n de los individuos que
presentan una modalidad menor o igual a presentan una modalidad menor o igual a xixi..
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Tablas de frecuencias. FTablas de frecuencias. Fóórmulasrmulas
Hay ni individuos, de un total de n, que verifican la modalidad xi
n
nf ii = ∑
=
=+++=i
jjii nnnnN
121 Λ
∑=
=+++=+++==i
jji
iii ffff
n
nnn
n
NF
121
21 ΛΛ
Frecuencia relativa Frecuencia absoluta acumulada
Frecuencia relativa acumulada
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
NotaciNotacióón para datos organizados (mn para datos organizados (máás frecuente)s frecuente)
xi ni Ni f i F i
34 2 2
35 6 8
36 7 15
37 7 22
38 12 34
… … …
n = Σni ,
f i= ni/n
la suma de todas las frecuencias observadas da la muestra de observación
El nº de observaciones en un valor de la variable dividida por total de observaciones da la proporción de observaciones en ese valor de la variable
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
En una encuesta realizada sobre una población de 1509 familias se ha tabulado, entre otras variables, el número de hijos, obteniéndose:
x i n i
0 4191 2552 3753 2154 1275 546 247 23>7 17
1509
N i
419674
1049126413911445146914921509
f i
0,2780,1690,2490,1420,0840,0360,0160,0150,011
F i
0,2780,4470,6950,8380,9220,9580,9730,9891,000
Hay 1264 familias con 3 o menos hijos.
El 24,9% de las familias tiene 2 hijos.
El 92,2% de las familias tiene 4 o menos hijos.
Para variables cuantitativas continuas, o discretas con un número elevado de modalidades, se agrupan estas en intervalos o clases, empleando la marca de clase (centro del intervalo) como valor representativo para todo el intervalo.
Tablas de frecuencias, datos sin agruparTablas de frecuencias, datos sin agrupar
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Procedimiento para agrupar datos (I)Procedimiento para agrupar datos (I)
1. ¿Cuántos intervalos debe haber?Está relacionado con el número de observaciones. Generalmente se
usan de 5 a 15, con un número menor para muestras pequeñas.
k = √n | k = log2n + 1,
donde n es el número de observaciones.
2. ¿Cuál es el rango de valores?
R = xmáx-xmín
3. ¿Cuál es la amplitud de los intervalos?
i = R / k
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Procedimiento para agrupar datos (II)Procedimiento para agrupar datos (II)
4. Cogemos el valor mínimo en la variable y redondeamos por abajo a un valor múltiplo de 10 óde 5, o similar.
5. Creamos los intervalos utilizando las siguientes notaciones
[ valor incluido, valor excluido[ ó [valor incluido, valor incluido]
[50-54], [55-59],… ó [50-55[,[55-60[
6. Contabilizamos el número de datos observados en cada intervalo de nuestra muestra de datos.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Tablas de frecuencias. Ejemplo ITablas de frecuencias. Ejemplo I
Variable cualitativa
Se observa el grupo sanguíneo para 20 pacientes afectados por cierta enfermedad, obteniéndose:
{A, A, AB, AB, O, A, B, A, A, O, A, A, AB, A, O, A, A, O, B, A}
x i n i f i
A 11 0,55O 4 0,20
AB 3 0,15B 2 0,10
20
• A falta de un orden numérico, para las variables cualitativas, es usual ordenar las modalidades por su frecuencia absoluta.
• El 55% de los pacientes tienen grupo sanguíneo A, el 20% O, el 15% AB y el 10% restante B.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Tablas de frecuencias. Ejemplo IITablas de frecuencias. Ejemplo II
Variable cuasicuantitativa
En una encuesta realizada en un hospital acerca de la satisfacción por el trato recibido durante el periodo de atención a 200 pacientes se ofrecen las siguientes respuestas {Muy Baja, Baja, Normal, Alta, Muy Alta}, obteniéndose los siguientes resultados:
x i n i
MB 8B 40N 52A 60
MA 40200
N i f i F i
8 0,04 0,0448 0,20 0,24
100 0,26 0,50160 0,30 0,80200 0,20 1,00
48 pacientes manifiestan una satisfacción Baja o Muy Baja.
El 26% de los pacientes manifiestan una satisfacción Normal.
El 50% de los pacientes manifiestan una satisfacción Normal, Baja o Muy Baja.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Tablas de frecuencias. Ejemplo IIITablas de frecuencias. Ejemplo IIIVariable cuantitativa
En una encuesta realizada sobre una población de 1509 familias se ha tabulado, entre otras variables, el número de hijos, obteniéndose:x i n i
0 4191 2552 3753 2154 1275 546 247 23>7 17
1509
N i
419674
1049126413911445146914921509
f i
0,2780,1690,2490,1420,0840,0360,0160,0150,011
F i
0,2780,4470,6950,8380,9220,9580,9730,9891,000
Hay 1264 familias con 3 o menos hijos.
El 24,9% de las familias tiene 2 hijos.
El 92,2% de las familias tiene 4 o menos hijos.
Para variables cuantitativas continuas, o discretas con un número elevado de modalidades, se agrupan estas en intervalos o clases, empleando la marca de clase (centro del intervalo) como valor representativo para todo el intervalo.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICADepartamento de EpidemiologDepartamento de Epidemiologíía, a,
AnAnáálisis critico y Metodologlisis critico y Metodologíía de la investigacia de la investigacióónn
GuiGuióón:n:
1.1. IntroducciIntroduccióón a la estadn a la estadíística descriptiva.stica descriptiva.
2.2. OrganizaciOrganizacióón de los datos: Tablas de Frecuencias.n de los datos: Tablas de Frecuencias.
3.3. RepresentaciRepresentacióón Grafica de Variables Categn Grafica de Variables Categóóricas.ricas.
4.4. EstadEstadíísticos descriptivos de Variables Continuas.sticos descriptivos de Variables Continuas.
5.5. RepresentaciRepresentacióón Grafica de Variables Continuas.n Grafica de Variables Continuas.
� Tema 3: Estadística Descriptiva
BIOESTADISTICA
AnAnáálisis de una variable categlisis de una variable categóórica:rica:
Los resultados de una variable categórica (p.ej.: tabaquismo) se pueden expresar en una tabla de frecuencias.
ni fi %
1: Nunca ha fumado 144 0,48 48
2: Exfumador/a 66 0,22 22
3: Fumador/a ocasional 9 0,03 3
4: Fumador/a diario 81 0,27 27
n=300 1
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
AnAnáálisis de una variable categlisis de una variable categóóricarica
ni fi %i
1: Nunca ha fumado 144 0,48 48
2: Exfumador/a 66 0,22 22
3: Fumador/a ocasional 9 0,03 3
4: Fumador/a diario 81 0,27 27
n=300 1 100
Σni= n
fi= ni / n
Σfi= 1
Tamaño total de la muestra
Proporción respecto al total de la muestra en una categoría i
%i= fi * 100Porcentaje respecto al total de la muestra en una categoría i
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICABIOESTADISTICA
RepresentaciRepresentacióón grn grááfica de los datosfica de los datos
Un segundo paso en el anUn segundo paso en el anáálisis estadlisis estadíístico de los datos, posterior a la tabla stico de los datos, posterior a la tabla
de frecuencias, lo constituye la presentacide frecuencias, lo constituye la presentacióón grn grááfica de los mismos, fica de los mismos,
eligiendo un greligiendo un grááfico adecuado a la naturaleza de los datos.fico adecuado a la naturaleza de los datos.
Variables cualitativasVariables cualitativas Los grLos grááficos mficos máás usuales para representar variables s usuales para representar variables
de tipo nominal son el de tipo nominal son el diagrama de barrasdiagrama de barras y el y el diagrama de sectoresdiagrama de sectores..
Variables cuantitativasVariables cuantitativas Para las variables cuantitativas tiene sentido Para las variables cuantitativas tiene sentido
calcular frecuencias acumuladas, por lo que distinguiremos entrecalcular frecuencias acumuladas, por lo que distinguiremos entre GrGrááficos ficos
Diferenciales, para frecuencias no acumuladas (absolutas o relatDiferenciales, para frecuencias no acumuladas (absolutas o relativas) y ivas) y
GrGrááficos Integrales, para frecuencias acumuladas (absolutas o relatficos Integrales, para frecuencias acumuladas (absolutas o relativas).ivas).
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICABIOESTADISTICA
RepresentaciRepresentacióón grn grááfica de los datosfica de los datos
Para Para variables discretasvariables discretas empleamos el empleamos el diagrama de barrasdiagrama de barras, como gr, como grááfico fico
diferencial, y una representacidiferencial, y una representacióón n ““en escaleraen escalera””, como diagrama integral., como diagrama integral.
Para Para variables continuasvariables continuas empleamos el empleamos el histogramahistograma y el poly el políígono de gono de
frecuencias, como grfrecuencias, como grááficos diferenciales, y el polficos diferenciales, y el políígono de frecuencias gono de frecuencias
acumuladas como gracumuladas como grááfico integral.fico integral.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
RepresentaciRepresentacióón de variables categn de variables categóóricasricas
La representaciLa representacióón de variables categn de variables categóóricas (nominales y ricas (nominales y
ordinales) se basa en dos tipos de grordinales) se basa en dos tipos de grááficos:ficos:
Diagrama de barras Diagrama de sectores
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
El diagrama de barrasEl diagrama de barras
•• Sirve para mostrar diversas Sirve para mostrar diversas
proporciones, frecuencias, porcentajes proporciones, frecuencias, porcentajes
y compararlos.y compararlos.
•• Situaciones:Situaciones:
–– Diversas variables dicotDiversas variables dicotóómicasmicas
Uso y contexto
Procedimiento•• Eje horizontal: se representan las diversas variables o categorEje horizontal: se representan las diversas variables o categoríías (alfabas (alfabééticamente, por ticamente, por
tamatamañño,o,……))
•• Eje vertical: se presentan las frecuencias (Eje vertical: se presentan las frecuencias (mmíínn hasta mhasta mááximo aprox.) o porcentajes (0ximo aprox.) o porcentajes (0--100)100)
•• Se dibujan las barras verticales encima de cada grupo de modo quSe dibujan las barras verticales encima de cada grupo de modo que la altura de la barra e la altura de la barra
represente (corresponder con un valor del eje vertical) la frecurepresente (corresponder con un valor del eje vertical) la frecuencia o porcentaje de ese grupo. encia o porcentaje de ese grupo.
Las barras deben ser igual de anchas y separadas entre sLas barras deben ser igual de anchas y separadas entre síí..
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
El diagrama de sectoresEl diagrama de sectores
•• Sirve para mostrar diversas Sirve para mostrar diversas
frecuencias, proporciones o frecuencias, proporciones o
porcentajes y compararlos.porcentajes y compararlos.
•• Representa la descomposiciRepresenta la descomposicióón de un n de un
totaltotal
•• Situaciones:Situaciones:
–– Una variable Una variable politpolitóómicamica
Uso y contexto
Procedimiento•• Para obtener el Para obtener el áángulo que cubre cada categorngulo que cubre cada categoríía de la variable se aplica una fa de la variable se aplica una fóórmula, que resulta rmula, que resulta
en diferentes en diferentes áángulos proporcionales a la frecuencia correspondiente:ngulos proporcionales a la frecuencia correspondiente:
n
nii
×= 360α
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
x i n i f i
A 11 0,55O 4 0,20
AB 3 0,15B 2 0,10
20
11
43
2
0
2
4
6
8
10
12
A O AB B
Diagrama de barras para variables cualitativasDiagrama de barras para variables cualitativas
La altura de la barra para cada La altura de la barra para cada
modalidad ha de ser modalidad ha de ser
proporcional a la frecuencia de proporcional a la frecuencia de
la misma.la misma.
Diagrama de sectores para variables cualitativasDiagrama de sectores para variables cualitativas
A55%
O20%
AB15%
B10%
A
O
AB
B
Se divide el cSe divide el cíírculo en sectores de modo que a cada rculo en sectores de modo que a cada
modalidad le corresponde un modalidad le corresponde un áángulo proporcional a su ngulo proporcional a su
frecuencia.frecuencia.
n
nii
×= 360α
20
º362B
º543AB
º724O
º19811A
αinixi
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICADepartamento de EpidemiologDepartamento de Epidemiologíía, a,
AnAnáálisis critico y Metodologlisis critico y Metodologíía de la investigacia de la investigacióónn
GuiGuióón:n:
1.1. IntroducciIntroduccióón a la estadn a la estadíística descriptiva.stica descriptiva.
2.2. OrganizaciOrganizacióón de los datos: Tablas de Frecuencias.n de los datos: Tablas de Frecuencias.
3.3. RepresentaciRepresentacióón Grafica de Variables Categn Grafica de Variables Categóóricas.ricas.
4.4. EstadEstadíísticos descriptivos de Variables Continuas.sticos descriptivos de Variables Continuas.
5.5. RepresentaciRepresentacióón Grafica de Variables Continuas.n Grafica de Variables Continuas.
� Tema 3: Estadística Descriptiva
BIOESTADISTICA
¿¿CCóómo podemos representarlos de forma mo podemos representarlos de forma úútil?til?
¿¿CCóómo descubrir estructuras en un montmo descubrir estructuras en un montóón de datos desnudos?n de datos desnudos?
¿¿CCóómo resumir de forma bmo resumir de forma báásica los datos?sica los datos?
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
RepresentaciRepresentacióón de variables cuantitativas continuasn de variables cuantitativas continuas
Desviación Típica = 0,3028
Desviación Típica = 1,5138
Desviación Típica = 3,0277
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
CCáálculo de Parlculo de Paráámetros Estadmetros Estadíísticossticos
El tercer paso en el anEl tercer paso en el anáálisis estadlisis estadíístico de los datos, posterior a la tabla de stico de los datos, posterior a la tabla de
frecuencias y a la elaboracifrecuencias y a la elaboracióón de grn de grááficos, lo constituye el cficos, lo constituye el cáálculo, a partir lculo, a partir
de los datos, de magnitudes capaces de capturar aspectos especde los datos, de magnitudes capaces de capturar aspectos especííficos de ficos de
la estructura de los mismos. Estos son los Parla estructura de los mismos. Estos son los Paráámetros Estadmetros Estadíísticos.sticos.
Los parLos paráámetros estadmetros estadíísticos tienen la virtud de condensar la informacisticos tienen la virtud de condensar la informacióón n
existente en los datos mediante unos pocos nexistente en los datos mediante unos pocos núúmeros que faciliten la meros que faciliten la
comprensicomprensióón de la estructura interna de los datos, su interpretacin de la estructura interna de los datos, su interpretacióón y su n y su
comunicacicomunicacióón a un tercero.n a un tercero.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Principales caracterPrincipales caracteríísticas de los datossticas de los datos
Tendencia central:Tendencia central: valores centrales representativos o en torno a valores centrales representativos o en torno a
los cuales se distribuyen los datos.los cuales se distribuyen los datos.
PosiciPosicióón:n: valores tales que un determinado porcentaje de valores valores tales que un determinado porcentaje de valores
queda por debajo de ellos.queda por debajo de ellos.
DispersiDispersióón: n: medida de lo alejados que estmedida de lo alejados que estáán los datos de un valor n los datos de un valor
en torno al cual se distribuyen.en torno al cual se distribuyen.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Principales caracterPrincipales caracteríísticas de los datossticas de los datos
SimetrSimetríía:a: medida de hasta que punto la distribucimedida de hasta que punto la distribucióón de los datos a un n de los datos a un
lado de un valor central es imagen especular de la del otro ladolado de un valor central es imagen especular de la del otro lado..
Apuntamiento:Apuntamiento: medida de hasta que punto algunos valores son mmedida de hasta que punto algunos valores son máás s
frecuentes que el resto.frecuentes que el resto.
ConcentraciConcentracióón: n: cuando la magnitud que se mide se considera como el cuando la magnitud que se mide se considera como el
resultado de un reparto las medidas de concentraciresultado de un reparto las medidas de concentracióón miden el grado n miden el grado
de equidad en el mismo.de equidad en el mismo.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Medidas de tendencia central: Media (AritmMedidas de tendencia central: Media (Aritméética)tica)
La La mediamedia es el pares el paráámetro de localizacimetro de localizacióón central n central mmáá usado con el objetivo de usado con el objetivo de
resumir un conjunto de datos a partir de un resumir un conjunto de datos a partir de un úúnico valor que en cierto modo sea nico valor que en cierto modo sea
representativo del conjunto de los valores de los datos.representativo del conjunto de los valores de los datos.
La media se La media se calculacalcula simplemente dividiendo el resultado de sumar todos los simplemente dividiendo el resultado de sumar todos los
datos por el ndatos por el núúmero de datos y su interpretacimero de datos y su interpretacióón es la de un valor central.n es la de un valor central.
La media se puede considerar como una especie de La media se puede considerar como una especie de centro de gravedadcentro de gravedad del del
conjunto de los datos, lo cual se puede visualizar suponiendo quconjunto de los datos, lo cual se puede visualizar suponiendo que se disponen e se disponen
los datos en una barra metlos datos en una barra metáálica recta, horizontal y con peso despreciable, lica recta, horizontal y con peso despreciable,
asignando a cada dato un mismo peso y tratando de imaginar en quasignando a cada dato un mismo peso y tratando de imaginar en que punto por e punto por
debajo de la barra habrdebajo de la barra habríía que situar un apoyo para que la barra se mantenga en a que situar un apoyo para que la barra se mantenga en
equilibrio.equilibrio.
Si el triSi el triáángulo se desplaza hacia la izquierda o hacia la derecha el equilngulo se desplaza hacia la izquierda o hacia la derecha el equilibrio se ibrio se rompe.rompe.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Intervalo[0, 3[[3, 5[[5, 7[
[7, 8,5[[8,5, 10[
Xi (MC)1,504,006,007,759,25
ni
10152010560
Xini
15,0060,00120,0077,5046,25318,755,3125
Variable continuaDatos agrupados en intervalos
Variable discretaDatos con valores repetidos
I
II
nn
nXnXX
++++=
ΛΛ
1
11
n
nXX
I
iii∑
== 1
Xi ni
0 21 52 103 124 65 1
36
Xini
052036245902,5
n
XXXX n+++= Λ21
CCáálculo de la medialculo de la media
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Media geomMedia geoméétricatrica
La usamos cuando tenemos observaciones de una poblaciLa usamos cuando tenemos observaciones de una poblacióón muy n muy
variables, o con distribuciones asimvariables, o con distribuciones asiméétricas positivas.tricas positivas.
Tenemos que transformar cada valor de la variable a un logaritmoTenemos que transformar cada valor de la variable a un logaritmo de de
base 10 base 10 óó e.e.
Se obtiene una media al uso con esa escala transformada y se obtSe obtiene una media al uso con esa escala transformada y se obtiene el iene el
antilogaritmo, ese resultado es la media geomantilogaritmo, ese resultado es la media geoméétrica.trica.
)loglog( 10 xantixg =n
xx
n
ii∑
== 110
10
loglog
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Media ponderadaMedia ponderada
La usamos cuando tenemos observaciones dentro de una variable quLa usamos cuando tenemos observaciones dentro de una variable que son e son
mmáás importantes que otras.s importantes que otras.
Se asocia un peso Se asocia un peso wiwi a cada valor de la variable, a cada valor de la variable, xixi, para reflejar la , para reflejar la
importancia que se da a esos valores.importancia que se da a esos valores.
∑
∑
=
==n
ii
n
i iiw
w
xwx
1
1
Supongamos que estamos interesados en determinar Supongamos que estamos interesados en determinar
la estancia de pacientes en los hospitales de un la estancia de pacientes en los hospitales de un
distrito, y conocemos la media de cada hospital. Para distrito, y conocemos la media de cada hospital. Para
calcular en el total del distrito podemos hacer uso de calcular en el total del distrito podemos hacer uso de
esta media, cogiendo como peso el total de pacientes esta media, cogiendo como peso el total de pacientes
de cada hospital.de cada hospital.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Medidas de tendencia central:Medidas de tendencia central:La ModaLa Moda
Llamaremos Llamaremos modamoda a cualquier ma cualquier mááximo relativo de la distribuciximo relativo de la distribucióón de n de
frecuencias, es decir, cualquier valor que posea una frecuencia frecuencias, es decir, cualquier valor que posea una frecuencia
mayor que su anterior y su posterior.mayor que su anterior y su posterior.
Es por tanto el valor Es por tanto el valor que mas se repiteque mas se repite dentro de la distribucidentro de la distribucióónn
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Intervalo M.C. ni c i h i
[0; 3[ 1,50 10 3,0 3,333[3; 5[ 4,00 15 2,0 7,5[5; 7[ 6,00 20 2,0 10
[7; 8,5[ 7,75 10 1,5 6,667[8,5; 10] 9,25 5 1,5 3,333
60
Medidas de tendencia central:Medidas de tendencia central:La ModaLa Moda
Para variables continuas, agrupadas en intervalos, puede asumirsPara variables continuas, agrupadas en intervalos, puede asumirse la moda como e la moda como la marca de clase del intervalo con mayor altura en el histogramla marca de clase del intervalo con mayor altura en el histograma (intervalo modal) a (intervalo modal) o, alternativamente, calcularse a partir de la expresio, alternativamente, calcularse a partir de la expresióón:n:
El subEl subííndice ndice ii corresponde al intervalo con mayor altura en el histograma.corresponde al intervalo con mayor altura en el histograma.
( ) ( )11
1
+−
−
−+−−+=
iiii
iiii hhhh
hhcLModa
( ) ( )86,5
667,6105,710
5,71025
=−+−
−+=Moda
De haber tomado la marca de clase del intervalo De haber tomado la marca de clase del intervalo
modal el resultado habrmodal el resultado habríía sido Moda = 6.a sido Moda = 6.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Medidas de tendencia central:Medidas de tendencia central:La medianaLa mediana
La mediana es el punto en que la
muestra, ordenada, se divide en dos
partes de igual tamaño.
El 50% de los datos está por encima
de la mediana y el otro 50% está por
debajo.
Si hay un número par de datos la
mediana es la media aritmética de
los dos datos centrales.
Si hay un número impar de datos la
mediana es el dato central.
La mediana es el punto en que la La mediana es el punto en que la
muestra, ordenada, se divide en dos muestra, ordenada, se divide en dos
partes de igual tamapartes de igual tamañño.o.
El 50% de los datos estEl 50% de los datos estáá por encima por encima
de la mediana y el otro 50% estde la mediana y el otro 50% estáá por por
debajo.debajo.
Si hay un nSi hay un núúmero par de datos la mero par de datos la
mediana es la media aritmmediana es la media aritméética de tica de
los dos datos centrales.los dos datos centrales.
Si hay un nSi hay un núúmero impar de datos la mero impar de datos la
mediana es el dato central.mediana es el dato central.
Si
No
Dada una muestra de nelementos, la ordenamos de menor a mayor.
Dada una muestra de nelementos, la ordenamos de menor a mayor.
¿n par ?¿n par ?
2
122~
++
=
ndato
ndato
X
+=2
1~ ndatoX
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Calculo de la medianaCalculo de la mediana
Ejemplo 1 (n par)
{5,8,9,15,25,40}
n = 6 datos ordenados.
Ejemplo 1 (n par)
{5,8,9,15,25,40}
n = 6 datos ordenados.
( ) ( )
122
1592
º4º3
2
126
26
~
=+=
+=
++
= datodatodatodato
X
Ejemplo 2 (n impar)
{5,8,9,15,25}
n = 5 datos ordenados.
Ejemplo 2 (n impar)
{5,8,9,15,25}
n = 5 datos ordenados. ( ) 9º32
15~ ==
+= datodatoX
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Calculo de la mediana con datos discretos repetidosCalculo de la mediana con datos discretos repetidos
Xi ni
0 21 52 103 124 65 1
36
Ni
2717293536
En total hay 36 datos, con lo que la mediana es la media de los datos 18º y 19º.
Tanto el dato 18º como el dato 19º son 3, con lo que la mediana vale 3.
En total hay 36 datos, con lo que la mediana es la media de los datos 18º y 19º.
Tanto el dato 18º como el dato 19º son 3, con lo que la mediana vale 3.
Los dos primeros datos son 0.
Desde el dato 3º hasta el 7º son 1.
Desde el dato 8º hasta el 17º son 2.
Desde el dato 18º hasta el 29º son 3.
Desde el dato 30º hasta el 35º son 4.
El dato 36º es 5.
( ) ( )3
2
33
2
º19º18~ =+=+= datodatoX
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
ComparaciComparacióón de la media y la mediana (I)n de la media y la mediana (I)
La media emplea todos los datos y es por tanto preferible si losLa media emplea todos los datos y es por tanto preferible si los datos son datos son
homoghomogééneos.neos.
La media es muy sensible a observaciones extremas, de manera queLa media es muy sensible a observaciones extremas, de manera que un error o un un error o un
valor anormal puede modificarla totalmente.valor anormal puede modificarla totalmente.
La mediana utiliza menos informaciLa mediana utiliza menos informacióón que la media, ya que sn que la media, ya que sóólo tiene en cuenta el lo tiene en cuenta el
orden de los datos.orden de los datos.
En general la mediana no se ve afectada por una observaciEn general la mediana no se ve afectada por una observacióón (o una pequen (o una pequeñña a
parte de las observaciones) contiene grandes errores de medida oparte de las observaciones) contiene grandes errores de medida o de trascripcide trascripcióón n
(es m(es máás robusta que la media).s robusta que la media).
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
ComparaciComparacióón de la media y la mediana (II)n de la media y la mediana (II)
En general es recomendable calcular tanto la media como la mediaEn general es recomendable calcular tanto la media como la mediana, ya que na, ya que
ofrecen informaciofrecen informacióón complementaria.n complementaria.
La media y la mediana diferirLa media y la mediana diferiráán mucho cuando la distribucin mucho cuando la distribucióón sea muy asimn sea muy asiméétrica trica
y coincidiry coincidiráán si los datos son simn si los datos son siméétricos.tricos.
Media < Mediana sugiere asimetrMedia < Mediana sugiere asimetríía negativa (cola a la izquierda).a negativa (cola a la izquierda).
Media > Mediana sugiere asimetrMedia > Mediana sugiere asimetríía positiva (cola a la derecha).a positiva (cola a la derecha).
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Uso de medidas de tendencia centralUso de medidas de tendencia central
•• No se pueden realizar operaciones con variables nominales, la mNo se pueden realizar operaciones con variables nominales, la media edia
ssóólo se puede calcular para variables numlo se puede calcular para variables numééricas (escala intervalo o ricas (escala intervalo o
razrazóón).n).
•• La mediana no requiere suma de observaciones, puede ser utilizaLa mediana no requiere suma de observaciones, puede ser utilizada da
con datos numcon datos numééricos y ordinales, pero no con datos nominales.ricos y ordinales, pero no con datos nominales.
•• La moda puede ser utilizada con cualquier variable.La moda puede ser utilizada con cualquier variable.
•• La media es afectada por valores extremos, la mediana no.La media es afectada por valores extremos, la mediana no.
•• Con datos distribuidos de forma simCon datos distribuidos de forma siméétrica, la media y la mediana trica, la media y la mediana
coinciden prcoinciden práácticamente.cticamente.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Medidas de posiciMedidas de posicióón: los Percentilesn: los Percentiles
•• La mediana divide los datos en La mediana divide los datos en dos partes igualesdos partes iguales (con el mismo (con el mismo
nnúúmero de datos).mero de datos).
•• TambiTambiéén se puede dividir los datos en n se puede dividir los datos en mmááss de dos partes.de dos partes.
•• Cuando se divide un conjunto ordenado de datos en Cuando se divide un conjunto ordenado de datos en cuatro partescuatro partes
iguales los 3 puntos de divisiiguales los 3 puntos de divisióón se conocen como n se conocen como cuartilescuartiles (Q1, Q2 y (Q1, Q2 y
Q3).Q3).
•• El El primer cuartilprimer cuartil, o cuartil inferior, Q1, es un valor que tiene , o cuartil inferior, Q1, es un valor que tiene
aproximadamente la cuarta parte de los datos (el 25%) por debajoaproximadamente la cuarta parte de los datos (el 25%) por debajo de de
éél, y el 75% restante por encima.l, y el 75% restante por encima.
•• El El segundo cuartilsegundo cuartil, Q2, tiene por debajo aproximadamente la mitad , Q2, tiene por debajo aproximadamente la mitad
de los datos (coincide con la mediana).de los datos (coincide con la mediana).
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
•• El El tercer cuartiltercer cuartil, o cuartil superior, Q3, es un valor que tiene , o cuartil superior, Q3, es un valor que tiene
aproximadamente el 75% de los datos por debajo de aproximadamente el 75% de los datos por debajo de éél, y el 25% l, y el 25%
restante por encima.restante por encima.
•• Si en lugar de dividir el conjunto de datos en 2 Si en lugar de dividir el conjunto de datos en 2 óó en 4 partes del en 4 partes del
mismo tamamismo tamañño se divide en o se divide en 100 partes100 partes los puntos de divisilos puntos de divisióón se n se
denominan denominan percentilespercentiles..
•• El percentil El percentil kk--éésimosimo se denota se denota PkPk..
•• Es evidente que tanto la mediana como los Es evidente que tanto la mediana como los cuartilescuartiles son casos son casos
particulares de los percentiles, con lo que sparticulares de los percentiles, con lo que sóólo necesitamos saber lo necesitamos saber
como se calculan los percentiles.como se calculan los percentiles.
251 PQ =502
~PXQ == 753 PQ =
Medidas de posiciMedidas de posicióón: los Percentiles (continuacin: los Percentiles (continuacióón)n)
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
CCáálculo del percentil klculo del percentil k--éésimosimo para variables discretaspara variables discretas
1.1. Calcular la posiciCalcular la posicióón: n: Pos = kPos = k××n / 100n / 100..
2.2. Si Pos Si Pos eses un un nnúúmeromero enteroentero PkPk eses el el promediopromedio de los de los datosdatos queque ocupanocupan laslasposicionesposiciones Pos y Pos+1Pos y Pos+1..
3.3. Si Pos Si Pos eses decimal, decimal, PkPk eses el el datodato queque ocupaocupa la la posiciposicióónn [Pos+1], con [ a ][Pos+1], con [ a ]indicandoindicando la parte la parte enteraentera de a.de a.
EjemploEjemplo Calcula los percentiles 5, 90 y 26 para los siguientes datos:
Xi ni Ni
0 2 21 6 82 10 183 13 314 6 375 3 40
40
Pos=5×40/100=2( ) ( )
5,02
10
2
º3º25 =+=+= datodato
P
Pos=90×40/100=36( ) ( )
42
44
2
º37º3690 =+=+= datodato
P
Pos=26×40/100=10,4 ( ) 2º1126 == datoP
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
CCáálculo del percentil klculo del percentil k--éésimosimo para variables continuaspara variables continuas
Intervalo n i N i
[0; 3[ 10 10[3; 5[ 15 25[5; 7[ 20 45
[7; 8,5[ 10 55[8,5; 10] 5 60
60
Para calcular el percentil kPara calcular el percentil k--éésimosimo, , PkPk, ,
seleccionamos el intervalo iseleccionamos el intervalo i--éésimosimo de manera de manera
que es el primer intervalo para el que Ni es que es el primer intervalo para el que Ni es
mayor o igual a mayor o igual a k k ×× n / 100n / 100..
i
i
iik n
Nk
ncLP
1100 −−+=
Extremo inferior del intervalo seleccionado.
Ancho del intervalo seleccionado.Nº de datos en el intervalo seleccionado.
Nº total de individuos.
Nº de datos acumulados antes del intervalo seleccionado.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Ejemplo de cEjemplo de cáálculo de percentiles con variables continuaslculo de percentiles con variables continuasCalcula la Calcula la medianamediana, el , el primer cuartilprimer cuartil y el y el percentil percentil
88 para los datos del peso de 57 nipara los datos del peso de 57 niñños.os.
Intervalo ni Ni
[10, 20[ 5 5[20, 30[ 19 24[30, 40[ 10 34[40, 50[ 13 47[50, 60[ 4 51[60, 70[ 4 55[70, 80] 2 57
57
i
i
iik n
Nk
ncLP
1100 −−+=
Mediana: Pos =57×50/100 = 28,5. Intervalo: [30; 40[
5,3410
2410050
571030
~50 =
−+== PX
Q1: Pos= 57×25/100 = 14,25. Intervalo: [20; 30[
9,2419
510025
571020251 =
−+== PQ
P8: Pos= 57×8/100 = 4,56. Intervalo: [10; 20[
12,195
01008
5710108 =
−+=P
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Medidas de DispersiMedidas de Dispersióónn
Consideramos las calificaciones de un examen para dos grupos de Consideramos las calificaciones de un examen para dos grupos de 10 alumnos:10 alumnos:
Es fEs fáácil comprobar que en ambos grupos la calificacicil comprobar que en ambos grupos la calificacióón media es 5, aunque se n media es 5, aunque se
distribuyen de forma muy diferente, ya que en el segundo grupo hdistribuyen de forma muy diferente, ya que en el segundo grupo hay mayor ay mayor
dispersidispersióón, mientras que en el primer grupo las calificaciones estn, mientras que en el primer grupo las calificaciones estáán mn máás s
concentradas (alrededor de la media).concentradas (alrededor de la media).
Las medidas de dispersiLas medidas de dispersióón sirven para medir la variabilidad de los datos n sirven para medir la variabilidad de los datos
alrededor de su alrededor de su ““centro de masascentro de masas”” (la media).(la media).
Grupo 10 1 2 3 4 5 6 7 8 9 10
Grupo 20 1 2 3 4 5 6 7 8 910
Grupo 1 5 3 5 6 4 6 6 5 6 4Grupo 2 1 2 9 1 8 7 7 2 9 4
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
El RangoEl Rango
•• Es la diferencia entre la mayor y la menor observaciEs la diferencia entre la mayor y la menor observacióón:n:
•• Es fEs fáácil de calcular, pero ignora casi toda la informacicil de calcular, pero ignora casi toda la informacióón de la muestra.n de la muestra.
•• Es muy sensible a valores extremos.Es muy sensible a valores extremos.
MinMaxR −=
Tema 3: Estadstadíística Descriptivastica Descriptiva
Medidas de DispersiMedidas de Dispersióónn
BIOESTADISTICA
Deficiencias:Deficiencias:
Ignora la mayor parte de observaciones, sIgnora la mayor parte de observaciones, sóólo se utilizan dos valores. lo se utilizan dos valores.
Se necesita un estadSe necesita un estadíístico que utilice mstico que utilice máás valores.s valores.
Su valor depende indirectamente del tamaSu valor depende indirectamente del tamañño de la muestra.o de la muestra.
No debe depender del tamaNo debe depender del tamañño de la muestrao de la muestra
El RangoEl Rango
Medidas de DispersiMedidas de Dispersióónn
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
El Rango El Rango IntercuartIntercuart íílicolico
•• Su definiciSu definicióón es ann es anááloga a la del Rango, pero eliminando la cuarta parte de loga a la del Rango, pero eliminando la cuarta parte de
los datos de cada extremo, despulos datos de cada extremo, despuéés de ordenar los datos de menor a s de ordenar los datos de menor a
mayor.mayor.
•• A partir de la definiciA partir de la definicióón es fn es fáácil ver que:cil ver que:
•• Es mEs máás difs difíícil de calcular que el rango, pero es menos sensible a valores cil de calcular que el rango, pero es menos sensible a valores
extremos.extremos.
13 QQRI −=
Tema 3: Estadstadíística Descriptivastica Descriptiva
Medidas de DispersiMedidas de Dispersióónn
BIOESTADISTICA
•• Se puede generalizar: Rango Se puede generalizar: Rango interquintinterquintíílicolico, , interdecinterdecíílicolico, , ……, o, en , o, en
general, para cualquier k en ]0, 50[, se puede definir:general, para cualquier k en ]0, 50[, se puede definir:
kkk PPR −= −100
GeneralizaciGeneralizacióón del Rango n del Rango IntercuartIntercuart íílicolico
Tema 3: Estadstadíística Descriptivastica Descriptiva
Medidas de DispersiMedidas de Dispersióónn
BIOESTADISTICA
La VarianzaLa Varianza
Dado un conjunto formado por n datos, la varianza es el promedioDado un conjunto formado por n datos, la varianza es el promedio de los de los
cuadrados de las distancias de los datos a la media:cuadrados de las distancias de los datos a la media:
( ) ( ) ( ) ( )n
nXX
n
nXXnXXnXX i
I
ii
In∑
=
−=−++−+−= 1
22
2
2
21
2
12 Λσ
Tema 3: Estadstadíística Descriptivastica Descriptiva
Medidas de DispersiMedidas de Dispersióónn
BIOESTADISTICA
La DesviaciLa Desviacióón Tn Tíípicapica
Las unidades de la varianza coinciden con las de los datos, peroLas unidades de la varianza coinciden con las de los datos, pero elevadas al elevadas al
cuadrado, por ello es mcuadrado, por ello es máás sencillo emplear la ras sencillo emplear la raííz cuadrada de la varianza, a la z cuadrada de la varianza, a la
que se denomina Desviacique se denomina Desviacióón Tn Tíípica.pica.
2σσ =La desviaciLa desviacióón tn tíípica verifica la propiedad de que en el intervalo pica verifica la propiedad de que en el intervalo
se encuentran al menos el 75% de los datos.se encuentran al menos el 75% de los datos.σ2±X
Tema 3: Estadstadíística Descriptivastica Descriptiva
Medidas de DispersiMedidas de Dispersióónn
BIOESTADISTICA
CCáálculo abreviado de la varianzalculo abreviado de la varianza
( ) ( )n
nXXnXnX
n
nXXnXnX
n
XXnI
iii
I
ii
I
iii
I
iiiiii
I
iii ∑∑∑∑∑
=====−+
=−+
=−
= 11
2
1
2
1
22
1
2
2
22σ
( )222 XX −=σLa varianza se puede calcular como la media de los cuadrados menos el cuadrado de la media.
La varianza se puede calcular como la media de los cuadrados menos el cuadrado de la media.
Xi ni
0 21 62 103 134 65 3
40
Xini
06203924151042,6
Xi2ni
064011796753348,35
n X 2X
( ) 59,16,235,8 22 =−=σ
261,159,1 ==σ
Varianza
Desviacióntípica
Para variables continuas agrupadas en intervalos se hace lo mismo, pero empleando las marcas de clase.
Para variables continuas agrupadas en intervalos se hace lo mismo, pero empleando las marcas de clase.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Uso conjunto de la media y la desviaciUso conjunto de la media y la desviacióón tn tíípicapica
A los conjuntos de datos unimodales y simétricos, o ligeramente asimétricos, les llamaremos datos normales (esto lo matizaremos posteriormente).
µµ–σ µ+2σ µ+3σµ–2σµ–3σ µ+σ
68%95%
99%
µ –3σ µµ –2σ µ +2σµ +σµ –σ µ +3σ
68%95%99%
–inf +inf······0,5%
······0,5% 13,5%2%
µ +σ µ +2σ µ +3σ34% 34% 13,5% 2%
µµ –σµ –2σµ –3σ
Para los conjuntos de datos normales se puede conocer, de manera aproximada, el porcentaje de datos que hay en intervalos de la forma:
[ ]σµσµσµ kkk +−≡± ;
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
El Coeficiente de VariaciEl Coeficiente de Variacióónn
Al estimar Al estimar ““a ojoa ojo”” una distancia cometemos un error de 1 m, una distancia cometemos un error de 1 m, ¿¿es un error muy es un error muy
grande?.grande?.
Imaginemos que la distancia que estImaginemos que la distancia que estáábamos estimando corresponde al ancho bamos estimando corresponde al ancho
de una habitacide una habitacióón y que el verdadero valor es de 4 m.n y que el verdadero valor es de 4 m.
¿¿Y si la distancia a estimar era la existente entre Madrid y ValeY si la distancia a estimar era la existente entre Madrid y Valencia?.ncia?.
El mismo problema que surge al comparar errores para magnitudes El mismo problema que surge al comparar errores para magnitudes diferentes diferentes
surge al comparar las desviaciones tsurge al comparar las desviaciones tíípicas de conjuntos de datos picas de conjuntos de datos
correspondientes a datos de diferente naturaleza o expresados encorrespondientes a datos de diferente naturaleza o expresados en diferentes diferentes
unidades.unidades.
Una posible soluciUna posible solucióón es eliminar la dimensionalidad de la desviacin es eliminar la dimensionalidad de la desviacióón tn tíípica pica
divididividiééndola por la media de los datos, obteniendo el llamado coeficienndola por la media de los datos, obteniendo el llamado coeficiente de te de
variacivariacióón.n.
XCV
σ=
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Puntuaciones TPuntuaciones Tíípicaspicas
•• En ocasiones queremos comparar dos valores siendo que vienen de En ocasiones queremos comparar dos valores siendo que vienen de conjuntos conjuntos
de datos diferentes. Esto sucede, por ejemplo, cuando queremos cde datos diferentes. Esto sucede, por ejemplo, cuando queremos comparar la omparar la
nota que hemos obtenido en Estadnota que hemos obtenido en Estadíística con la que hemos obtenido en stica con la que hemos obtenido en
InformInformáática.tica.
•• Supongamos que Remigio ha obtenido un 6 en EstadSupongamos que Remigio ha obtenido un 6 en Estadíística y un 8 en Informstica y un 8 en Informáática, tica,
¿¿podemos decir que tiene mpodemos decir que tiene máás ms méérito la nota de Informrito la nota de Informáática que la de tica que la de
EstadEstadíística por ser mayor?.stica por ser mayor?.
•• En realidad necesitamos medir la dificultad de cada asignatura pEn realidad necesitamos medir la dificultad de cada asignatura para poder ara poder
pronunciarnos.pronunciarnos.
•• Si la nota media en EstadSi la nota media en Estadíística para el grupo de Remigio es stica para el grupo de Remigio es µµEstEst = 4= 4 y la y la
desviacidesviacióón tn tíípica es pica es σσEstEst = 1= 1 Remigio ha obtenido una nota en EstadRemigio ha obtenido una nota en Estadíística que stica que
supera a la media en dos desviaciones tsupera a la media en dos desviaciones tíípicas, es decir, si los datos son picas, es decir, si los datos son
““normalesnormales”” Remigio supera, aproximadamente, al 97,5% de sus compaRemigio supera, aproximadamente, al 97,5% de sus compaññeroseros.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
•• Si la nota media en InformSi la nota media en Informáática es tica es µµInfInf = 6= 6 y la desviaciy la desviacióón tn tíípica es pica es σσInfInf = 2= 2
Remigio ha obtenido una nota en InformRemigio ha obtenido una nota en Informáática que supera a la media en una tica que supera a la media en una
desviacidesviacióón tn tíípica, es decir, si los datos son pica, es decir, si los datos son ““normalesnormales”” Remigio supera, Remigio supera,
aproximadamente, al 84% de sus compaaproximadamente, al 84% de sus compaññeros.eros.
•• En resumen, Remigio destaca mEn resumen, Remigio destaca máás por su nota en Estads por su nota en Estadíística (supera al 97,5% stica (supera al 97,5%
de sus compade sus compaññeros) que por su nota en Informeros) que por su nota en Informáática (supera al 84% de sus tica (supera al 84% de sus
compacompaññeros), pese a ser menor la primera que la segunda.eros), pese a ser menor la primera que la segunda.
•• Una forma de comparar valores procedentes de diferentes conjuntoUna forma de comparar valores procedentes de diferentes conjuntos de datos es s de datos es
indicar la posiciindicar la posicióón relativa de cada dato en relacin relativa de cada dato en relacióón a la media del conjunto del n a la media del conjunto del
que procede y medida en nque procede y medida en núúmero de desviaciones tmero de desviaciones tíípicas. A estos valores le picas. A estos valores le
llamaremos puntuaciones tllamaremos puntuaciones tíípicas.picas.
•• Dado un conjunto de datos con media Dado un conjunto de datos con media µµ y desviaciy desviacióón tn tíípica pica σσ, para un dato del , para un dato del
conjunto, x, definimos su puntuaciconjunto, x, definimos su puntuacióón tn tíípica, z, como:pica, z, como:
Puntuaciones TPuntuaciones Tíípicas (continuacipicas (continuacióón)n)
σµ−= x
z
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Un alumno se ha examinado de MatemUn alumno se ha examinado de Matemááticas y Estadticas y Estadíística, de manera que los stica, de manera que los resultados del alumno, junto a la media y la desviaciresultados del alumno, junto a la media y la desviacióón tn tíípica de cada asignatura, pica de cada asignatura, aparecen en la siguiente tabla:aparecen en la siguiente tabla:
Nota Alumno
Media de la clase
Desviación Típica
Matemáticas 8 7,5 2Estadística 6 4,2 0,75
¿En cuál de las dos pruebas ha obtenido el alumno mejor resultado, comparativamente con el resto de sus compañeros?
25,02
5,78 =−=Matz 40,275,0
2,46 =−=Estz
Puntuaciones TPuntuaciones Tíípicas (ejemplo)picas (ejemplo)
Vemos que, comparativamente con el resto de sus compaVemos que, comparativamente con el resto de sus compaññeros, el alumno eros, el alumno presenta un mayor rendimiento en Estadpresenta un mayor rendimiento en Estadíística que en Matemstica que en Matemááticas.ticas.
En MatemEn Matemááticas supera la media en 0,25 veces la desviaciticas supera la media en 0,25 veces la desviacióón tn tíípica y en Estadpica y en Estadíística stica la supera en 2,40 veces la desviacila supera en 2,40 veces la desviacióón tn tíípica.pica. Matemáticas
0,25Estadística
2,4
-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Medidas de AsimetrMedidas de AsimetrííaaLa observaciLa observacióón de un histograma, un diagrama de barras o un diagrama de caja n de un histograma, un diagrama de barras o un diagrama de caja
son suficientes para apreciar lo simson suficientes para apreciar lo siméétricos o asimtricos o asiméétricos que son unos datos:tricos que son unos datos:
Una distribuciUna distribucióón de frecuencias es n de frecuencias es simsiméétricatrica si el lado derecho de la grsi el lado derecho de la grááfica es la fica es la
imagen especular del lado izquierdo.imagen especular del lado izquierdo.
Si las frecuencias del lado izquierdo son mSi las frecuencias del lado izquierdo son máás altas que las del derecho (cola a la s altas que las del derecho (cola a la
derecha) diremos que hay derecha) diremos que hay AsimetrAsimetríía Positivaa Positiva. En el caso opuesto (cola a la . En el caso opuesto (cola a la
izquierda) diremos que hay izquierda) diremos que hay AsimetrAsimetríía Negativaa Negativa..
Si una distribuciSi una distribucióón es simn es siméétrica: existe el mismo ntrica: existe el mismo núúmero de valores a la derecha mero de valores a la derecha
que a la izquierda de la media, con lo que la que a la izquierda de la media, con lo que la media coincidirmedia coincidiráá con la medianacon la mediana..
Simétrica Asimetría Positiva Asimetría Negativa
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Las distribuciones de frecuencias pueden clasificarse en:Las distribuciones de frecuencias pueden clasificarse en:
SimSiméétricas tricas --> valor de asimetr> valor de asimetríía, As. = 0a, As. = 0
AsimAsiméétricas positivas tricas positivas --> valor de asimetr> valor de asimetríía, As. > 0a, As. > 0
AsimAsiméétricas negativas tricas negativas --> valor de asimetr> valor de asimetríía, As. < 0a, As. < 0
Simétrica Asimetría Positiva Asimetría Negativa
cola a la derechacola a la izquierda
31
3)(.
sn
xxnAs
n
imii
⋅
−=∑
= Cuando es mayor en valor absoluto que 0,20 Cuando es mayor en valor absoluto que 0,20
podemos decir que es asimpodemos decir que es asiméétrica. trica.
Medidas de AsimetrMedidas de Asimetrííaa
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Si una distribuciSi una distribucióón es simn es siméétrica: Cada desviacitrica: Cada desviacióón positiva con respecto a la media n positiva con respecto a la media
coincidircoincidiráá con una desviacicon una desviacióón negativa de la misma magnitud.n negativa de la misma magnitud.
Medidas de AsimetrMedidas de Asimetríía (continuacia (continuacióón)n)
( )n
nxxI
iii∑
=
−1
Una primera idea para medir Una primera idea para medir
la asimetrla asimetríía podra podríía ser:a ser:
Elevar las diferencias a un exponente par tampoco es Elevar las diferencias a un exponente par tampoco es úútil, til,
porque perdemos el signo, con lo que la soluciporque perdemos el signo, con lo que la solucióón natural n natural
es elevar al cubo las diferencias, obteniendo el llamado es elevar al cubo las diferencias, obteniendo el llamado
momento central de tercer orden:momento central de tercer orden:
( )n
nxxm
I
iii∑
=
−= 1
3
3
Pero este estadPero este estadíístico siempre vale stico siempre vale
cero (por la definicicero (por la definicióón de media).n de media).
Para el momento central de orden 3 se comprueba facilmente que:
•Si m3 = 0 → la distribución es simétrica.
•Si m3 > 0 → la distribución tiene asimetría positiva.
•Si m3 < 0 → la distribución tiene asimetría negativa.
Para el momento central de orden 3 se comprueba Para el momento central de orden 3 se comprueba facilmentefacilmente que:que:
••Si m3 = 0 Si m3 = 0 →→ la distribucila distribucióón es simn es siméétrica.trica.
••Si m3 > 0 Si m3 > 0 →→ la distribucila distribucióón tiene asimetrn tiene asimetríía positiva.a positiva.
••Si m3 < 0 Si m3 < 0 →→ la distribucila distribucióón tiene asimetrn tiene asimetríía negativa.a negativa.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
El coeficiente de AsimetrEl coeficiente de Asimetríía de Fishera de Fisher
La medida de la asimetrLa medida de la asimetríía definida como m3 tiene un serio inconveniente: esta definida como m3 tiene un serio inconveniente: estáá
expresada en las mismas unidades que los datos, pero elevadas alexpresada en las mismas unidades que los datos, pero elevadas al cubo, por lo cubo, por lo
que serque seráá dependiente del cambio de escala.dependiente del cambio de escala.
Para conseguir un coeficiente adimensional se construye el coefiPara conseguir un coeficiente adimensional se construye el coeficiente de ciente de
asimetrasimetríía de Fisher que denotamos por g1:a de Fisher que denotamos por g1:
( )
( )23
1
2
1
3
33
1
−
−
==
∑
∑
=
=
n
nxx
n
nxx
mg
n
iii
n
iii
σ( )
( )( ) 2322
323
1
23
xx
xxxxg
−
+−=
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
CCáálculo del lculo del ÍÍ ndice de Asimetrndice de Asimetríía de Fishera de Fisher
X i n i
0 21 62 103 134 65 3
40
X i n i X i2 n i X i
3 n i
0 0 06 6 620 40 8039 117 35124 96 38415 75 375104 334 1.196
( )( )( ) 2322
323
1
23
xx
xxxxg
−
+−= ( ) 0389,06,235,8
6,226,235,839,29232
3
−=−
×+××−=
Para datos continuos agrupadas en intervalos se hace lo mismo, pero empleando las marcas de clase.
Para datos continuos agrupadas en intervalos se hace lo mismo, pero empleando las marcas de clase.
2,6 8,35 29,90
x 2x 3x
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Otras medidas de AsimetrOtras medidas de Asimetrííaa
Coeficiente de Karl Pearson
Para distribuciones campaniformes, unimodales y moderadamente asimétricas.
Se emplean dos medidas alternativas que son aproximadamente iguales:
Coeficiente de Karl Coeficiente de Karl PearsonPearson
Para distribuciones Para distribuciones campaniformescampaniformes, , unimodalesunimodales y moderadamente asimy moderadamente asiméétricas. tricas.
Se emplean dos medidas alternativas que son aproximadamente iguaSe emplean dos medidas alternativas que son aproximadamente iguales:les:
σModax
Ap
−= ( )σ
xxAp
~3 −=
Coeficiente de Yule BowleyCoeficiente de Yule Bowley
( ) ( )( )13
1223
QQQQAs −
−−−=
Coeficiente absoluto de asimetríaCoeficiente absoluto de asimetría
σ213 2QQQ
AB
−+=
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Medida del ApuntamientoMedida del Apuntamiento
Una vez determinada la simetrUna vez determinada la simetríía tiene intera tiene interéés saber si la distribucis saber si la distribucióón de n de
frecuencias es frecuencias es ““muy apuntadamuy apuntada”” o si es o si es ““muy aplastadamuy aplastada”” o, por si no se da ninguna o, por si no se da ninguna
de las dos situaciones.de las dos situaciones.
El patrEl patróón de referencia para discernir entre las dos situaciones mencionn de referencia para discernir entre las dos situaciones mencionadas lo adas lo
constituye la constituye la ““distribucidistribucióón normaln normal”” (m(máás adelante se tratars adelante se trataráá en detalle la en detalle la
distribucidistribucióón normal).n normal).
NormalAplastada Apuntada
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Medida del Apuntamiento: La Medida del Apuntamiento: La curtosiscurtosis
Para medir el apuntamiento emplearemos el coeficiente de aplastamiento de Fishero curtosis, que se define a partir de la expresión:
344
2 −=σ
γ m
( )n
nxxm
I
iii∑
=
−= 1
4
4
m4 es el momento central de cuarto orden:
A partir del valor de γ2 se clasifican las distribuciones de frecuencias como:
02 <γ
02 =γ
02 >γ Leptocúrtica: más apuntada que la normal.
Mesocúrtica: tan apuntada como normal.
Platicúrtica : menos apuntada que la normal.
Sólo se calculará la curtosis para distribuciones cuya simetría se haya constatado.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Curtosis o apuntamiento
Las distribuciones de frecuencias pueden clasificarse por su altura en:– Platicúrticas -> valor de curtosis, K < 0
– Mesocúrticas-> valor de curtosis, K = 0– Leptocúrticas-> valor de curtosis, K > 0
3)(
41
4
−⋅
−=∑
=
sn
xxnK
n
imii Cuando es mayor en valor absoluto que 0,20 podemos
decir que es asimétrica.
NormalAplastada Apuntada
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICADepartamento de EpidemiologDepartamento de Epidemiologíía, a,
AnAnáálisis critico y Metodologlisis critico y Metodologíía de la investigacia de la investigacióónn
GuiGuióón:n:
1.1. IntroducciIntroduccióón a la estadn a la estadíística descriptiva.stica descriptiva.
2.2. OrganizaciOrganizacióón de los datos: Tablas de Frecuencias.n de los datos: Tablas de Frecuencias.
3.3. RepresentaciRepresentacióón Grafica de Variables Categn Grafica de Variables Categóóricas.ricas.
4.4. EstadEstadíísticos descriptivos de Variables Continuas.sticos descriptivos de Variables Continuas.
5.5. RepresentaciRepresentacióón Grafica de Variables Continuas.n Grafica de Variables Continuas.
� Tema 3: Estadística Descriptiva
BIOESTADISTICA
Diagrama de tallo y hojasDiagrama de tallo y hojas
68 63 42 27 30 36 28 32 79 2722 23 24 25 44 65 43 25 74 5136 42 28 31 28 25 45 12 57 5112 32 49 38 42 27 31 50 38 2116 24 69 47 23 22 43 27 49 2823 19 46 30 43 49 12
El diagrama de Tallo y Hojas es una representaciEl diagrama de Tallo y Hojas es una representacióón n úútil para til para variables variables
discretasdiscretas con un ncon un núúmero elevado de observaciones.mero elevado de observaciones.
En la siguiente tabla aparece el peso, En la siguiente tabla aparece el peso,
en libras, de 57 nien libras, de 57 niñños, con un peso os, con un peso
mmíínimo de 12 libras y un mnimo de 12 libras y un mááximo de ximo de
79 libras:79 libras:
Los datos aparecen segLos datos aparecen segúún han sido recogidos, es decir, no estn han sido recogidos, es decir, no estáán ordenados n ordenados
(el proceso ser(el proceso seríía un poco ma un poco máás sencillo si lo estuvieran).s sencillo si lo estuvieran).
El primer paso es decidir las ramas que se va a incluir, lo cualEl primer paso es decidir las ramas que se va a incluir, lo cual, en este caso es , en este caso es
sencillo, ya que al ser nsencillo, ya que al ser núúmeros de dos cifras se va a emplear la cifra de las meros de dos cifras se va a emplear la cifra de las
decenas como rama y la de las unidades como hoja, con o que tenedecenas como rama y la de las unidades como hoja, con o que tenemos 7 mos 7
ramas: {1,2,3,4,5,6,7}.ramas: {1,2,3,4,5,6,7}.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Diagrama de tallo y hojas (continuaciDiagrama de tallo y hojas (continuacióón)n)
68 63 42 27 30 36 28 32 79 2722 23 24 25 44 65 43 25 74 5136 42 28 31 28 25 45 12 57 5112 32 49 38 42 27 31 50 38 2116 24 69 47 23 22 43 27 49 2823 19 46 30 43 49 12
Para facilitar la legibilidad del Para facilitar la legibilidad del
diagrama se aconseja reordenar diagrama se aconseja reordenar
las hojas.las hojas.
1 :
2 :
3 :
4 :
5 :
6 :
7 :
883
2
83
26922
2334487583572857718
6218006128
2296742393539
0711
8395
94
ram
as
1 : 22269
2 : 1223334455577778888
3 : 0011226688
4 : 2223334567999
5 : 0117
6 : 3589
7 : 49
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Diagrama de tallo y hojas (continuaciDiagrama de tallo y hojas (continuacióón)n)
1 : 22269
2 : 1223334455577778888
3 : 0011226688
4 : 2223334567999
5 : 0117
6 : 3589
7 : 49
222
69
12233344
55577778888
001122
6688
2223334
567999
011
7
3
589
4
9
5
6
7
:
:
:
:
:
:
:
1
2
3
4
A veces se aprecia mejor como se distribuyen A veces se aprecia mejor como se distribuyen
los datos si se divide cada rama en dos, con las los datos si se divide cada rama en dos, con las
hojas {0, hojas {0, ……, 4} y {5, , 4} y {5, ……, 9}, respectivamente., 9}, respectivamente.
Este diagrama combina las caracterEste diagrama combina las caracteríísticas de un sticas de un
grgrááfico y los de una tabla, permitiendo recuperar los fico y los de una tabla, permitiendo recuperar los
datos originales.datos originales.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
GrGr ááficos para variables continuas: Histogramaficos para variables continuas: Histograma
Agrupamos los datos en intervalos [Li, Agrupamos los datos en intervalos [Li, UiUi[ y construimos un diagrama formado [ y construimos un diagrama formado
un rectun rectáángulo para cada intervalo, cuya ngulo para cada intervalo, cuya base es el intervalobase es el intervalo (en el eje de (en el eje de
abcisasabcisas) y cuya ) y cuya áárea es proporcional a la frecuenciarea es proporcional a la frecuencia del intervalo.del intervalo.
Si necesitamos un valor representativo para cada intervalo recurSi necesitamos un valor representativo para cada intervalo recurrimos a la rimos a la
Marca de Clase que es el valor central del intervalo: Marca de Clase que es el valor central del intervalo: xixi = (Li + = (Li + UiUi)/2)/2
La base de cada rectLa base de cada rectáángulo es la longitud del intervalo: ngulo es la longitud del intervalo: cici = = UiUi –– Li.Li.
Al ser el Al ser el áárea proporcional a la frecuencia de la clase, podemos calcular lrea proporcional a la frecuencia de la clase, podemos calcular la a alturaaltura
con la expresicon la expresióón: n: hihi = ni/ci= ni/ci..
Intervalo M.C. ni
[0; 3[ 1,50 12[3; 5[ 4,00 15[5; 7[ 6,00 20
[7; 8,5[ 7,75 9[8,5; 10] 9,25 12
c i
322
1,51,5
h i
4,07,5
10,06,08,0
iii LUc −=
i
ii c
nh =
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Intervalo M.C. ni c i h i
[0; 3[ 1,50 12 3 4,0[3; 5[ 4,00 15 2 7,5[5; 7[ 6,00 20 2 10,0
[7; 8,5[ 7,75 9 1,5 6,0[8,5; 10] 9,25 12 1,5 8,0
02468
1012
0 1 2 3 4 5 6 7 8 9 10
Tema 3: Estadstadíística Descriptivastica Descriptiva
GrGr ááficos para variables continuas: Histograma (II)ficos para variables continuas: Histograma (II)
BIOESTADISTICA
Se unen con lSe unen con lííneas rectas, en el histograma, los puntos neas rectas, en el histograma, los puntos
correspondientes a las marcas de clase. Para completar cada correspondientes a las marcas de clase. Para completar cada
extremo se aextremo se aññade un intervalo exterior, de la misma amplitud que ade un intervalo exterior, de la misma amplitud que
el extremo, y de altura nula.el extremo, y de altura nula.
0
2
4
6
8
10
-3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12
Tema 3: Estadstadíística Descriptivastica Descriptiva
PolPolíígono Frecuencias Absolutasgono Frecuencias Absolutas
BIOESTADISTICA
Es la poligonal definida en Es la poligonal definida en abcisasabcisas a partir de los extremos de los a partir de los extremos de los
intervalos y en ordenadas por alturas proporcionales a las intervalos y en ordenadas por alturas proporcionales a las
frecuencias absolutas acumuladas.frecuencias absolutas acumuladas.
Intervalo M.C. ni N i
[0; 3[ 1,50 12 12[3; 5[ 4,00 15 27[5; 7[ 6,00 20 47
[7; 8,5[ 7,75 9 56[8,5; 10] 9,25 12 68
0
12
27
4756
68
010203040506070
0,0 2,0 4,0 6,0 8,0 10,0
Tema 3: Estadstadíística Descriptivastica Descriptiva
PolPolíígono Frecuencias Acumuladasgono Frecuencias Acumuladas
BIOESTADISTICA
Uso del histograma con variables discretasUso del histograma con variables discretas
El histograma puede emplearse, de manera aproximada, para El histograma puede emplearse, de manera aproximada, para
variables discretas con un nvariables discretas con un núúmero elevado de observaciones.mero elevado de observaciones.
Lo ilustraremos con el ejemplo del peso de 57 niLo ilustraremos con el ejemplo del peso de 57 niñños.os.
Intervalo x i n i c i h i N i
[10, 20[ 15 5 10 0,5 5[20, 30[ 25 19 10 1,9 24[30, 40[ 35 10 10 1,0 34[40, 50[ 45 13 10 1,3 47[50, 60[ 55 4 10 0,4 51[60, 70[ 65 4 10 0,4 55[70, 80] 75 2 10 0,2 57
57
0
5
10
15
20
0 10 20 30 40 50 60 70 80 90
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
1 : 22269
2 : 1223334455577778888
3 : 0011226688
4 : 2223334567999
5 : 0117
6 : 3589
7 : 49
0
5
10
15
20
0 10 20 30 40 50 60 70 80 90
Comparativa Tallo y Hojas Comparativa Tallo y Hojas vsvs HistogramaHistograma
En las figuras se muestran juntas las dos representaciones En las figuras se muestran juntas las dos representaciones
grgrááficas para los datos del peso de 57 nificas para los datos del peso de 57 niñños.os.
Diagrama de Tallo y hojas Histograma
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
GrGr ááficos para variables continuas:ficos para variables continuas:El Diagrama de CajaEl Diagrama de Caja
El diagrama de caja (BoxEl diagrama de caja (Box--WhiskerWhisker) es una representaci) es una representacióón grn grááfica fica
que permite apreciar las principales caracterque permite apreciar las principales caracteríísticas de un conjunto sticas de un conjunto
de datos, sede datos, seññalando los datos analando los datos anóómalos.malos.
Q1 Q2 Q3
13 QQRI −=
Datos anómalos
Mayor dato no anómaloMenor dato no anómalo
( )135,1 QQ −×( )135,1 QQ −×
LI LS
25%25% 25%
25%
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
ConstrucciConstruccióón de un Diagrama de Caja (I)n de un Diagrama de Caja (I)
1.1. Ordenar los datos de menor a mayor, calculando el Ordenar los datos de menor a mayor, calculando el mmíínimonimo
((MinMin), el ), el mmááximoximo (Max), los (Max), los cuartilescuartiles (Q1, Q2 y Q3) y el (Q1, Q2 y Q3) y el rango rango
intercuartintercuartíílicolico, medido con la expresi, medido con la expresióón RI = Q3 n RI = Q3 –– Q1.Q1.
2.2. Dibujar un rectDibujar un rectáángulo cuyos extremos son Q1 y Q3 partido en ngulo cuyos extremos son Q1 y Q3 partido en
dos trozos por la mediana Q2.dos trozos por la mediana Q2.
Tema 3: Estadstadíística Descriptivastica Descriptiva
Para construir un diagrama de caja seguiremos los siguientes pasPara construir un diagrama de caja seguiremos los siguientes pasos:os:
BIOESTADISTICA
ConstrucciConstruccióón de un Diagrama de Caja (II)n de un Diagrama de Caja (II)
3.3. Calcular los Calcular los llíímites admisiblesmites admisibles superior e inferior (LS y LI) que servirsuperior e inferior (LS y LI) que serviráán para n para
identificar los posibles datos anidentificar los posibles datos anóómalos.malos.
LI = Q1 LI = Q1 –– 1,5RI1,5RI LS = Q3 + 1,5RILS = Q3 + 1,5RI
4.4. Considerar como Considerar como datos andatos anóómalosmalos los situados fuera del intervalo [LI, LS].los situados fuera del intervalo [LI, LS].
5.5. Dibujar una lDibujar una líínea (nea (whiskerwhisker o bigoteo bigote) que vaya desde cada extremo del ) que vaya desde cada extremo del
rectrectáángulo central hasta el valor mngulo central hasta el valor máás alejado no ans alejado no anóómalo.malo.
6.6. Identificar todos los datos anIdentificar todos los datos anóómalos, que son los que estmalos, que son los que estáán fuera del n fuera del
intervalo [LI, LS].intervalo [LI, LS].
Tema 3: Estadstadíística Descriptivastica Descriptiva
Para construir un diagrama de caja seguiremos los siguientes pasPara construir un diagrama de caja seguiremos los siguientes pasos:os:
BIOESTADISTICA
Eslovaquia 0,4 Islandia 3,5 Noruega 8,6 Luxemburgo 17,7Turquia 0,6 Polonia 3,8 Grecia 8,7 Francia 24,3República Checa 0,8 Finlandia 4,8 Alemania 9,2 Italia 29,7Bulgaria 1,7 Malta 5,1 Irlanda 9,7 Letonia 31,5Croacia 2,1 Suecia 5,8 Bélgica 11,8 Suiza 32,1Lituania 2,5 Austria 6,8 Reino Unido 15,5 España 55,5Hungría 2,6 Dinamarca 7,1 Rumanía 15,7 Portugal 88,8Eslovenia 3,0 Estonia 7,4 Países Bajos 16,9
Ejemplo de construcciEjemplo de construccióón de un Diagrama de Cajan de un Diagrama de CajaSegSegúún el Centro Europeo para la Vigilancia Epidemioln el Centro Europeo para la Vigilancia Epidemiolóógica del SIDA, las Tasas de gica del SIDA, las Tasas de
SIDA en 31 paSIDA en 31 paííses europeos (nuevos casos por millses europeos (nuevos casos por millóón de habitantes) en el an de habitantes) en el añño o
2003, son las que aparecen en la siguiente tabla:2003, son las que aparecen en la siguiente tabla:
0,31 =Q
4,72 =Q
9,163 =Q
( ) 85,170,39,165,10,3 −=−×−=LI ( ) 75,370,39,165,19,16 =−×+=LS
… …
España Portugal
3,0 7,4 16,9 37,75
0,4 32,1
55,5 88,8
14=X
Nota: Los extremos del Nota: Los extremos del ““bigotebigote”” siempre deben contener un dato, no siempre deben contener un dato, no
confundir con los lconfundir con los líímites inferior y superior.mites inferior y superior.
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Ejemplo del uso de Diagramas de CajaEjemplo del uso de Diagramas de Caja
49,2OFT Quirurgica25,2NEF Medica15,5DIE Medica
43,2ACV Quirurgica24,8PED Medica15,0REU Medica
42,9ALG Medica24,6GER Medica14,4CPL Quirurgica
39,7NEM Medica22,7NCG Quirurgica13,9UMI Medica
35,0NER Medica21,8URO Quirurgica13,4ODO Quirurgica
33,7CAR Medica21,7CCA Quirurgica12,4ECR Medica
32,4DER Quirurgica20,5MDI Medica12,0UAT Medica
31,0COT Quirurgica19,6MIN Medica11,0HEM Medica
30,7USSRQuirurgica19,4GIN Quirurgica10,5CIR Quirurgica
29,5ORL Quirurgica19,2UDC Medica9,7CTO Quirurgica
29,1CMX Quirurgica18,9HTA Medica9,5CGI Quirurgica
27,9AO Quirurgica17,9PSQ Medica8,0ONC Medica
26,3UEI Medica16,9REH Medica0,5MPR Medica
En un hospital se ha medido el tiempo medio de espera, en meses,En un hospital se ha medido el tiempo medio de espera, en meses, en diferentes en diferentes servicios del servicios del áárea mrea méédica y del dica y del áárea quirrea quirúúrgica, obtenirgica, obteniééndose la siguiente tabla:ndose la siguiente tabla:
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Médica (22)
Quirúrgica (17)
Todas (39)
13,9
13,9
20,5 29,5
19,1 25,2
14,4 22,7 30,7
0,5 49,2
0,5 39,7
9,5 49,2
ALG42,9
ALG42,9
Ejemplo del uso de Diagramas de Caja (soluciEjemplo del uso de Diagramas de Caja (solucióón)n)
Tema 3: Estadstadíística Descriptivastica Descriptiva
BIOESTADISTICA
Uso comparativo del Diagramas de CajaUso comparativo del Diagramas de Caja
Tema 3: Estadstadíística Descriptivastica Descriptiva