apuntes metodologia invest ii final
TRANSCRIPT
1
INSTITUTO POLITÉCNICO NACIONAL
ESCUELA NACIONAL DE MEDICINA Y HOMEOPATÍA
APUNTES DE METODOLOGÍA DE LA
INVESTIGACIÓN ESTADÍSTICA II
Asesorado y revisado por el docente:
M. en C. BEATRIZ EUGENIA GÁMIZ CASARRUBIAS
Realizado por las alumnas asesoras: Yareli Cecilia Pérez Herrera
María Isabel López Arroyo
2
TEORÍA DE CONJUNTOS
El estudio de la teoría de conjuntos nos permite recordar conceptos que serán empleados a lo largo de los apuntes. Tenemos el siguiente diagrama de Venn enumerar cada uno de los siguientes conjuntos.
a) A U B = {a,b,c,d,e,f,g,h,i,j,k,o,p,q} b) A ∩ B = {d,e,f,g} c) A U C = {a,b,c,d,e,f,g,h,i,j,k,l,m,n} d) C U B= { d,e,f,g,h,i,j,k,l,m,n,o,p,q,} e) A ∩ C= {f,g,h,i} f) C ∩ B= {f,g,j,k} g) A∩B∩C={f,g} h) A U C U C= {a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q} i) (A U B U C)’= {r,s} j) B’ = {a,b,c,h,i,l,m,n,r,s} k) (A U B)’= {m,l,n,r,s} l) A – B ={a,b,c,h,i } m) B - C = {d,e,o,p,q}
3
UNIÓN La unión de dos conjunto A y B es el conjunto que consta de todos los elementos de A o B o de ambas si se indica mediante el símbolo U o sea AUB
INTERSECCIÓN La intersección de dos conjuntos A y B es el conjunto que contiene todos los elementos de A y de B, se indica por medio de o ser A∩B.
4
COMPLEMENTO El complemento de un subconjunto A del conjunto universal U es el conjunto que consta de todos los elementos de U que no son elementos del conjunto A.
DISJUNTOS Ó MUTUAMENTE EXCLUYENTES. Se dice que dos conjuntos A y B son disjuntos o mutuamente excluyentes cuando no tienen ningún elemento común.
o
5
Resta A - B. A menos B es el conjunto de todas los elementos que se encuentran en EL conjunto A que no se encuentran en B o bien se toma el conjunto A y se eliminan los elementos que son del comunes con B.
LEYES DE MORGAN.
a) (A U B)’ = ( A’) ∩ ( B’).
(A ∩ B)’ (A’) ∩(B’)
b) (A ∩ B)’= ( A’ ) U( B’) (A ∩ B)’
c) A C B si y solo si A´ ּכ B´
6
d) A ∩ B {Ø} A C B' y B C A'
EJEMPLOS 1.- Se les pidió a 100 comerciantes que dijeran que tipo de programa de televisión preferían , se clasificaron de acuerdo al nivel de estudios de los comerciantes y al tipo de programa preferido, especificar el número de elementos de cada conjunto.
(A) (B) (C) (D) Programa/nivel Secundaria Preparatoria Licenciatura Total Deportes (S) 15 8 7 30 Noticias (N) 3 7 20 30 Drama (D) 5 5 15 25 Comedia (W) 10 3 2 15 Total 33 23 44 100
a) los que ven deporte (s) = 30 b) ven drama o tienen licenciatura = (D U C) – (D∩C)= 25+44-15=54 c) los que tienen secundaria (A) = 33 d) los que no ven comedia (W)' = 100-15 = 85 e) los que ven noticias y tienen preparatoria (N ∩ B) = 7 f) los que ven deportes o tienen preparatoria (S U B)-(S∩B)=30+23-8=45 g) los que no ven noticias y con licenciatura(N∩C)'=100-20 N'∩C=7+15+2=24 h) los que ven noticias y no licenciatura N∩C'=3+7=10 i) los que tienen estudios diferentes de preparatoria B' =100-23 j) los que ven drama con estudios menores a licenciatura D∩(AUB)=5+5=10
7
46
5
4
7
3
11
24
2.- Los estudiantes de medicina se inscribieron a diferentes actividades deportivas, encontrando: 60% fútbol, 25% en básquetbol;15% en natación; 14% en fútbol y Básquetbol; 10% en básquetbol y natación; 3% en fútbol, básquetbol y natación. ¿Cuántos están en un solo deporte? ¿Cuántos están en 2 deportes?
F=60% B=25% N=15% FB=14% BN=10% FBN=3%
Un solo deporte 46+4+5=55 2 deporte 11+7=18 Ningún deporte 100-(46+11+4+3+7+5)=100-76=24 3.- A 75 personas se les tipifica un grupo sanguíneo, encontrando que 65 de ellos son Rh+ de los cuales 25 son tipo A; 30 son tipo B y 10 tipo AB; de los 10 Rh- se encontró 3 de tipo A, 4 de tipo B y 1 tipo AB. Encontrar cuantos tipos O RH+ y Rh- se encuentran. Rh+ = 65 A = 25 B = 30 AB = 10
15+10+20=45 ►65-45=20 O RH+
20
A B
15 10
8
Rh- = 10 A = 3 B = 4 AB = 1
2+1+3=6 ►10-6=4 O RH¯
3
A B
2 1
9
ESTADÍSTICA DESCRIPTIVA
Datos. Es cualquier observación. Los números son un dato, pero no todos los daros son numero. Ejemplo: Numero 4,(2,10) ojos cafés, dolor severo. Se clasifican en: Datos agrupados. Es un dato que se representa por intervalos ejemplo.(a,b); (2,10). Datos no agrupados. Es un dato que se representa por puntos ejemplo. A, 4, 10. -2 EJEMPLO: En el examen final de ANATOMÍA de un grupo de 30 estudiantes se obtuvieron las siguientes calificaciones: 4,3,7,5,3,1,6,8,0,5,3,4,10, 0, 2,8,3,0,6,4,6,2,5,5,2,3,6,2,5,1 < Se ordenan los datos en forma no agrupada y agrupada.
NO
AGRUPADOS
AGRUPADOS Frecuencia.
f
0 III 3 0≤X<2 5
1 II 2 2≤X<4 9
2 IIII 4 4≤X<6 8
3 IIII 5 6≤X<8 5
4 III 3 8≤X<10 2
5 IIII 5 10≤X<12 1
6 IIII 4 30
7 I 1
8 II 2
9 0
10 I 1
30
Un dato agrupado en un intervalo llamado INTERVALO DE CLASE, a los extremos se les llama. LIMITE DE CLASE, siendo el de la izquierda el límite inferior y el de la derecha el superior, a los valores de la muestra en cada intervalo se le llama CLASE Y FRECUENCIA, el número de veces que se repite un dato, mientras que FRECUENCIA DE CLASE, es el numero de valores en una clase, (valores = dato). El TAMAÑO DE LA MUESTRA, es igual a la suma de todas las frecuencias de los valores de las observaciones o de los datos. Para realizar el análisis de los datos no agrupados como datos agrupados:
1. Detectar el dato o valor mínimo y el dato o valor máximo. 2. calcular la diferencia X máx. – X min. 10-0= 10
10
3. el número de intervalos entre la amplitud más 1. 5+ 1= 6.
4. fijar la amplitud que uno quiera pero dependiendo del número de intervalos = 2
5. los intervalos de clase pueden ser más de 15 ni menos de 5.
FRECUENCIA ACUMULADA. ¨F¨ Es la suma de las frecuencias de los datos o valores de la muestra ordenada de menor a mayor. Fi= f1, f1+ f2, f1+f2+f3, f1+f2+f3+f4+……+fn FRECUENCIA RELATIVA.
Es el cociente de las frecuencias de ese dato entre el tamaño de la muestra.
FRECUENCIA ACUMULADA RELATIVA.
, Es el cociente de la frecuencia acumulada de ese dato entre el tamaño de la muestra.
Del ejemplo de las clasificaciones para los 30 estudiantes tenemos: DATOS NO AGRUPADOS.
Xi (calificaciones)
f. frecuencia
F. Frecuencia Acumulada
frecuencia
relativa.
Frecuencia acumulada
relativa
0 3 3 3/30 3/30 1 2 5 2/30 5/30 2 4 9 4/30 9/30 3 5 14 5/30 14/30 4 3 17 3/30 17/30 5 5 22 5/30 22/30 6 4 26 4/30 26/30 7 1 27 1/30 27/30 8 2 29 2/30 29/30 9 0 29 0/30 29/30
10 1 30 1/30 30/30 Total 30 30/30
11
DATOS AGRUPADOS.
# intervalo
intervalo f
frecuencia
F Frecuencia acumulada
.
Frecuencia relativa.
. Frecuencia acumulada
relativa
1 0≤X<2 5 5 5/30 5/30
2 2≤X<4 9 14 9/30 14/30
3 4≤X<6 8 22 8/30 22/30 4 6≤X<8 5 27 5/30 27/30 5 8≤X<10 2 29 2/30 29/30 6 10≤X<12 1 30 1/30 30/30
Total 30 30/30 La suma de frecuencia es igual al tamaño de la muestra. f (Xi) +f(X2)+f(X3)+f(X4)+……….+f(Xm) = N si m≤N. La suma de las frecuencias relativas es igual a 1.
(X1)+ (X2)+ (X3)+………+ (Xm) = 1 EJEMPLOS: En una muestra de 25 familias donde se investigo el número de hijos
tenidos, se tiene. 4,2,2,0,3,4,1,3,2,1,1,3,3,5,4,2,3,1,5,4,0,6,2,3,1. Construir las tablas de frecuencias para datos no agrupados y agrupados. DATOS NO AGRUPADOS.
# HIJOS f F 0 2 2 2/25 2/25 1 5 7 5/25 7/25 2 5 12 5/25 12/25 3 6 18 6/25 18/25 4 4 22 4/25 22/25 5 2 24 2/25 24/25 6 1 25 1/25 25/25
Total 25 25/25
12
DATOS AGRUPADOS. A 60 estudiantes se les toman sus respectivas presiones sanguíneas,
leídas en mmhg. Los resultados para la presión sanguínea sistólica son: 142,142,134,110,98,130,136,120,118,130,116,140,118,122,132,128,128,114,138,104,116,110,100,128,128,124,140,108,146,130,116,114,152,118,140,128, 116,110,138,132,118,120,122,120,102,108,112,94,130,130,118,120,128,108, 120, 124, 110, 124, 132,118. Construir la tabla de frecuencias para datos agrupados y no agrupados. NO AGRUPADOS. PRESIÓN f F
94 1 1 1/60 1/60
98 1 2 1/60 2/60
100 1 3 1/60 3/60
102 1 4 1/60 4/60
104 1 5 1/60 5/60
108 3 8 3/60 8/60
110 4 12 4/60 12/60
112 1 13 1/60 13/60
114 2 15 2/60 15/60
116 4 19 4/60 19/60
118 6 25 6/60 25/60
120 5 30 5/60 30/60
122 2 32 2/60 32/60
124 3 35 3/60 35/60
128 6 41 6/60 41/60
130 5 46 5/60 46/60
132 3 49 3/60 49/60
134 1 50 1/60 50/60
136 1 51 1/60 51/60
138 2 53 2/60 53/60
140 3 56 3/60 56/60
142 2 58 2/60 58/60
146 1 59 1/60 59/60
152 1 60 1/60 60/60
60 60/60
# INTERVALO
INTERVALO f f
1 0≤X<2 7 7 7/25 7/25 2 2≤X<4 11 18 11/25 18/25 3 4≤X<6 6 24 6/25 24/25 4 6≤X<8 1 25 1/25 25/25 25 25/25
9 4,8
10 8,4,0,8,8,2
11 6,4,2,4,0,8,6,8,0,6,0,8,6,8,0,8,8
12 8,8,8,0,0,8,8,8,0,4,4,0,2,4,2,0
13 4,8,0,0,0,6,8,0,2,2,2,0
14 2,2,0,0,0,6
15 2
13
AGRUPADOS. 152-94=58÷5=11+1=12
# INTERVALO f F
1 94≤X<99 2 2 2/60 2/60
2 99≤X<105 2 4 2/60 4/60
3 104≤X<109 4 8 4/60 8/60
4 109≤X<114 5 13 5/60 13/60
5 114≤X<119 12 25 12/60 25/60
6 119≤X<124 7 32 7/60 32/60
7 124≤X<129 9 41 9/60 41/60
8 129≤X<134 8 49 8/60 49/60
9 134≤X<139 4 53 4/60 53/60
10 139≤X<144 5 58 5/60 58/60
11 144≤X<149 1 59 1/60 59/60
12 149≤X<154 1 60 1/60 60/60
60 60/60 152-94=58÷6=9+1=10
# INTERVALO f F
1 94≤X<100 2 2 2/60 2/60
2 100≤X<106 3 5 3/60 5/60
3 106≤X<112 7 12 7/60 12/60
4 112≤X<118 7 19 7/60 19/60
5 118≤X<124 13 32 13/60 32/60
6 124≤X<130 9 41 9/60 41/60
7 130≤X<136 9 50 9/60 50/60
8 136≤X<142 6 56 6/60 56/60
9 142≤X<148 3 59 3/60 59/60
10 148≤X<154 1 60 1/60 60/60
60 60/60
14
MEDIDAS DE TENENCIA CENTRAL.
Después de considerar los datos de una población o de una muestra y elaborada la distribución de frecuencias de donde obtenemos información preliminar de interés pero debemos reducir los valores hasta obtener uno solo que represente al conjunto de datos de manera descriptiva; a este valor se le llama. VALOR MEDIO. El valor medio debe cumplir la condición de ser representativo del conjunto. Los valores que cumplen con ésta condición son; LA MEDIA ARITMÉTICA, LA MEDIANA, Y LMODA. MODA. Es el valor que aparece con mayor frecuencia en un grupo de datos. Del ejemplo de las calificaciones de los alumnos: CALIFICACIÓN f F
0 3 3
1 2 5
2 4 9
3 5 14
4 3 17
5 5 22
6 4 26
7 1 27
8 2 29
9 0 29
10 1 30
30 BIMODAL 3 Y 5 MODA en datos agrupados
Li= Limite inferior de la clase modal= 2
∆1= Diferencia ÷ la mayor frecuencia y la frecuencia anterior= 9 - 5
∆2= Diferencia ÷ la mayor frecuencia y la frecuencia siguiente= 9 - 8
I= Valor del intervalo= 2
= 2 + 1.6 = 3.6
# INTERVALO f F
1 0-2 5 5
2 2-4 9 14
3 4-6 8 22
4 6-8 5 27
5 8-10 2 29
6 10-12 1 30
30
15
La moda no es una medida de tendencia central muy usual, sin embargo es vital para determinar por ejemplo: que medicamento es el que más se vende o la dosis que con mayor frecuencia se receta. MEDIANA. Si todos los valores observados se ordenan de acuerdo a su magnitud la MEDIANA es el valor que ocupa el lugar central, o sea la mitad, esto es, es el valor que divide a los datos ordenados o a una distribución en dos partes iguales ( ½ y ½ ). Si el número de observaciones es IMPAR la MEDIANA coincide con el valor
central o bien podemos calcular el valor del dato
Ejemplo: Si hay 115 datos la mediana es el valor del dato (115+1)/2 = 116/2 = 58 Si el número de datos es PAR la MEDIANA es la medida de los valores de los datos.
Ejemplo: Si contamos con 98 datos, La mediana la obtendremos calculando la media de los datos 98 / 2 y 100 / 2 o sea el promedio entre 49 y 50. De los ejemplos de las calificaciones y de los hijos tenemos:
PAR 30/2 y (30+2)/2 30/2 y 32/2 LUGAR 15 Y 16 POR LO TANTO LA MEDIA DEL VALOR: ENTRE 4 Y 4 = 4
CALIFICACION f F
0 3 3
1 2 5
2 4 9
3 5 14
4 3 17
5 5 22
6 4 26
7 1 27
8 2 29
9 0 29
10 1 30
16
IMPAR (25+1) / 2 = 26/2 LUGAR 13 VALOR 3
Si los datos están agrupados entonces la MEDIANA EN SERIE ACUMULADA se debe calcular la frecuencia acumulada el valor de la variable que comprenda a la frecuencia acumulada donde se encuentra n/2 o sea el 50% de los datos se calcula con:
Li = Limite inferior de la clase mediana. FA = Frecuencia acumulada anterior. Fm = Frecuencia de la clase mediana. I = valor del intervalo. De los ejemplos de calificaciones tenemos.
Li = 4 FA = 14 Fm = 8 I = 2
Md= 4 + (1/8)*2= 4 + (2/8) = 4 + 0.25 = 4.25
HIJOS f F
0 2 2
1 5 7
2 5 12
3 6 18
4 4 22
5 2 24
6 1 25
# INTERVALO f F
1 0≤X<2 5 5
2 2≤X<4 9 14
3 4≤X<6 8 22
4 6≤X<8 5 27
5 8≤X<10 2 29
6 10≤X<12 1 30
17
Ejemplo:
n/2 = 65/2 = 32.5 Li = 70 Fa = 18 fm = 16 I = 10
Md = 70 + ((32.5-18)/16)*10 = 70 + (14.5/16)*10
= 70 + (0.906)*10 = 70 + 9.06 = 79.06 El 50% de los obreros gana menos de $79.06 MEDIA ARITMÉTICA. Es la medida de tendencia central que se encuentra con más frecuencia, se calcula sumando los valores que se tomaron en cuenta para la suma, o sea se obtiene al dividir la suma de todos los valores observados entre el número de ellos. Considerando X1, X2, X3, X4…………Xn, a las observaciones de las variables, la media aritmética es:
Ejemplo: del número de hijos se tiene: 0+0+1+1+1+1+1+2+2+2+2+2+3+3+3+3+3+3+4+4+4+4+5+5+6=65
= 65/25 = 2.6
Se tienen las siguientes calificaciones de alumno: 65, 70, 80, 91,96.
= (65+70+80+91+96) / 5 = 410/5 = 82 El número de horas que 10 estudiantes ven televisión son: 24, 25, 22, 20, 15, 25, 17, 16, 15,17.
SALARIO
LIMITE INF
LIMITE SUP
f F
50 59 8 8
60 69 10 18
70 79 16 34
80 89 14 48
90 99 10 58
100 109 5 63
110 119 2 65
65
18
= (24+25+22+20+15+25+17+16+15+17) / 10 = 196/10 = = 19.6 MEDIA CON DATOS AGRUPADOS Se debe recordar que cada valor Xi de la variable, se repite tantas veces como indica su frecuencia fi; entonces la media es la suma de todas las observaciones
iguales; es decir es igual al producto Xi fi entonces la media es:
De los ejemplos de calificaciones y de los hijos
= 119/30
= 3.96
= 65/25
= 2.6
califica f xf
0 3 0 1 2 2 2 4 8 3 5 15 4 3 12 5 5 25 6 4 24 7 1 7 8 2 16 9 0 0 10 1 10
30 119
hijos f xf
0 2 0 1 5 5 2 5 10 3 6 18 4 4 16 5 2 10 6 1 6
25 65
19
MEDIA DE SERIE DE CLASE Y FRECUENCIAS Se suman todos los valores observados y hacemos una aproximación al suponer que todas las observaciones de una clase son iguales a su punto medio o marca de clase. Con esto se convierte una serie de clase en una serie de frecuencias sustituyendo las clases por sus puntos medios, quedando la formula:
De los ejemplos de calificaciones y salarios tenemos
= 136 / 30 = 4.53
= 5185 / 65 = 79.77
Ejemplos Los 17 juegos de la liga de fútbol de un equipo duraron 94, 93, 91, 93, 90, 92, 93, 93, 94, 90, 91, 92, 95, 90, 91 y 93 minutos. Determina su moda, mediana, media.
Califacación fi Mi Mifi
0-2 5 1 5 2-4 9 3 27 4-6 8 5 40 6-8 5 7 35
8-10 2 9 18 10-12 1 11 11
30 136
Salarios fi Mi Mifi
50-59 8 55 440 60-69 10 65 650 70-79 16 75 1200 80-89 14 85 1190 90-99 10 95 950
100-109 5 105 525 110-119 2 115 230
65 5185
20
Moda =93 Mediana= (n+1)/2 = 17+1 =18/2=9 ►93
Media = 1568/17 = 92.23 La distribución de frecuencias de los puntajes de coeficiente intelectual (CI) de 150 estudiantes del tercer grado son las siguientes: calcular MODA, MEDIA, MEDIANA.
Mo = 105+ (7/12) * 5 = 105+ (0.583)5 = 105+2.915 = 107.95
MEDIA
X= 16245 / 150 = 108.30
MEDIANA
n/2 = 150/2 = 75
= 105 + (0.777)*5 = 105 + 3.88 = 108.88 Los salarios mensuales promedio de los médicos residentes en cierto periodo fueron $3,500, $3,200 y $2,800 de acuerdo a si pertenecían al IMSS, ISSSTE o SSA ¿Cuál es el salario promedio mensual de los residentes de estas tres instituciones si contaban con 3,450; 1,200 y 2800 médicos respectivamente.
Xi f F xifi
90 3 3 270 91 3 6 273 92 2 8 184 93 6 13 558 94 2 16 188 95 1 17 95
17 1568
INTERVALO f F mi Mifi
85-89 9 9 87 783
90-94 11 20 92 1012
95-99 14 34 97 1358
100-104 20 54 102 2040
105-109 27← 81← 107 2889
110-114 22 103 112 2464
115-119 19 122 117 2223
120-124 16 138 122 1952
125-129 12 150 127 1524
150 16245
21
xi Médico
residente
xifi
IMSS 3500 3450 12,075,000 ISSSTE 1200 1200 3,840,000
SSA 2800 2800 7,840,000
7400 23,755,000
= 3,210.13
22
MEDIDAS DE DISPERSIÓN Una medida de la manera en que los variables individuales se desvían del valor promedio. Si tenemos por ejemplo que la edad promedio de la fiesta de ayer fue de 18 años, podemos pensar en una fiesta de adolescentes, pero resulta que fue de una abuela de 73 años que ofreció la fiesta a su nieto de 5 años y a sus tres primos de 3,5 y 4 años. Entonces: 73 + 5 + 3 + 5 + 4 = 90 ÷ 5 = 18 Por lo que se requiere calcular otras medidas que nos orienten sobre el comportamiento de los datos observados. Estas medidas llamadas de dispersión, nos indican que tan dispersos están los datos obtenidos en cualquier observación RANGO. Es la diferencia entre el valor máximo y el valor mínimo de los datos observados. De los ejemplos anteriores tenemos Calificaciones. Agrupados Xmax = 10; Xmin = 0 ►R = 10 - 0 = 10
Intervalo Xmax = 12, Xmin = 0 ►R = 12 - 0 = 12 Num de hijos (intervalo) Xmax = 6, Xmin = 0 ►R = 6 – 0 = 6 Salarios (intervalo) Xmax = 119, Xmin = 50 ►R = 119 – 50 = 69 Puntaje CI Xmax = 129, Xmin = 85 ►R = 129 - 85 = 44 Minutos de los partidos Xmax = 95, Xmin = 90 ►R = 95 – 90 = 5 DESVIACIÓN ABSOLUTA MEDIA Es la diferencia que existe de cada valor de la variable y el valor de la media, considerada en valores absolutos
▌Xi ▌
Es la media aritmética de todas las desviaciones respecto a la media.
Si se toma en cuenta el signo de la diferencia Xi - , la suma de las diferencias
respecto a la media es cero, por eso se debe tomar el valor absoluto de la diferencia .
23
= 40 / 4 = 10 DM1 = 16 / 4 = 4
= 40 / 4 = 10 DM2 = 6 = 1.5 En los ejemplos se demuestra que no siempre el valor de la media nos indica cómo se comportan nuestros datos, por lo que se deben realizar otro tipo de cálculos. Como la desviación absoluta media no sigue un proceso riguroso algebraico por lo que se prefiere emplear: VARIANZA Es la suma de los cuadrados de las desviaciones entre el número de observaciones. Si las observaciones corresponden a una muestra de la población se considera
n-1 Esto es: la varianza es el promedio de la diferencias de las observaciones con respeto al valor medio.
Del mismo ejemplo anterior. I Xi ▌Xi- ▌ ▌Xi- ▌²
2 8 64 10 0 0 12 2 4 16 6 36
40 104 II Xi ▌Xi- ▌ ▌Xi- ▌²
8 2 4 9 1 1 10 0 0 13 3 9
40 14
= 40/4 = 10 = 40/4 = 10
I Xi ▌Xi - ▌ II Xi ▌Xi - ▌
2 8 8 2 10 0 9 1 12 2 10 0 16 6 13 3
40 16 40 6
24
2 = 104/3 2 = 14/3
= 34.6
= 4.6
Si los datos están muy dispersos, la varianza es muy grande pero si, los datos están concentrados la varianza es pequeña. DESVIACIÓN ESTÁNDAR. Dado que la varianza es un dato cuyo valor esta al cuadrado no tiene las mismas unidades que los valores de las medidas de tendencia central por lo que se requiere calcular la raíz cuadrada de la varianza y se denomina desviación estándar.
Cuando la media presenta fracciones decimales se ocasionan dificultades de cálculo entonces lo que es preferible en ocasiones utilizar el MÉTODO ABREVIADO. Varianza Deviación estándar
Ejemplo Anterior: X = 40/4 =10
² = 104/3 = 34.6
= √34.6
= 5.88
Xi
IX- I
(X- )²
2 -8 64 10 0 0 12 2 4 16 6 36
40 104
25
= 40/4=10
² 14/3= 4.6
= √4.6
= 2.16 SERIE DE FRECUENCIAS El cálculo de la varianza y la desviación estándar es similar al de la serie simple pero se deben considerar las frecuencias.
lo mismo sucede para la Desviación estándar
Ejemplo Hijos
= 65/25=2.6
²= 60/24=2.5
√2.5=1.58 SERIE DE CLASES Y FRECUENCIAS. En este tipo de arreglos de datos, no tenemos realmente los valores observados, pero se puede tener una aproximación al sustituir cada intervalo de clase por el punto medio y se efectúa el cálculo igual que como serie de frecuencias cambiando la X por M. Ejemplo de salarios.
II X X - (X- )²
8 2 4
9 1 1
10 0 0
13 -3 9
40
Hijos X f F xf x- (X- )² (X- )²f 0 2 2 0 -2.6 6.76 13.52 1 5 7 5 -1.6 2.56 12.8 2 5 12 10 -0.6 0.36 1.8 3 6 18 18 0.4 0.16 .96 4 4 22 16 1.4 1.96 7.84 5 2 24 10 2.4 5.76 11.52 6 1 25 6 3.4 11.56 11.56
25 65 60.00
26
SALARIO f
mi
mifi
m-
(m- )²
(m- )²f 50-59 8 54.5 436 -25.27 638.57 5108.58 60-69 10 64.5 645 -15.27 233.57 2331.73 70-79 16 74.5 1192 -5.27 27.77 444.36 80-89 14 84.5 1183 4.73 22.37 313.22 90-99 10 94.5 945 14.73 216.97 2169.73
100-109 5 104.5 522.5 24.73 611.57 3057.86 110-119 2 114.5 229 34.73 1206.17 2412.34
65 5152.5 15837.82
= 5152.5 / 65 = 79.77
= 15,837.82 / 64 = 247.466
= √247.466 = 15.731
Ejemplos: CALIFICACIONES DE LOS ESTUDIANTES
= 119/ 30
= 3.96
²= 184.967/ 29 = 6.378
= √6.378 = 2.526
X f F Xifi X- (X- )² (X- )²f 0 3 3 0 -3.96 15.68 47.044 1 2 5 2 -2.96 8.76 17.523 2 4 9 8 -1.96 3.84 15.366 3 5 14 15 -0.96 .092 4.608 4 3 17 12 0.04 0.001 0.008 5 5 22 25 1.04 1.08 5.408 6 4 26 24 2.04 4.16 16.646 7 1 27 7 3.04 9.24 9.241 8 2 29 16 4.04 16.32 32.643 9 0 29 0 5.04 25.40 0 10 1 30 10 6.04 36.48 36.48
30 119 184,967
27
= 136/ 30 = 4.53
= 197.464/ 29 = 6.809
= √6.809 = 2.609 Los datos pueden presentarse de manera gráfica para poder realizar un análisis de ellos
CLASE
f
F
m
fm
mX
(m-X)²
(m-X)²f
0≤X2 5 5 1 5 -3.53 12.46 62.304 2≤X4 9 14 3 27 -1.53 2.34 21.068 4≤X6 8 22 5 40 0.47 0.22 1.767 6≤X8 5 27 7 35 2.47 6.10 30.504 8≤X10 2 29 9 18 4.47 19.98 39.961
10≤X12 1 30 11 11 6.47 41.86 41.860
30 136 197.464
28
HISTOGRAMA 1
Los siguientes datos muestran el consumo diario de calorías de 11 jóvenes, los datos originales se dividieron entre 1000 y se redondearon a la décima más próxima. 2.5,2.3,2.4,2.3,2.3,2.5,2.7,2.5,.2.6,2.7,2,7. Calcular moda, mediana, mediana, media, rango, varianza, desv. Estándar. Moda = 2.3 y 2.5 Mediana = 2.5
= 27.4/11 = 2.49 Rango = 2.7-2.3 = 0.4
² = 0.2291/10 = 0.02291
= 0.15136
+ σ 2.3758 y 2.6342
calorías
f
F
Xf
X-X
(X-X)²
(X-X)²f
2.3 3 3 6.9 0.19 0.036 0.1038 2.4 1 4 2.4 0.09 0.008 0.0081 2.5 3 7 7.5 0.01 0.0001 0.0003 2.6 2 9 5.2 0.11 0.0121 0.0242 2.7 2 11 5.4 0.21 0.0441 0.0882
11 27.4 0.2291
29
En un experimento de psicología se pide a varios individuos que memoricen cierta secuencia de palabras, en la tabla se dan los tiempos en segundos que necesitaron los participantes para la memorización. Calcular moda, mediana, media, rango, varianza, de su estándar.
intervalo f F m mf (m-x) (m-X)² (m-X)²f
30-40 6 6 37 222 -56.7 3214.89 19289.34
45-59 9 15 52 468 -41.7 1738.89 15650.01
60-74 10 25 67 670 -26.7 712.89 7128.9
75-89 17 42 82 1394 -11.7 136.89 2327.13
90-104 21 63 97 2037 3.3 10.89 228.69
105-119 17 80 112 1904 18.3 334.89 5693.13
120-134 11 91 127 1397 33.3 1108.89 12197.79
135-149 9 100 142 1278 48.3 2332.89 20996.01
100 9370 83511
Moda
30
Mo = 90 + (4/8)15=90 + (0.5)15= 90+7.5 = 97.5 Mediana
Md = 90 + (8/21)15= 90+120/21 = 90 + 5.71 = 95.71 Media
= 93.7
Rango Rango = Vmáx – Vmín = 149 - 30 = 119 Varianza
= 843.5454 Desviación estándar
= 29.0438
+ σ 64.656 a 122.744
31
TÉCNICAS DE CONTEO
Para realizar cálculos de probabilidades se debe poder determinar el número de veces que ocurre un evento determinado. En muchas situaciones es virtualmente imposible contar el número de documentos de un evento por lo que podemos recurrir a métodos cortos, rápidos y eficaces. Principio de la multiplicación Si hay que hacer operaciones y si la primera se puede hacer de “A1” maneras y si no importa la forma en que se hace la primera, la segunda se puede hacer de “A2” maneras y si no importa la forma en que se hicieron las dos primeras operaciones, la tercera se puede hacer de “A3” maneras, etc. Hasta llegar a “Nk” maneras. Ejemplo Para formar el anuario de la escuela, en una página que debe tener cinco fotografías diferentes ¿Cuántos proyectos de páginas se pueden hacer si se tienen 4 fotografías de un grupo de profesores, 10 fotografías de eventos deportivos, 7 de salones de clase, 8 del terreno de la escuela y 5 de diferentes actividades de los alumnos?
32
Una joven tiene 5 blusas; 4 faldas y 3 pares de zapatos, ¿Cuántos juegos de ropa diferente puede ponerse?
5*4*3 =60 juegos
Diagrama de árbol Se utiliza cuando el número de posibilidades no es demasiado grande. Consta de
una serie de “ramas” que corresponden a cada una de las formas en las que se puede realizar la operación, por lo que solo tenemos que contar éstas ramas. Ejemplo. Un empleado va todos los días a su oficina en automóvil puede llenar por tres rutas diferentes (A,B,C) luego puede tomar tres caminos diferentes de la utopista al centro (I,II,III) y del centro al estacionamiento por dos rutas (1,2); ¿Por cuantas rutas diferentes puede ir? Rutas = 3*3*2 = 18
4
7
8 5
10
4*10*7*8*5=11,200
A
B
C
II
I
II
I
1
1
1
2
2
2
II
I
II
I
1
1
1
2
2
2
II
I
II
I
1
1
1
2
2
2
33
baja
Se realiza un estudio médico de acuerdo al tipo de Sangre (A, B, AB, C) y su presión
cardiovascular, (baja, normal, alta) ¿Cuántos tipos de pacientes existen? Tipos = 4*3 = 12
Permutaciones Sirven para contar el número de todos los diferentes arreglos u ordenamientos que se pueden hacer con un conjunto de objetos. Nos interesa el orden en que se presentan Ejemplo Veinte pilotos participan en una carrera de automovilismo y solo los primeros 6 lugares acumulan puntos para el campeonato, de cuantas maneras posibles pueden los pilotos ocupar los 6 primeros lugares. Lugar 1°20 pilotos; 2° 19 pilotos; 3°18 pilotos; 4° 17 pilotos; 5° 16 pilotos; 6° 15 pilotos ► 20 ٭ 19٭18٭17٭16٭ 15= 27,907,200
alta
A
B
AB
O
baja
baja
baja
normal
alta
normal
alta
normal
normal
alta
34
Un grupo de 60 alumnos va a graduarse, necesitan formar un comité de graduación formando por un presidente, vicepresidente; un secretario y un tesorero. Presidente 60; vicepresidente 59; secretario 58; tesorero 57; ►60*59*58*57= 11, 703,240 Permutación. Elegir un conjunto de objetos en un orden determinado; donde el orden es relevante. n * (n-1)*(n-2)*(n-3)*…*(1) = n! 1! = 1 0! = 1 2! = 2*1 = 2 3! = 3*2*1 = 6 (8-2)! = 6! El número de formas en que se pueden ordenar “n” objetos es igual a n! Ejemplo Hay 6 banderas de distintos colores cuantas señales diferentes se pueden hacer usando las seis banderas al mismo tiempo: P6
6 = 61 = 6*5*4*3*2*1=720 Las permutaciones de r objetos tomados de un conjunto de n objetos, pueden expresarse por medio de factores
Ejemplo. Calcular P410
= 5040 Una investigadora compro 7 libros pero solo tiene espacio para acomodar 5, si le importa el orden en que los va a acomodar de cuantas formas lo puede hacer?
35
= 2520 Permutación con repetición Si los elementos de un conjunto no son todos diferentes entre sí, es decir algunos son idénticos. La formula de las permutaciones que se pueden formar en el caso de “n” elementos, cuando hay n, elementos idénticos, n2 elementos, de otro tipo idénticos, etc. Entonces
Ejemplo Cuantos tratamientos se pueden recetar con diez medicamentos utilizándolos todos y son 4 antidepresivos; 3 antibióticos; 3 antihistamínicos.
Combinaciones Es un arreglo de cierto número r de objetos tomados de un conjunto de n objetos en tal forma que el orden en que se disponen no importa.
Ejemplos Se debe nombrar un comité de tres personas de un grupo de 15 profesores. ¿Cuántos comités se pueden formar?
36
Con parte de su salario un joven decide comprar 3 de los 7 discos compactos que le faltan del grupo TRI ¿Cuántas posibilidades tiene?
En un examen de biología hay que contestar 4 de 12 preguntas, ¿De cuantas formas las pueden contestar?
En el sorteo melate se deben adivinar 6 de 51 números ¿Cuántas formas se tienen para adivinar los 6 números?
= 32’468,436
37
PROBABILIDAD Rama de las matemáticas que se ocupa de los fenómenos que se producen o de fenómenos aleatorios. Probabilidad se expresa como numero entre 0 y 1; si el evento es imposible su valor es cero y si el evento ocurre con certeza su valor es uno. Si el evento tiene la probabilidad de ocurrir o de no ocurrir de la misma manera su valor será 0.5 o el 50% Un evento es el resultado posible de un experimento. Un evento es mutuamente excluyente de otro si este ocurre y el otro no puede ocurrir; como ejemplo se tiene pasar o no un examen. Probabilidad clásica Si en un experimento pueden producirse N resultados igualmente probables y mutuamente excluyentes y si dentro de estos N resultados el evento E puede ocurrir N veces, la probabilidad de que ocurra el evento E es:
Ejemplos Si tiramos un dado, la probabilidad de que caiga un 6 es:
Caras del dado = 6 = N # de 6 en el dado = 1= NE P 6 = 1/6
Si lanzamos una moneda, la probabilidad de que caiga “sol” es
Caras moneda = 2 = N # de sol es= 1 = NE
P sol = ½ Si se toma una carta de una baraja la posibilidad de que salga “as” es:
Total de cartas = 13 X 4= 52 = N # de “as” = 4 PAS = 4/52 = 1/3
Si en una urna existen 10 esferas blancas, 15 azules y 5 rojas ¿Cuál es la probabilidad de que el extraer una esfera al azar, esta sea blanca? Total esferas 10+15+5 = 30 = N # Esferas blancas = 10 = NE Pblanca = 10/30 = 1/3
38
Probabilidad experimental o de frecuencia relativa La probabilidad experimental de que ocurra un evento es la frecuencia relativa observada con que ocurre ese evento. Si un experimento se realiza “n” veces bajo las mismas condiciones y si ocurre n(A) resultados favorables del evento. A el valor estimado de la probabilidad de que ocurra A como resultado de la experimentación, puede determinarse por
Axiomas de probabilidad Si dos eventos son mutuamente excluyentes, la probabilidad de obtener A o B es igual a la probabilidad de obtener A más la probabilidad de obtener B.
P (A U B)= P(A) + P(B)
Ejemplo En un grupo de 500 personas recién graduadas se sabe que 175 en se graduaron en educación 150 en comercio; 100 en humanidades; 75 en ciencias de la salud. Al azar se elige a una persona y se sabe que ninguna tiene más de 1 carrera ¿Cuál es la posibilidad de que sea de comercio o educación? P(E) = 175/500, P(C)= 150/500, P(H) = 100/500, P(S) = 75/500 ► P(CUE) = 150/500 + 175/500 = 325/500 = 0.65 Si los eventos no son excluyentes o sea que tienen puntos muéstrales en común y que en términos de conjunto se llama intersección tenemos que: dados dos eventos A y B, la probabilidad de que ocurra el evento A del evento B ambos es igual a la probabilidad de que ocurra el evento A mas la probabilidad de que ocurra B menos la probabilidad de que ocurra ambos eventos.
B A
39
B A
A U B
P (AUB) = P (A) +P (B) – P (A ∩ B)
Ejemplo. En una escuela se recibierón 25 solicitudes para la vacante de una plaza de docente, entre las solicitudes 10 son de hombre y 15 de mujeres, 17 tienen titulo y 8 tienen certificado del último año. Se hace la selección al azar. ¿Cuál es la probabilidad de seleccionar una mujer o una persona con certificado?
Nivel estudios
Género Titulo Certificado Total Hombre 7 3 10 Mujer 10 5 15
total 17 8 25
P = PM + PC – P(M⋂C) P = 15 + 8 – 5 = 18 PROBABILIDAD CONDICIONAL La probabilidad de que suceda el evento A dado al sucedió el evento B P(A/B) Depende de una condición específica dada por una información adicional. Es decir se busca un subconjunto del conjunto universal. La probabilidad que emplea como denominación un subconjunto.
B A
40
Ejemplo Del ejemplo de las solicitudes para la plaza de docente, se requiere que si la persona debe ser, mujer y debe ser seleccionada al azar de las personas que tienen certificado. N(M) = 15, N(C) = 8, N(M∩C) = 5
Si se requiere que tenga certificado y se selecciona al azar de las solicitudes de las mujeres. N(M) = 15, N(C) = 8, N(M∩C) = 5
Regla de la multiplicación Es la probabilidad de que ocurran conjuntamente dos eventos Ay B esto es P(A/B).
P (A∩B) = P(B) * P(A/B) ò P(A∩B) =P(A)* P(B/A) Ejemplo Si la probabilidad buscada es de que sea mujer y con certificado P(c)= 8/25 P(m/c) = 5/8 P(C∩M) = 8/25 * 5/8 = 40/200 = 1/5 = 0.20 La probabilidad de que tenga certificado o sea mujer P(m)= 15/25 P(c/m) = 5/15 P(M∩C) = 15/25 * 5/15 = 75/375 = 1/5 = 0.20
41
Ejemplos En un estudio de una escuela se observo que el 90% de los alumnos tienen caries, 40% padecen problemas visuales, 30% sufren ambas enfermedades. Si son 100 alumnos y uno de ellos se selecciona al azar ¿Cuál es la probabilidad de que tenga problemas visuales si se observó que padece caries? P(c)= 90 P(v) =40 P(v∩c)=30
Se tienen 2 cajas y una moneda. La caja roja contiene 4 esferas blancas y 2 negras. La caja amarilla contiene 2 esferas blancas y 8 negras. Se arroja la moneda, si sale águila se saca una esfera de la caja roja, si sale sol se extrae de la caja amarilla. ¿Cuál es la probabilidad de obtener una esfera blanca? P(R) = ½ P(A) = ½ P(B/R) = 4/6 P(B/A) = 2/10 P(B) =P(R) P (B/R) + P(A) P (B/A) = 1/2 (4/6) + (1/2) (2/10) = 4/12 + 2/20 = (20+6)/60 = 26/60 = 0.43 ¿Cuál es la probabilidad de extraer una esfera negra? P(R)= ½ P(A)= ½ P(N/R)=2/6 P(N/A) = 8/10 P(N) =P(R) P (N/R) + P(A) P (N/A) = 1/2 (2/6) + (1/2) (8/10) = 2/12+8/20 = (10+24)/60 = 34/60 = 0.56 Se lanzan dos dados al mismo tiempo, calcula las siguientes probabilidades a) la suma de las caras den 7 n = 6 x 6 = 36 Σ7 = (1,6) (2,5) (3,4) (4,3) (5,2) (6,1) = 6
10 60 30
C V
42
P7 = 6/36 = 1/6 b) La suma de las caras den 6 n = 36 Σ6 = (1,5) (2,4) (3,3) (4,2) (5,1) = 5 P6 = 5/36 c) La suma de las caras den 8 n = 36 Σ3 = (2,6) (3,5) (4,4) (5,3) (6,2) = 5 P5 = 5/36 Tres estudiantes de medicina A, B y C intervienen en una prueba de natación; A y B tienen la misma posibilidad de ganar y el doble de posibilidad de C ¿hallar la posibilidad de que gane B o C? P(A) + P(B) + P(C) = 1 P(A) = P(B) P(A) = 2P(C) P(B) = 2P(C) 2P(C) + 2P(C) + P(C) = 1 5P(C) = 1 P(C) = 1/5 P(A) + P(A) + 1/5 =1 2 P(A) = 1 – 1/5 = 5/5 – 1/5 = 4/5 P(A) = (4/5) / 2 = 4/10 = 2/5 2/5+ P(B) + 1/5 = 1 P(B) = 1 –2/5 – 1/5 = 5/5 -3/5 = 2/5 P(B U C) = P(B) + P(C) = 2/5 + 1/5 = 3/5 En una familia de tres hijos, se registra el género de cada uno de ellos (mayor, medio y menor). Encuentra la probabilidad de:
a) los hijos sean del mismo sexo b) máximo existe un hijo varón c) cuando mucho existen dos mujeres
M = masculino, F = femenino S = {MMM, MMF; MFM, MFF; FMM, FMF; FFM, FFF} S =8 a) mismo sexo b) máximo un varón c) cuando menos 2 mujeres (F) Sin F ó una ó dos F
43
a) = {MMM, FFF} =2 ► P(mismo sexo) = 2/8 = 1/4 = 0.25 b) = {MFF, FMF, FFM, FFF} = 4 P(b) = 4/8 = ½ = 0.5 c) = {MMF; MFM, MFF; FMM, FMF; FFM, MMM}= 7 P(C) = 7/8 = 0.875 En una empresa hay 50 obreros: a 35 les gusta un trabajo, 27 tienen buenas relaciones con su jefe: a 15 les gusta su trabajo y tienen buenas relaciones con su jefe. Si se selecciona un obrero al azar, obtén la probabilidad de que:
a) no le gusta su trabajo b) no le gusta su trabajo y no tenga buenas refacciones con su jefe c) le guste su trabajo y no tenga buenas relaciones con su jefe o tenga buenas
relaciones con su jefe y no le guste su trabajo.
n = 50 GT = 35 BR= 27 (GT∩BR)=15
a) P(GT)
C= 1 - P(GT) = 1 - 35/50 = 50/50 - 35/50 =15/50 ó 12/50 + 3/50 = 15/50
b) P(GT
c ∩ BRc) = P(GT U BR) c = 5/30
c) P(GT - BR) U P(BR - GT) = (35 – 15)/50 + (27 – 15)/50 = 20/50 + 12/50 = 32/50 = 0.64 ó 20/50 + 12/50 = 32/50 = 0.64
12 20 15
Gusta Relación
3
44
DISTRIBUCIONES DE PROBABILIDAD
Es la representación en tabla, gráfico o fórmula. Cualquier regla o mecanismo que sirva para determinar la P(x=x) probabilidad de que la variable aleatoria x tome cada uno de los valores posibles x Ejemplos Tiran dos dados y se suman los puntos tenemos:
Puntos casos Total casos probabilidad
2 (1,1) 1 1/36
3 (1,2) (2,1) 2 2/36
4 (1,3) (2,2,) (3,1) 3 3/36
5 (1,4) (2,3) (3,2) (4,1) 4 4/36
6 (1,5) (2,4) (3,3,) (4,2) (5,1) 5 5/36
7 (1,6) (2,5) (3,4) (4,3) (5,2) (6,1) 6 6/36
8 (2,6) (3,5) (4,4) (5,3) (6,2) 5 5/36
9 (3,6) (4,5) (5,4) (6,3) 4 4/36
10 (4,6) (5,5) (6,4) 3 3/36
11 (5,6) (6,5) 2 2/36
12 (6,6) 1 1/36
36 1
6/36 5/36 4/36 3/36 2/36 1/36
2 3 4 5 6 7 8 9 10 11 12
45
Una distribución de probabilidad es semejante a una distribución de frecuencia, en donde se presenta cada dato o valor de la variable aleatoria discreta con su valor asociado de probabilidad y se puede presentar como una tabla, una grafica o una formula. Asimismo, debe cumplir los axiomas de probabilidad.
P(x) es mayor o igual a 0. La sumatoria P(x)= 1.
La distribución de probabilidad de una variable aleatoria discreta se define de la siguiente forma: Sea x una variable aleatoria. Definida en un espacio muestral. S con el conjunto imagen finito. X(s)= X1, X2,….Xn Se convierte X(s) en un espacio. Se define la probabilidad de X, =X(s) como P(X=Xi), o también. Se escribe P(Xi) esta función se define: P (Xi)= P (x=Xi)= P {si S/x(s) = Xi} =
Ejemplo: Se lanza una moneda al aire dos veces: la variable aleatoria discreta se define X= {No de águilas}. Elabora la tabla y graficas de distribución de probabilidad. Águilas. X P(xi) PA(xi)
2 1/4 1/4
1 2/4 3/4
0 1/4 4/4
46
4/4 3/4 2/4 1/4
1 2 No. De águilas.
No de águilas
4/4 ¾ 2/4 1/4
1 2 3
47
0.6 0.5 0.4 0.3 0.2 0.1
f(x)
1 2 3 4 5 6 X
1.0 0.8 0.6 0.4 0.2
F(x)
Ejemplo El número de arrestos anteriores de 500 adolescentes que durante un año comparecieron ante un tribunal de menores es:
Arresto
anteriores Nº
adolescentes f(x)
P(X=x) Distribución acumulada
F(X) =P(X≤x)
0 300 300/500=0.60 300/500=0.60
1 100 100/500= 0.20 400/500=0.80
2 60 60/500=0.12 460/500=0.92
3 20 20/500=0.04 680/500=0.96
4 10 10/500=0.02 490/500=0.98
5 5 5/500=0.01 495/500=0.99
6 5 5/500=0.01 500/500=1.00 P(x=3) = 0.04; P(x=2) = 0.92; P (x=5) =0.01; P (x≤5) = 0.99
1 2 3 4 5 6 X
48
DISTRIBUCIÓN BINOMIAL Suponiendo que un tratamiento para una alergia particular tiene una probabilidad de que cada paciente se cure es de 0.6 El problema es encontrar la probabilidad de que una serie de 5 pacientes tramitados, sanen exactamente dos de ellos. Suponiendo que los resultados paciente “sano” o “no sano” son independientes y mutuamente exclusivos.
A B C D E
1 S (0.6) S (0.6) N (0.4) N (0.4) N (0.4)
2 S (0.6) N (0.4) S (0.6) N (0.4) N (0.4)
3 S (0.6) N (0.4) N (0.4) S (0.6) N (0.4)
4 S (0.6) N (0.4) N (0.4) N (0.4) S (0.6)
5 N (0.4) S (0.6) S (0.6) N (0.4) N (0.4)
6 N (0.4) N (0.4) S (0.6) S (0.6) N (0.4)
7 N (0.4) N (0.4) N (0.4) S (0.6) S (0.6)
8 N (0.4) S (0.6) N (0.4) N (0.4) S (0.6)
9 N (0.4) N (0.4) S (0.6) N (0.4) S (0.6)
10 N (0.4) S (0.6) N (0.4) S (0.6) N (0.4) El hecho de tener 10 resultados es que 10 = nCr = 5C2 y de acuerdo con el primer resultado tenemos: P (E1) = P(A sano y B sano y C no sano y D no sano E no sano) =P(A sano), (B sano) P(C no sano) P(D no sano) P(E no sano) = (0,6) (0,6) (0,4) (0,4) (0,4) = (0,6)2 (0,4)3 De manera similar tenemos:
Entonces: Dos pacientes sanos = 5C2(0.6)2 (0.4)3 Un paciente sano = 5C1 (0.6)1(0.4)4 = 0.0768 Y se puede realizar la lista de todos los resultados posibles: P (ningún paciente sano) = 1 (0.6)0 (0.4)5= 0.00102 P (un paciente sano) = 5 (0.6)1 (0.4)4= 0.0768 P (dos pacientes sanos) = 10 (0.6)2 (0.4)3= 0.2304 P (tres pacientes sanos) = 10 (0.6)3 (0.4)2= 0.3456 P (cuatro pacientes sanos) = 5 (0.6)4 (0.4)1=0.2592 P (cinco pacientes sanos) = 1 (0.6)5 (0.4)0= 0.0778 La palabra éxito se usa en forma muy general, de hecho el resultado descrito como éxito o fracaso puede tener una gran variedad de atributos, el único requisito es que en un experimento simple solo se puede tener éxito o fracaso y que la
49
atención solo se dirige al número total de éxitos en los n experimentos, estas deben cumplir.
1. El experimento consta de n pruebas estadísticamente independientes y repetidas.
2. Cada prueba tiene dos resultados posibles, uno llamado “éxito” y otro llamado “fracaso”.
3. La probabilidad de éxito en cada prueba es la misma e igual a P y la de fracaso es Q(q = 1-P)
4. Existe una variable aleatoria desierta X asociada al experimento que cuenta el numero de éxitos en las n pruebas de tal manera que los valores de X = {0,1,2,n}
Ejemplos. El 20% de los pacientes dados de alta en un hospital durante los últimos 10 años han sido adolescentes, al encargado de las historias clínicas le solicitan 3 historias de adolescentes, ¿Qué probabilidad hay de obtener 3 historias de adolescentes (éxitos) de 5 intentos que se obtienen al azar. P = 0.2 B (3, 5,0.20) = 3C5 (0.20)3(0.80)2 N= 5 =10(0.0008) (0.64) X= 3 =0.0512 De acuerdo con la asociación de automovilismo la probabilidad X de recuperar un auto robado en México es de 0.6. Si en una semana una compañía de seguros tiene reportados 8 autos robados cierta semana. ¿Cuáles son las probabilidades que se recuperen 0, 1, 2 … 7, 8 de los autos robados? Suponiendo que son eventos independientes. P = 0.6 N= 8 X=0, 1, 2, 3, 4, 5, 6, 7, 8
P(x=0/8, 0,6)= 8C0(0.6)0(0.4)
8 (1)(1) (0.001)= 0.001
P(x=1/8, 0,6)= 8C1(0.6)1(0.4)
7 (8)(0.6)(0.002)= 0.008
P(x=2/8, 0,6)= 8C2(0.6)2(0.4)
6 28(0.36)(0.004)= 0.040
P(x=3/8, 0,6)= 8C3(0.6)3(0.4)
5 56(0.26)(0.010)= 0.124
P(x=4/8, 0,6)= 8C4(0.6)4(0.4)
4 70(0.129)(0.026)= 0.231
P(x=5/8, 0,6)= 8C5(0.6)5(0.4)
3 56(0.077)(0.064)= 0.276
P(x=6/8, 0,6)= 8C6(0.6)6(0.4)
2 28(0.046)(0.16)= 0.206
P(x=7/8, 0,6)= 8C7(0.6)7(0.4)
1 8(0.028)(0.40)= 0.089
P(x=8/8, 0,6)= 8C8(0.6)8(0.4)
0 1(0.017)(1)= 0.017
0.999= 1
50
Después de seguir un tratamiento especial para dejar de fumar, la probabilidad de volver a fumar dentro del primer mes es de 0.4. Determinar la probabilidad de que:
a) a lo más 3 de 7 pacientes vuelvan a fumar antes del 1º mes. X = 0, 1, 2 y 3 P = 0.4 n = 7
P(X=0/7,0.4)= 7C0(0.4)0(0.6)
7= 1(1)(0.028) = 0.028
P(X=1/7,0.4)= 7C1(0.4)1(0.6)
6= 7(0.4)(0.047) =0.131
P(X=2/7,0.4)= 7C2(0.4)2(0.6)
5= 21(0.16)(0.078) =0.262
P(X=3/7,0.4)= 7C3(0.4)3(0.6)
4= 35(0.064)(0.13) =0.291
0.712
b) al menos 5 de 7 pacientes vuelvan a fumar antes de un mes X = 5, 6 y 7
P(X=5/7,0.4)= 7C0(0.4)5(0.6)2= 21(0.010)(0.36) =0.076
P(X=6/7,0.4)= 7C6(0.4)6(0.6)1= 7(0.004)(0.6) =0.017
P(X=7/7,0.4)= 7C7(0.4)7(0.6)0= 1(0.002)(1) =0.002
0.095 En un área determinada el 40% de la población adulta pertenece al PAN, se saca una muestra al azar de 10 adultos que probabilidad hay de que tres de ellos pertenezcan al PAN suponiendo que la población es muy grande. P = 0.40 n = 10 X = 3
0.30 0.25 0.20 0.15 0.110
0.05
1 2 3 4 5 6 7 8 0
51
P(X=3/10,0.4)= 10C3 (0.4)3 (0.6)7= 120(0.064)(0.028)= 0.215
En un laboratorio los lotes recibidos para la fabricación de medicamentos se inspeccionan para localizar los defectuosos por medio de muestras de 12 artículos. Se examinan los doce artículos y se rechaza si se encuentran dos o más artículos defectuosos. ¿Cuál es la probabilidad de rechazar un lote que contiene 5% de artículos defectuosos? n = 12 P = 0.05 X = 2,3,4,5,6,7,8,9,10,11,12
1-P=0.95 Son muchos P(X=2) +P(X=3)+ … P(X=12)=1 ► 1-(P(X=0) +P(X=1)
P(X=0/12,0.05)= 12C0 (0.05)0(0.95)12 = 1(1)(0.540) = 0.540
P(X=1/12,0.05)= 12C1 (0.05)1(0.95)11 = 12(0.05)(0.569) = 0.341 0.881
► 1-0.881=0.119 ¿Cómo cambia la probabilidad si aumenta el porcentaje de artículos defectuosos. a 10%; 20%; 30% o un 40%? 10%
P(X=0/12,0.10)= 12C0(0.10)0(0.90)12= 1(1)(0.282) =0.282
P(X=1/12,0.10)= 12C1(0.10)1(0.90)11= 12(0.1)(0.314) =0.377 0.659
1 - 0.659 = 0.341
20% P(X=0/12,0.20)= 12C0(0.20)0(0.80)12= 1(1)(0.0689) =0.069
P(X=1/12,0.20)= 12C1(0.20)1(0.80)11= 12(0.2)(0.0859) =0.206 0.275
1 - 0.275 = 0.725
30% P(X=0/12,0.30)= 12C0(0.30)0(0.70)12= (1)(1)(0.0138) =0.0138
P(X=1/12,0.70)= 12C1(0.30)1(070)11= 12(0.3)(0.0197) =0.0712 0.085
1 - 0.085 = 0.915
40% P(X=0/12,0.40)= 12C0(0.40)0(0.60)12= 1(1)(0.0022) =0.0022
P(X=1/12,0.10)= 12C1(0.40)1(0.60)11= 12(0.4)(0.0036) =0.0174 0.0196
1 - 0.0196 = 0.9804
52
MEDIA Y DESVIACIÓN ESTÁNDAR DE UNA VARIABLE ALEATORIA DISCRETA
Considerando el número de puntos al tirar dos dados y su distribución de probabilidad.
Puntos 2 3 4 5 6 7 8 9 10 11 12
Probabilidad 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
Si el par de dados se tira muchas veces ¿Cuál es el promedio de puntos que se obtienen? Se considera la probabilidad como la proporción de veces que los dados dan los diferentes puntos. 2.1/36 + 3.2/36 + 4.3/36 + 5.4/36 + 6.5/36 + 7.6/36 + 8.5/36 + 9.4/36 +10.3/36+11.2/36 + 12.1/36 =
= 2/36 +6/36+12/36+20/36+30/36+42/36+40/36+36/36+30/36+22/36+12/36=7
Este es el valor esperado que representa el promedio de puntos que a la larga se obtienen tirando dos dados. Si una variable aleatoria toma los valores X1, X2,X3…Xn con probabilidades P(X1,)P(
X2,)…P(XK) su VALOR ESPERADO es
X1 P(X1,)+ X2,P(X2,)+ X3 P(X3,)+ … Xn P(XK)
Se conoce también como Media de la distribución de probabilidad.
Ejemplo De los autos robados donde se desea recuperar algunos de los 8 autos robados. La media de la distribución de probabilidad representa el número esperado de autos que la compañía de seguros desea recuperar teniendo:
µ = 0·P0 + P(1) + 2·P(2) + 3·P(3) + 4·P(4) +5·P(5) +6·P(6) +7·P(7) +8·P(8) = =0·(0.001) + 1·(0.008) + 2·(0.040) + 3·(0.124) + 4·(0.231) + 5·(0.276) + 6·(0.206) + 7·(0.089) + 8·(0.017) =
0+0.008+0.008+0.372+0.924+1.38+1.2361+0.623+0.136 = 4.76 ≈ 4.8
53
En el caso de la distribución binomial el valor esperado es sencillo de calcular puesto que tenemos un total de n ensayos y cada uno tiene una probabilidad P de éxito. Media de la distribución binomial Solo es válida para la distribución binomial Ejemplo. Pacientes que se sometieron a un tratamiento para dejar de fumar y que vuelve a fumar, es una variable binomial con n = 7, P = 0.4 Su o µ = 72.8 = 0.4٭ para grupos de siete pacientes que toman el tratamiento en promedio 2.8 de cada grupo vuelve a fumar. Desviación estándar de una distribución de probabilidad
Es semejante a la expresión original para calcula la desviación estándar de una población con las probabilidades empleando P(X) en lugar de 1/N La varianza de una distribución de probabilidad es el cuadrado de la desviación estándar
autos
(X- )
(X- )²
P(x)
(X- )²·P(x) 0 -4.8 23.04 0.001 0.015 1 -3.8 14.44 0.008 0.114 2 -2.8 7.84 0.041 0.324 3 -1.8 3.24 0.124 0.401 4 0.8 0.64 0.232 0.149 5 0.2 0.04 0.279 0.011 6 1.2 1.44 0.209 0.301 7 2.2 4.84 0.090 0.434 8 3.2 10.24 0.017 0.172
1.921
= 1.921
54
= √1.921 = 1.386 Al igual que para la media, es posible calcular la desviación estándar de una distribución binomial Desviación estándar de una distribución binomial
Ejemplo Del ejemplo anterior n = 8; P = 0.4; (1-P) = 0.6 podemos calcular la desviación estándar por
√1.92 = 1.386 Un estudio muestra que el 60% de los pacientes de una clínica esperan más de una hora antes de ser recibidos. Encuentra la media y la desviación estándar del número de pacientes que esperan más de una hora de un grupo de 12 pacientes. n = 12; P = 0.60; (1-P) = 0.4
Media = = 12*0.60 = 7.2
Desviación. Estándar.
= √2.88 = 1.7
55
DISTRIBUCIÓN NORMAL En el caso de variables aleatorias discretas como el ejemplo de los automóviles que se roban la grafica puede ser:
La probabilidad de que la variable tome cierto valor es igual al área de la barra de la gráfica correspondiente entonces como en una distribución de probabilidades la suma de las áreas es igual a 1. La probabilidad de recuperar entre 3 y 5 automóviles es igual al área de las barras. 3+4+5►0.124+0.232+0.277 = 0.633 En el caso de variables aleatorias continuas el histograma se convierte en líneas continuas porque podemos tener todos los valores. Encontrando distribuciones continúas.
El área bajo la curva es igual a 1. La altura es 1/(d-c) y la probabilidad de que la variable tome valores entre a y b es
0.3 0.25 0.2 0.15 0.1
0.05
0 1 2 3 4 5 6 7 8
0.001
0.008
0.041
0.124
0.231
0.276
0.206
0.089
0.017
c a b d
56
Si por ejemplo d = 1 y c = -1 entonces la altura es
y la probabilidad de que X tome un valor entre 0.3 y 0.7 es: P (0,3≤ x ≤0.7)= (0.7 - 0.3)/2 = 0.4/2 = 0.2 Distribución normal
Si graficamos los valores de las observaciones encontramos que la Mayor probabilidad de encontrar los valores se encuentra donde están las jorobas comparadas con el centro o los extremos de la gráfica porque es donde hay más área.
µ= 1 =0.3 µ= 2 =0.6
µ=1 µ=2 µ=3
= igual = igual
µ=0.70
µ=1
µ=1.5
57
La denominación “NORMAL” no se debe entender en el sentido de la distribución de que la distribución normal sea “USUAL” “TÍPICA” o “MAS COMÚN”. En particular una distribución que no siga esta forma se debe llamar “NO NORMAL” en lugar de “ANORMAL” por eso es que a veces se le denomina distribución Gauss o de La Place. La expresión matemática de la función de densidad de la curva normal es:
µ = media
π = 3.14159
desviación estándar e = 2.71828 Área entre a y b
CARACTERÍSTICAS IMPORTANTES DE LA DISTRIBUCIÓN NORMAL:
1. El área total comprendida bajo la curva y por encima del eje horizontal (x) es igual a 1.
2. La distribución es simétrica al respecto de su media es decir el 50% del área esta a la derecha de la media y el 50% a la izquierda.
3. La media, la mediana y la moda son todas iguales 4. La distancia horizontal que hay desde el punto de inflexión de la curva
(donde deja de ser cóncava hacia bajo y comienza a ser cóncava hacia arriba) hasta una perpendicular levantada sobre la media es igual a la desviación estándar.
5. La distribución norma es una familia de distribuciones puesto que hay una
diferente para cada µ y
6. La curva de una distribución normal se extiende de -∞ a +∞
7. La 1º del área bajo la curva, la 2º = 95% y la 3º = 99.7%.
50% 50%
µ ò X
Moda
Mediana µ=
58
0.8
1
0.95
0.997
Si una variable aleatoria x esta normalmente distribuida podemos calcular la probabilidad de que X asuma los valores entre Xa y Xb integrando la ecuación de la distribución normal desde Xa hasta Xb o cualquier otra probabilidad.
Ejemplo:
Se desea encontrar el área bajo la curva norma estándar entre 0 y 1.45 entonces:
Buscamos en la tabla 1.4 y en la fila 1º es 0; 2º es1; 3º es 2; 4º es 3; 5º es 4; 6º es 5; 7º es 6; 8º es 7; 9º es 8; 10º es 9 y entonces 1.45 se busca en la columna 2 el 1.4 y en la columna 6º que corresponde al 5 se tiene: el área entre 0 y 1.45= 0.4265.
Encontrar el área bajo la curva normal estándar a la izquierda de 0.83 Área total = 1 a la izquierda de cero es 0.5
A la izquierda de 0.83 es 0.2967
Entonces P(≤0.83) = 0.5 + 0.2967 = 0.7967
3 2
Xa Xb
0 0.83
0
0.5
0.29
67
59
Encontrar el área bajo la curva normal estándar a la derecha de 1.07
El área es 0.5 Buscamos 1.07 en la tabla= 0.3577 Del total de este lado de la grafica (0.5) Restamos el 0.3577 P = 0.5 - 0.3577 = 0.1423 El área bajo la cueva normal estándar entre 0.24 y 1.18
Buscamos el área de 0 a 1.18 y le restamos el área de 0 a 0.24 entonces nos queda el área buscada. Tabla 1.18 = 0.3810 y 0.24 = 0.0948 ►0.3810 - 0.0948 = 0.2862 Encontrar el área bajo la curva normal estándar entre -1.34 y 0
Tabla Buscar – 1.34 es igual a buscar 1.34 = 0.4099 P = 0.5 – 0.4099 = 0.0901 El área bajo la curva entre -0.97 y 1.14
Buscar -0.97 = 0.97 ⇉ 0.3340
Buscar 1.14 = 0.3729 Entonces se suman las áreas 0.3340 + 0.3729 = 0.7069 Se debe recordar que se usan las tablas cuando:
µ = 0 y = 1
0 1.7
0
0.35
77
0.24 1.18
0.9 4
8
0. 3 8 1
0
0
0.4 0 9 9
0 0
-1.34
0. 3 3 4
0
0
1.14
0. 3 7 2
9
-0.97
60
Pero si µ≠0 y ≠ 1 ¿tendremos que elaborar todas las combinaciones posibles?
nCx (P)x (1-P)n-x Afortunadamente se puede hacer un cambio de escala que convierte unidades de medida en unidades estándar por medio de:
Ejemplo. Supongamos que los C.I. de los individuos que componen una determinada población tiene aproximadamente una distribución normal con una
media de 100 y una = 10 ¿Cuál es la proporción de individuos con CI mayores que 125? X = 125 µ = 100
Buscar en la tabla 2.5 = 0.4938 como la pregunta dice que es mayor es que 125 entonces el área: P= 0.5 - 0.4938 = 0.0062
Cuál es la probabilidad de que un individuo elegido al azar entre los de esa población tenga un C.I. entre 105 y 115. X=1.5 y X=115
tabla= 0.195
tabla= 0.4332
►P= 0.4332 - 0.195 = 0.2382
Cuál es la probabilidad de que un individuo elegido al azar entre los de esa
población tenga un C.I. entre 80 y 95. Encontrar P(80 ≤ X ≤ 95) si µ = 100 y = 10
2.5
0 1.5 0.5
61
tabla = 0.4772
tabla = 0.1915
Entonces:
P = 0.4772 - 0.1915 = 0.2857
La distribución normal es útil cuando se pueda aproximar una distribución binomial a normal, cuando el número de ensayos n es muy grande y la probabilidad P es cercana a 0.5 puesto que la media de la distribución binomial es np y la desviación estándar es √nP (1-P). Esta aproximación es buena si np y n(1-P) son ambos mayores que cinco y que n sea suficientemente grande para valores pequeños de n. Ejemplo La probabilidad de obtener 2 soles al tirar 10 veces una moneda es: Tomamos n = 10 P = 0.5 entonces np = 5; n(1-P) = 5 Si calculamos para X = 2 se debe considerar para una distribución normal.
X1=1.5 y X2=2.5 y µ=np=5 y √nP (1-P).= 1.5811
Tabla = 0.4864
Tabla = 0.4429
►P = 0.4864 - 0.4429= 0.0435 Ejemplo. La proporción de complicaciones quirúrgicas en un proceso reconstructivo cardiovascular es 20% esto incluye todas las complicaciones desde infecciones ligeras hasta la muerte, en una serie de 50 operaciones ¿Cuál es la probabilidad de que a lo más 5 pacientes presentan complicaciones quirúrgicas? Supongamos que la ocurrencia o no ocurrencia de estas complicaciones en diferentes pacientes es un evento independiente. n = 50; P = 0.2; (1-P) = 0.8 Binomial = ∑B(X, 50,0.2)= 50
1∑50Cx(0.2) x (0.8)50-x y X = 0,1,2,3,4,5
0 -2 -0.5
-2.21 -1.58
62
Pero resulta muy complicado y como nP = 10 y n(1-P) = 40 se puede usar aproximación normal considerando X = 5.5
µ = np = 10; = √ nP (1-P)=√8= 2.8284
Tabla = 0.4441 ► P = 0.5- 0.4441= 0.0559
Se tira una moneda 20 veces, la probabilidad de obtener 12 águilas es: n = 20, X = 12; P = 0.5; (1-P) = 0.5 P(x) = 20C12(0.5)12(0.5)8 = 125970(0.000244)(0.003906)
= 0.1201
Si aproximamos µ = np = 20*0.5 = 10, σ = 20*0.5*0.5 = 2.236
Tabla 0.2486
Tabla 0.3686
► P= 0.3686 – 0.2486= 0.1200
El tiempo que toma un grupo de obreros que ha recibido entrenamiento especial
tiene una distribución normal con µ = 14.5 y = 2.5 min. ¿Cuál es la probabilidad de que a uno de estos obreros le tome entre 11 y 16 minutos?
tabla 0.4192
tabla 0.2257
P= 0.4192+ 0.2257 = 0.6449
¿Cuál es la probabilidad de que al obrero le tome más de 18 min?
0
-1.59
.67 1.12 0
0 0
0.6 -1.4
1.4
63
tabla 0.4192
P = 0.5 – 0.4192= 0.0808 Un grupo de 100 enfermos de SIDA se somete a un nuevo tratamiento donde cada uno sobrevive más de 5 años al tratamiento con probabilidad de 0.4. ¿Cuál es la probabilidad de que al menos 50 de los 100 pacientes sobrevivan más de cinco años al tratamiento? P(50) + P(51) +P(52) + …P(100) np = 100 * 0.4 = 40 µ=np=40
n(1-P)=100*0.6=60 =√n . p . (1-P)=√100*0.4*0.6 = √24 = 4.8989
Al menos 50 ►De 49.5 en adelante
Tabla 0.4738
P= 0.5 – 0.4738= 0.0262
El número de reclamaciones semanales en una tienda departamental es una variable aleatoria que es aproximadamente normal con media µ = 24 y desviación
estándar = 6. Encontrar la probabilidad de que durante una semana se reciban. a) entre 15 y 30 quejas.
De 14.5 a 30.5
Tabla 0.4429
Tabla 0.3599
P=0.4429+0.3599=0.8028
b) Más de 35 quejas (De 34.5 en adelante)
Tabla 0.4595
P= 0.5 – 0.4595 = 0.0405
c) menos de 27 quejas (Hasta 27.5 quejas)
1.94
1.8 -1.5
1.75
1.41
64
Tabla 0.2202
P= 0.5 + 0.2202 = 0.7202
DISTRIBUCIONES MUÉSTRALES Y EL TEOREMA DEL LIMITE CENTRAL
Supongamos que deseamos para un estudio nutricional obtener los promedios de los pesos y estaturas de los niños de 7 años de edad de una región en un estado de la república. Si ahí viven 50,000 niños de 7 años, resulta muy costosa y lenta la visita a todos los niños para pesarlos y medirlos. ¿Qué tan confiables son los datos si tomamos una muestra de 400 niños? ¿Los resultados dependen de la muestra elegida? Supongamos que N = 5 y que las muestra son de tamaño n = 2 entonces
Niño 1 2 3 4 5 altura 1.20 118 1.32 1.23 1.28
La media de la altura es
La desviación estándar es:
= 0.05154 Existe un total de 5C2 combinación = 10 muestras posibles. Pero para cada muestra tenemos su propia por ejemplo: Para {1 y 2} = (1.20 + 1.18)/2 = 1.19
Para {3 y 5} = (1.32 + 1.28)/2 = 1.30 Sabemos que la muestra que tomamos depende del azar, la media asociada a cada muestra es una variable aleatoria teniendo así mismo cada muestra su desviación estándar. Entonces en el caso de muestras
= Media de la distribución muestral
Es la media de las medias de cada muestra y
65
la desviación estándar.
Desviación estándar de la distribución muestral
O sea la desviación estándar de las medias de las muestras. Del ejemplo anterior tenemos:
n = 10 = 12.42 / 10 =1.242
La desviación estándar es:
= √0.000996 = 0.03156 Se observa que µ coincide con pero la desviación estándar de la media es menor que la de la población original. Si tomamos muestras de tamaño N de una población de tamaño n con media µ y
desviación estándar , entonces la distribución muestral x tienen media
= µ pero la desviación estándar queda como.
Y se denomina ERROR ESTÁNDAR Permite estimar la variabilidad de las medias muéstrales (error estándar de la
media ) en relación a la variabilidad de la población. Del ejemplo anterior vimos que su desviación estándar es 0.05154 entonces:
muestra 2
1.2 1.19 10.002704 1.3 1.26 0.000324 1.4 1.215 0.000729 1.5 1.24 0.000004 2-3 1.25 0.000064 2.4 1.205 0.001369 2.5 1.23 0.000144 3.4 1.275 0.001089 3.5 1.30 0.003364 4.5 1.255 0.000169
12.42 0.00996
66
Cuando N>20*n, el factor de la formula es muy cercano a 1 y puede ser
omitido. Si N>20n entonces el error estándar queda:
Ejemplo.
Una población de N = 900 con ¿Cómo cambia el error estándar de la muestra si el tamaño de la muestra n disminuye de 100 a 50? N=900 n1=100 n2=50
La razón entro los dos errores es:
0.1375 0.09431.46
TEOREMA DEL LÍMITE CENTRAL
Si n es grande (n≥30) la distribución muestral de las media puede aproximarse por medio de una distribución normal. Supongamos que una población de niños de siete años que deseamos estudiar es de N = 50,000 y que por estudios de la OMS sabemos que la desviación estándar
de las alturas es de = 10 cm. Tomamos una muestra al azar de n = 400 niños, si la media es de = 122 cm. ¿Qué tan razonable es tomar la media de 122 cm., como la media de la población? µ = ? n*20↔400*20 = 8,000
= 122 N ↔50,000>8,000
67
10
µ Esta entre µ-1 y µ+1 entonces está entre µ-1 y µ+1
Si µ-1 < < µ+1 Restamos µ tenemos -1 < - µ < +1
Dividimos entre x= 0.5 tenemos
Si entonces z < +1
Buscamos z entre 0 y 2 tabla = 0.4772 entonces el área entre -2 y +2 = 0.4772 * 2 = 0.9544.
Como = 122 es un valor aleatorio, la probabilidad de que la media se encuentre a menos de 1 cm. de 122 es de 0.9544. En otra palabras con el 95.44% de certeza podemos considerar que 122 cm es el valor promedio de las estaturas de los niños de 7 años Ejemplo Una región agrícola consta de 200,00 hectáreas donde se siembra trigo, para estimar la producción media por hectárea se realiza una muestra de 900 ya que
tuvieron en promedio una productividad de = 3,4 toneladas. La secretaria de agricultura estima que la desviación estándar de la productividad
del trigo en la región es de = 0.8 toneladas. ¿Cuál es la probabilidad de que nuestra estimación de la producción media en la región tenga un error de a lo más 0.05 toneladas?
N>20n ► 200,000 > 20* 900 ↔200,00>18,000
= 3.4 toneladas A lo más 0.05 toneladas de la media µ µ - 0.05 < < µ + 0.05
µ-1 µ µ+1
3.4 +0.05 -0.05
68
Restamos -0.05 < - < 0.05
Dividimos entre
Si entonces -1.879 < z < 1.879
Tabla 0.4699 La probabilidad de que la productividad media de la región se encuentre entre 3.35 y 3.45 es de 0.9398.
INTERVALOS DE CONFIANZA PARA MEDIAS . Una de las aplicaciones más frecuentes en estadística inferencial es estimación de medias. Ejemplo. 30 lecturas del nivel de ozono en periodo invernal en la ciudad de México son:
178 190 228 211 187 165 172 244 229 208 193 203 215 226 231 209 220 258 278 235 246 227 211 195 202 212 219 216 204 193
La media es Σn/N = 213.5. Si es la única información que poseemos se denomina estimación puntual ya que es un único número o punto de recta real pero no nos brinda información sobre el tamaño del error. La desviación estándar de la población y el tamaño de la muestra determinan la variabilidad de la distribución muestral de las media, ya que entre menor sea el error estándar de la media mejor será la estimación puntual. Por eso se debe estimar la media por medio de un intervalo. El teorema del límite central permite asociar a un intervalo alrededor del valor medio, en este caso = 213.5, una probabilidad o grado de certidumbre de que la media estimada se encuentre realmente entre esos límites. Una estimación por intervalo consiste de un intervalo y una probabilidad de que la media se encuentre en ese intervalo. Cuando no se tiene mayor información acerca de la desviación estándar de la
población tomamos la desviación estándar de la muestra S en lugar de .
69
Del ejemplo anterior.
S= 24.87 Dado que n≥30 se considera el error estándar de la media a:
El intervalo con centro en 213.5 y suponiendo una probabilidad de 0.8 se busca el valor de Ƶ a la inversa de la tabla y como se consideran ambos lados de la curva: se considera 0.8/2 = 0.4 y se busca en la tabla de forma inversa, del cuerpo de la tabla hacia el valor de z encontrando que z = 1.28.
Multiplicando * 4.54 4.54*(-1.28) < 213- µ < 4.54*(1.28) -5.81 < 213.5 - µ < 5.81 Restando 213.5 -5.81 – 213.5 < -µ < 5.81 – 213.5 -219.31 < -µ < - 207.69 Multiplicamos por -1 (invertir el intervalo) 207.19 < µ < 219.31 Entonces la media µ se encuentra entre 207.7 y 219.3 con una probabilidad de 0.8
207.7<-µ<- 219.31 con P=0.8
Intervalo de confianza Limites de confianza
Grado de confianza (probabilidad) Si la población es grande en relación al tamaño de la muestra (N>20n) y el tamaño de la muestra es mayor o igual que 30 el intervalo de confianza para µ de grado de confianza α es:
70
Donde el área bajo la curva normal estándar entre 0 y Ƶ0 es /2 esto es, con un
grado de confianza el error al estimar la media por es menor a
Cuando la desviación estándar de la población es desconocida y n es grande
(n≥30) sustituimos por la desviación estándar de las muestras. Los grados de confianza más usados son 0.90, 0.95 y 0.99 y sus correspondientes Ƶ0 son 1.645, 1.96 y 2.575. En el ejemplo de la contaminación en la ciudad de México los intervalos de confianza tenemos:
Con probabilidad 0.95, Z0= 1.96 entonces
213.5 – 8.9 ≤ µ ≤ 213 + 8.9 204.6 ≤ µ ≤ 222.4 Con probabilidad 0.95 la media se encuentra entre 204.6 y 222.4 Con un grado de confianza de 95% el error al estimar la media como 213.5 es de 8.9. Si deseamos aumentar el grado de certeza al 99% entonces el intervalo será:
213.5 - 11.7 ≤ µ ≤ 213.5 + 11.7 201.8 ≤ µ ≤ 225.2 Entre mayor de la certidumbre, (grado de confianza) mayor es el intervalo. Ejemplo
Del ejemplo de las 200,000 hectáreas n=900, = 3.4 con = 0.8 encontrar el intervalo de confianza del 90%, 95% y 99%. 90% ↔Ƶ0= 90/2= 0.45 tabla inversa= 1.645 95% ↔Ƶ0= 95/2= 0.475 tabla inversa= 1.96 99% ↔Ƶ0= 99/2= 0.495 tabla inversa= 2.575
71
Para el 90% Ƶ = 1.645
3.4 – 1.645 (0.0266) ≤ µ ≤ 3.4 + 1.645 (0.0266) 3.4 – 0.044 ≤ µ ≤ 3.4 + 0.044 3.356 ≤ µ ≤ 3.444 Error 0.044 Para el 95% Ƶ = 1.96
3.4 – 1.96 (0.0266) ≤ µ ≤ 3.4 + 1.96 (0.0266) 3.4 – 0.052 ≤ µ ≤ 3.4 + 0.052 3.348 ≤ µ ≤ 3.452 Error 0.052 Para el 99% Ƶ = 2.575
3.4 – 2.575 (0.0266) ≤ µ ≤ 3.4 + 2.575 (0.0266) 3.4 – 0.069 ≤ µ ≤ 3.4 + 0.069 3.331 ≤ µ ≤ 3.469 Error 0.069 La expresión
Error máximo al estimar la media por X con grado de confianza Se puede emplear para determinar el tamaño de la muestra cuando se desea cierto grado de precisión. Ejemplo. Un fabricante de baumanómetros desea determinar la vida promedio de ellos con un viaje de grado de certeza de 99% y con un error menor a 1000 se sabe que la desviación estándar es de 3000. ¿Qué tan grande debe ser la muestra?
Si E = es el error máximo.
72
n = (7.725)2= 59.67 60 Si el tamaño de la muestra es pequeño es decir los cálculos son semejantes, pero se debe regularizar la distribución normal por otra llamada.
Distribución t (t de student) Que tiene forma de campana pero depende de los grados de libertad que simplemente se calculan como n-1 o sea el tamaño de la muestra menos 1. Si el tamaño de la muestra es pequeño n<30 el intervalo de confianza para µ de
grado de confianza 1- es:
En la tabla de valores de t correspondientes a los valores tα/2 = t0.05, t0.25, t0.01 y t0.05 para los intervalos de confianza del 90%,95%,98% y 99%.
1-90%= .10 10/2= 0.05; 1- 95%= .95 0.05/2 = 0.025 Ejemplo Una empresa realizo un estudio del nivel de nicotina para una muestra de 20 cigarrillos producidos por otra empresa. La tabla siguiente muestra la cantidad de nicotina contenida en cada una de los cigarrillos de muestra. La media
=
=(22.5+26.7+…25.2)/20 = 24.9 Su desviación estándar
Intervalo de confianza de 95%
1 – 0.95 = 0.05 0.05/2 = 0.025 Como n –1 = 19
22.5 26.7 28.1 24.5 23.9 23.6 23.4 24.6 24.3 26.0 22.7 23.6 24.1 25.2 25.8 27.3 24.7 27.0 24.8 25.2
73
Renglón –19 El valor “t” es 2.093 entonces
24.9 – 2.093 (0.345) ≤ µ ≤ 24.9+ 2.093(0.345) 24.9–0.72 ≤ µ ≤ 24.9 + 0.72 24.18 ≤ µ ≤ 25.62 Con probabilidad 0.95 el nivel de la nicotina de la marca competidora está entre 24.18 y 25.62. O bien que al estudiar el nivel medio de nicotina como 24.9mg. Sabemos que con un grado de confianza del 95% el error es menor a 0.72mg. Si deseamos cambiar el intervalo para un 99% de intervalo de confianza tenemos:
= 0-01
Buscar 1 – 0.99= 0.01 0.01/2 = 0.005 con 19 grados de libertas tenemos t = 2.861
24.9 – 2.861 (0.345) ≤ µ ≤ 24.9 + 2.86 (0.345) 24.9 – 0.98 ≤ µ ≤ 24.9 + 0.98 23.92 ≤ µ ≤ 25.88 Con probabilidad0.99 el nivel medio de nicotina de la marca competidora está entre 23.92 y 25.88. Al estimar el nivel medio de nicotina como 24.9 con un grado de confianza del 99% el error es de 0.98 o sea menor de 1mg.
DISTRIBUCIÓN “CHI CUADRADA” “ ” La distribución de la varianza muestral
Es importante si el muestreo se hace en una población distribuida normalmente la distribución de una modificación de S2. Es la varianza de una muestra aleatoria de tamaño n de una población distribuida
normalmente con media µ y varianza 2 entonces:
74
tiene una distribución.
Chi cuadrado
Es la suma de las desviaciones elevadas al cuadrado de los valores muéstrales respecto de su media. Entonces podemos analizar nuestra distribución en función de:
y podemos obtener empíricamente una aproximación de esta distribución sacando de una población distribuida normalmente un gran número de muestras de tamaño n calculando para cada muestra la suma de las desviaciones elevadas al cuadrado de los valores muestrales respecto de su media y dividiendo cada una de estas
sumas por la población que se nos ira convirtiendo en: (n–1)s2/2
sigue una distribución CHI CUADRADO Igual que la distribución t de student, la distribución Chi cuadrada es una familia de distribuciones que dependen de cada valor posible llamado GRADOS DE LIBERTAD.
£ - student
75
La distribución CHI cuadrado que sigue la formula
tiene n-1 Grados de libertad. Las curvas tienden a alargarse hacia la derecha y no son simétricas. El área total limitada por la curva de una distribución Chi cuadrada y los ejes es
igual a uno pero la variable solo toma valores no negativos. La media es igual a sus grados de libertad y la varianza es igual a dos veces sus grados de libertad. Existen tablas para facilitar su empleo, recordando que las áreas son
probabilidades asociadas a intervalos limitados por valores determinados de . Ejemplo.
La distribución Chi cuadrada con 10 grados de libertad que valor de tiene a su izquierda 0.95 del área bajo la curva.
Buscar 10 grados de libertad y la columna 0.95 igual a 18.307 Como el área es igual a el 5% o sea el 0.05 del área esta a la derecha del 18.307.
Si se saca al azar un valor de de la distribución con 10 grados de libertad, la probabilidad que sea mayor o igual es a 18.307 es 0.05 Ejemplo. La varianza de los pesos jóvenes de 12 años es de 39 Kg. y que están normalmente distribuidos ¿cuál es la probabilidad de que una muestra aleatoria de 25 niños de 12 años arroje una varianza igual o mayor que 57?
Tabla con 24 grados de libertad, el valor está entre 33.196 y 36.415 en las
columnas 0.90 y
0.95 respectivamente.
CHI CUADRADO
df= 4 df= 6
df= 8
df=
10
76
Entonces la probabilidad de observar un valor de igual o mayor que 35.077 está entre 0.05 y 0.10 la probabilidad de observar un valor de S2 igual a mayor que 52 está entre 0.05 y 0.10.
PRUEBA X2 CHI CUADRADA. Se usa para comprobar si los resultados de una muestra (o experimento) confirman la distribución hipotética H0= la distribución hipotética es adecuada H1= la distribución hipotética no es adecuada Su formula es:
Oi= es la frecuencia observada en la muestra experimental. Єi= es la frecuencia esperada de acuerdo con la distribución hipotética y se obtiene multiplicando el total de las frecuencias observadas por la probabilidad teórica de la ocurrencia del evento. Ejemplo En un experimento de cruzas de dos tipos de maíz se obtuvieron 773 plantas verdes, 231 doradas, 238 verdes rayadas y 59 dorado-verde-rayada. Se desea saber si estos resultados reafirman o contradicen la teoría mendeliana según los
cuatro grupos deben de estar en las proporciones 9:3:3:1 con = 5% (significancia). P1= 9/16 P2= 3/16 P3= 3/16 P4= 1/16
= 231+ 0.68 + 0.14 + 6.12 = 9.25
Si tenemos = 0.05 y grado de libertad n–1
GL = 4–1 = 3 tabla = 7.81
observadas Esperadas 773 1301(9/16)= 731.9 231 1301(3/16)= 243.9 238 1301(3/16)= 243.9 59 1301(1/16)= 81.3
1301 ← = → 130.10
77
H0
GL= 3
X2 CALCULADA= 9.25
5%
Hi
Acepta H0 7.28 Rechaza H0
X2= 1.94
Acepta 3.84 Rechaza
Se rechaza la
probabilidad 9:3:3:1
En un experimento de genética se obtuvieron 312 plantas de jitomate rojo y 88 de jitomate amarillo. Debido a la dominancia del rojo sobre el amarillo y la generación con la que se trabajo, se esperaba una relación 3:1 ¿Concuerdan los resultados experimentales con los teóricos a un nivel de significancia del 5%?
H0 proporción 3:1 adecuada P= 0.75 Hi proporción 3:1 no adecuada P≠0.75 P= probabilidad de 1 jitomate rojo
GL= 2-1= 1 =0.05 tabla 0.05= 3.84
X2= calculada< X2tabla
Acepta la proporción 3:1
En una prueba sensorial para estudiar la características organolépticas del cóctel de frutas, 20 personas pudieron distinguir entre las muestras tipo “A” y la muestra “B” a estas 20 personas se les pregunto en cuál de las dos muestras notaban mayor espesor en el almíbar de los cuales 8 contestaron que en la muestra “A” y 12 que en la muestra “B”.
observado Esperado 312 400(3/4)= 300 88 400(1/4)= 100
400 400
78
¿Es el espesor del almíbar un factor determinante para distinguir las muestras? *si el espesor del almíbar no es factor determinante significaría que la mitad de las personas seleccionan la muestra “A”. H0: P= ½ y Hi= P≠ ½
= 0.4 + 0.4 = 0.80
Tabla = 0.05 v =2-1 = 1gl
tabla= 3.84
Como calculada < tabla se acepta H0 que dice que el espesor del almíbar no es determinante. Los siguientes datos corresponden a mujeres clasificadas según el tipo de síntomas somáticos del sueño en la menopausia y la pregunta es ¿existe alguna diferencia en los síntomas somáticos entre las mujeres que padecen trastornos del sueño por la menopausia? H0: P1= P2=P3=P4=P5=0.20 Hi: P1≠ P2≠P3≠P4≠P5
Síntomas somáticos del sueño
observados Esperados
Vasomotores 18 100*0.20= 20 Músculo esquelético 22 100*0.20= 20 Gastrointestinales 21 100*0.20= 20
observados esperado 8 20(1/2)= 10 12 20(1/2)= 10
20 20
X2= 0.80
Acepta 3.84 Rechaza
79
1.1
Acepta 9.488 Rechaza
SNC 17 100*0.20= 20 fatiga 22 100*0.20= 20
100 100*0.20= 100
= 4/20 + 4/20 + 1/20 + 9/20 + 4/20 = 22/20 = 1.1
Tabla = = 5% = 0.05 GL= 5 – 1 = 4 = 9.488 Como X2< X2tabla acepta H0