apuntes metodologia invest ii final

1

INSTITUTO POLITÉCNICO NACIONAL

ESCUELA NACIONAL DE MEDICINA Y HOMEOPATÍA

APUNTES DE METODOLOGÍA DE LA

INVESTIGACIÓN ESTADÍSTICA II

Asesorado y revisado por el docente:

M. en C. BEATRIZ EUGENIA GÁMIZ CASARRUBIAS

Realizado por las alumnas asesoras: Yareli Cecilia Pérez Herrera

María Isabel López Arroyo

2

TEORÍA DE CONJUNTOS

El estudio de la teoría de conjuntos nos permite recordar conceptos que serán empleados a lo largo de los apuntes. Tenemos el siguiente diagrama de Venn enumerar cada uno de los siguientes conjuntos.

a) A U B = {a,b,c,d,e,f,g,h,i,j,k,o,p,q} b) A ∩ B = {d,e,f,g} c) A U C = {a,b,c,d,e,f,g,h,i,j,k,l,m,n} d) C U B= { d,e,f,g,h,i,j,k,l,m,n,o,p,q,} e) A ∩ C= {f,g,h,i} f) C ∩ B= {f,g,j,k} g) A∩B∩C={f,g} h) A U C U C= {a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q} i) (A U B U C)’= {r,s} j) B’ = {a,b,c,h,i,l,m,n,r,s} k) (A U B)’= {m,l,n,r,s} l) A – B ={a,b,c,h,i } m) B - C = {d,e,o,p,q}

3

UNIÓN La unión de dos conjunto A y B es el conjunto que consta de todos los elementos de A o B o de ambas si se indica mediante el símbolo U o sea AUB

INTERSECCIÓN La intersección de dos conjuntos A y B es el conjunto que contiene todos los elementos de A y de B, se indica por medio de o ser A∩B.

4

COMPLEMENTO El complemento de un subconjunto A del conjunto universal U es el conjunto que consta de todos los elementos de U que no son elementos del conjunto A.

DISJUNTOS Ó MUTUAMENTE EXCLUYENTES. Se dice que dos conjuntos A y B son disjuntos o mutuamente excluyentes cuando no tienen ningún elemento común.

o

5

Resta A - B. A menos B es el conjunto de todas los elementos que se encuentran en EL conjunto A que no se encuentran en B o bien se toma el conjunto A y se eliminan los elementos que son del comunes con B.

LEYES DE MORGAN.

a) (A U B)’ = ( A’) ∩ ( B’).

(A ∩ B)’ (A’) ∩(B’)

b) (A ∩ B)’= ( A’ ) U( B’) (A ∩ B)’

c) A C B si y solo si A´ ּכ B´

6

d) A ∩ B {Ø} A C B' y B C A'

EJEMPLOS 1.- Se les pidió a 100 comerciantes que dijeran que tipo de programa de televisión preferían , se clasificaron de acuerdo al nivel de estudios de los comerciantes y al tipo de programa preferido, especificar el número de elementos de cada conjunto.

(A) (B) (C) (D) Programa/nivel Secundaria Preparatoria Licenciatura Total Deportes (S) 15 8 7 30 Noticias (N) 3 7 20 30 Drama (D) 5 5 15 25 Comedia (W) 10 3 2 15 Total 33 23 44 100

a) los que ven deporte (s) = 30 b) ven drama o tienen licenciatura = (D U C) – (D∩C)= 25+44-15=54 c) los que tienen secundaria (A) = 33 d) los que no ven comedia (W)' = 100-15 = 85 e) los que ven noticias y tienen preparatoria (N ∩ B) = 7 f) los que ven deportes o tienen preparatoria (S U B)-(S∩B)=30+23-8=45 g) los que no ven noticias y con licenciatura(N∩C)'=100-20 N'∩C=7+15+2=24 h) los que ven noticias y no licenciatura N∩C'=3+7=10 i) los que tienen estudios diferentes de preparatoria B' =100-23 j) los que ven drama con estudios menores a licenciatura D∩(AUB)=5+5=10

7

46

5

4

7

3

11

24

2.- Los estudiantes de medicina se inscribieron a diferentes actividades deportivas, encontrando: 60% fútbol, 25% en básquetbol;15% en natación; 14% en fútbol y Básquetbol; 10% en básquetbol y natación; 3% en fútbol, básquetbol y natación. ¿Cuántos están en un solo deporte? ¿Cuántos están en 2 deportes?

F=60% B=25% N=15% FB=14% BN=10% FBN=3%

Un solo deporte 46+4+5=55 2 deporte 11+7=18 Ningún deporte 100-(46+11+4+3+7+5)=100-76=24 3.- A 75 personas se les tipifica un grupo sanguíneo, encontrando que 65 de ellos son Rh+ de los cuales 25 son tipo A; 30 son tipo B y 10 tipo AB; de los 10 Rh- se encontró 3 de tipo A, 4 de tipo B y 1 tipo AB. Encontrar cuantos tipos O RH+ y Rh- se encuentran. Rh+ = 65 A = 25 B = 30 AB = 10

15+10+20=45 ►65-45=20 O RH+

20

A B

15 10

8

Rh- = 10 A = 3 B = 4 AB = 1

2+1+3=6 ►10-6=4 O RH¯

3

A B

2 1

9

ESTADÍSTICA DESCRIPTIVA

Datos. Es cualquier observación. Los números son un dato, pero no todos los daros son numero. Ejemplo: Numero 4,(2,10) ojos cafés, dolor severo. Se clasifican en: Datos agrupados. Es un dato que se representa por intervalos ejemplo.(a,b); (2,10). Datos no agrupados. Es un dato que se representa por puntos ejemplo. A, 4, 10. -2 EJEMPLO: En el examen final de ANATOMÍA de un grupo de 30 estudiantes se obtuvieron las siguientes calificaciones: 4,3,7,5,3,1,6,8,0,5,3,4,10, 0, 2,8,3,0,6,4,6,2,5,5,2,3,6,2,5,1 < Se ordenan los datos en forma no agrupada y agrupada.

NO

AGRUPADOS

AGRUPADOS Frecuencia.

f

0 III 3 0≤X<2 5

1 II 2 2≤X<4 9

2 IIII 4 4≤X<6 8

3 IIII 5 6≤X<8 5

4 III 3 8≤X<10 2

5 IIII 5 10≤X<12 1

6 IIII 4 30

7 I 1

8 II 2

9 0

10 I 1

30

Un dato agrupado en un intervalo llamado INTERVALO DE CLASE, a los extremos se les llama. LIMITE DE CLASE, siendo el de la izquierda el límite inferior y el de la derecha el superior, a los valores de la muestra en cada intervalo se le llama CLASE Y FRECUENCIA, el número de veces que se repite un dato, mientras que FRECUENCIA DE CLASE, es el numero de valores en una clase, (valores = dato). El TAMAÑO DE LA MUESTRA, es igual a la suma de todas las frecuencias de los valores de las observaciones o de los datos. Para realizar el análisis de los datos no agrupados como datos agrupados:

1. Detectar el dato o valor mínimo y el dato o valor máximo. 2. calcular la diferencia X máx. – X min. 10-0= 10

10

3. el número de intervalos entre la amplitud más 1. 5+ 1= 6.

4. fijar la amplitud que uno quiera pero dependiendo del número de intervalos = 2

5. los intervalos de clase pueden ser más de 15 ni menos de 5.

FRECUENCIA ACUMULADA. ¨F¨ Es la suma de las frecuencias de los datos o valores de la muestra ordenada de menor a mayor. Fi= f1, f1+ f2, f1+f2+f3, f1+f2+f3+f4+……+fn FRECUENCIA RELATIVA.

Es el cociente de las frecuencias de ese dato entre el tamaño de la muestra.

FRECUENCIA ACUMULADA RELATIVA.

, Es el cociente de la frecuencia acumulada de ese dato entre el tamaño de la muestra.

Del ejemplo de las clasificaciones para los 30 estudiantes tenemos: DATOS NO AGRUPADOS.

Xi (calificaciones)

f. frecuencia

F. Frecuencia Acumulada

frecuencia

relativa.

Frecuencia acumulada

relativa

0 3 3 3/30 3/30 1 2 5 2/30 5/30 2 4 9 4/30 9/30 3 5 14 5/30 14/30 4 3 17 3/30 17/30 5 5 22 5/30 22/30 6 4 26 4/30 26/30 7 1 27 1/30 27/30 8 2 29 2/30 29/30 9 0 29 0/30 29/30

10 1 30 1/30 30/30 Total 30 30/30

11

DATOS AGRUPADOS.

# intervalo

intervalo f

frecuencia

F Frecuencia acumulada

.

Frecuencia relativa.

. Frecuencia acumulada

relativa

1 0≤X<2 5 5 5/30 5/30

2 2≤X<4 9 14 9/30 14/30

3 4≤X<6 8 22 8/30 22/30 4 6≤X<8 5 27 5/30 27/30 5 8≤X<10 2 29 2/30 29/30 6 10≤X<12 1 30 1/30 30/30

Total 30 30/30 La suma de frecuencia es igual al tamaño de la muestra. f (Xi) +f(X2)+f(X3)+f(X4)+……….+f(Xm) = N si m≤N. La suma de las frecuencias relativas es igual a 1.

(X1)+ (X2)+ (X3)+………+ (Xm) = 1 EJEMPLOS: En una muestra de 25 familias donde se investigo el número de hijos

tenidos, se tiene. 4,2,2,0,3,4,1,3,2,1,1,3,3,5,4,2,3,1,5,4,0,6,2,3,1. Construir las tablas de frecuencias para datos no agrupados y agrupados. DATOS NO AGRUPADOS.

# HIJOS f F 0 2 2 2/25 2/25 1 5 7 5/25 7/25 2 5 12 5/25 12/25 3 6 18 6/25 18/25 4 4 22 4/25 22/25 5 2 24 2/25 24/25 6 1 25 1/25 25/25

Total 25 25/25

12

DATOS AGRUPADOS. A 60 estudiantes se les toman sus respectivas presiones sanguíneas,

leídas en mmhg. Los resultados para la presión sanguínea sistólica son: 142,142,134,110,98,130,136,120,118,130,116,140,118,122,132,128,128,114,138,104,116,110,100,128,128,124,140,108,146,130,116,114,152,118,140,128, 116,110,138,132,118,120,122,120,102,108,112,94,130,130,118,120,128,108, 120, 124, 110, 124, 132,118. Construir la tabla de frecuencias para datos agrupados y no agrupados. NO AGRUPADOS. PRESIÓN f F

94 1 1 1/60 1/60

98 1 2 1/60 2/60

100 1 3 1/60 3/60

102 1 4 1/60 4/60

104 1 5 1/60 5/60

108 3 8 3/60 8/60

110 4 12 4/60 12/60

112 1 13 1/60 13/60

114 2 15 2/60 15/60

116 4 19 4/60 19/60

118 6 25 6/60 25/60

120 5 30 5/60 30/60

122 2 32 2/60 32/60

124 3 35 3/60 35/60

128 6 41 6/60 41/60

130 5 46 5/60 46/60

132 3 49 3/60 49/60

134 1 50 1/60 50/60

136 1 51 1/60 51/60

138 2 53 2/60 53/60

140 3 56 3/60 56/60

142 2 58 2/60 58/60

146 1 59 1/60 59/60

152 1 60 1/60 60/60

60 60/60

# INTERVALO

INTERVALO f f

1 0≤X<2 7 7 7/25 7/25 2 2≤X<4 11 18 11/25 18/25 3 4≤X<6 6 24 6/25 24/25 4 6≤X<8 1 25 1/25 25/25 25 25/25

9 4,8

10 8,4,0,8,8,2

11 6,4,2,4,0,8,6,8,0,6,0,8,6,8,0,8,8

12 8,8,8,0,0,8,8,8,0,4,4,0,2,4,2,0

13 4,8,0,0,0,6,8,0,2,2,2,0

14 2,2,0,0,0,6

15 2

13

AGRUPADOS. 152-94=58÷5=11+1=12

# INTERVALO f F

1 94≤X<99 2 2 2/60 2/60

2 99≤X<105 2 4 2/60 4/60

3 104≤X<109 4 8 4/60 8/60

4 109≤X<114 5 13 5/60 13/60

5 114≤X<119 12 25 12/60 25/60

6 119≤X<124 7 32 7/60 32/60

7 124≤X<129 9 41 9/60 41/60

8 129≤X<134 8 49 8/60 49/60

9 134≤X<139 4 53 4/60 53/60

10 139≤X<144 5 58 5/60 58/60

11 144≤X<149 1 59 1/60 59/60

12 149≤X<154 1 60 1/60 60/60

60 60/60 152-94=58÷6=9+1=10

# INTERVALO f F

1 94≤X<100 2 2 2/60 2/60

2 100≤X<106 3 5 3/60 5/60

3 106≤X<112 7 12 7/60 12/60

4 112≤X<118 7 19 7/60 19/60

5 118≤X<124 13 32 13/60 32/60

6 124≤X<130 9 41 9/60 41/60

7 130≤X<136 9 50 9/60 50/60

8 136≤X<142 6 56 6/60 56/60

9 142≤X<148 3 59 3/60 59/60

10 148≤X<154 1 60 1/60 60/60

60 60/60

14

MEDIDAS DE TENENCIA CENTRAL.

Después de considerar los datos de una población o de una muestra y elaborada la distribución de frecuencias de donde obtenemos información preliminar de interés pero debemos reducir los valores hasta obtener uno solo que represente al conjunto de datos de manera descriptiva; a este valor se le llama. VALOR MEDIO. El valor medio debe cumplir la condición de ser representativo del conjunto. Los valores que cumplen con ésta condición son; LA MEDIA ARITMÉTICA, LA MEDIANA, Y LMODA. MODA. Es el valor que aparece con mayor frecuencia en un grupo de datos. Del ejemplo de las calificaciones de los alumnos: CALIFICACIÓN f F

0 3 3

1 2 5

2 4 9

3 5 14

4 3 17

5 5 22

6 4 26

7 1 27

8 2 29

9 0 29

10 1 30

30 BIMODAL 3 Y 5 MODA en datos agrupados

Li= Limite inferior de la clase modal= 2

∆1= Diferencia ÷ la mayor frecuencia y la frecuencia anterior= 9 - 5

∆2= Diferencia ÷ la mayor frecuencia y la frecuencia siguiente= 9 - 8

I= Valor del intervalo= 2

= 2 + 1.6 = 3.6

# INTERVALO f F

1 0-2 5 5

2 2-4 9 14

3 4-6 8 22

4 6-8 5 27

5 8-10 2 29

6 10-12 1 30

30

15

La moda no es una medida de tendencia central muy usual, sin embargo es vital para determinar por ejemplo: que medicamento es el que más se vende o la dosis que con mayor frecuencia se receta. MEDIANA. Si todos los valores observados se ordenan de acuerdo a su magnitud la MEDIANA es el valor que ocupa el lugar central, o sea la mitad, esto es, es el valor que divide a los datos ordenados o a una distribución en dos partes iguales ( ½ y ½ ). Si el número de observaciones es IMPAR la MEDIANA coincide con el valor

central o bien podemos calcular el valor del dato

Ejemplo: Si hay 115 datos la mediana es el valor del dato (115+1)/2 = 116/2 = 58 Si el número de datos es PAR la MEDIANA es la medida de los valores de los datos.

Ejemplo: Si contamos con 98 datos, La mediana la obtendremos calculando la media de los datos 98 / 2 y 100 / 2 o sea el promedio entre 49 y 50. De los ejemplos de las calificaciones y de los hijos tenemos:

PAR 30/2 y (30+2)/2 30/2 y 32/2 LUGAR 15 Y 16 POR LO TANTO LA MEDIA DEL VALOR: ENTRE 4 Y 4 = 4

CALIFICACION f F

0 3 3

1 2 5

2 4 9

3 5 14

4 3 17

5 5 22

6 4 26

7 1 27

8 2 29

9 0 29

10 1 30

16

IMPAR (25+1) / 2 = 26/2 LUGAR 13 VALOR 3

Si los datos están agrupados entonces la MEDIANA EN SERIE ACUMULADA se debe calcular la frecuencia acumulada el valor de la variable que comprenda a la frecuencia acumulada donde se encuentra n/2 o sea el 50% de los datos se calcula con:

Li = Limite inferior de la clase mediana. FA = Frecuencia acumulada anterior. Fm = Frecuencia de la clase mediana. I = valor del intervalo. De los ejemplos de calificaciones tenemos.

Li = 4 FA = 14 Fm = 8 I = 2

Md= 4 + (1/8)*2= 4 + (2/8) = 4 + 0.25 = 4.25

HIJOS f F

0 2 2

1 5 7

2 5 12

3 6 18

4 4 22

5 2 24

6 1 25

# INTERVALO f F

1 0≤X<2 5 5

2 2≤X<4 9 14

3 4≤X<6 8 22

4 6≤X<8 5 27

5 8≤X<10 2 29

6 10≤X<12 1 30

17

Ejemplo:

n/2 = 65/2 = 32.5 Li = 70 Fa = 18 fm = 16 I = 10

Md = 70 + ((32.5-18)/16)*10 = 70 + (14.5/16)*10

= 70 + (0.906)*10 = 70 + 9.06 = 79.06 El 50% de los obreros gana menos de $79.06 MEDIA ARITMÉTICA. Es la medida de tendencia central que se encuentra con más frecuencia, se calcula sumando los valores que se tomaron en cuenta para la suma, o sea se obtiene al dividir la suma de todos los valores observados entre el número de ellos. Considerando X1, X2, X3, X4…………Xn, a las observaciones de las variables, la media aritmética es:

Ejemplo: del número de hijos se tiene: 0+0+1+1+1+1+1+2+2+2+2+2+3+3+3+3+3+3+4+4+4+4+5+5+6=65

= 65/25 = 2.6

Se tienen las siguientes calificaciones de alumno: 65, 70, 80, 91,96.

= (65+70+80+91+96) / 5 = 410/5 = 82 El número de horas que 10 estudiantes ven televisión son: 24, 25, 22, 20, 15, 25, 17, 16, 15,17.

SALARIO

LIMITE INF

LIMITE SUP

f F

50 59 8 8

60 69 10 18

70 79 16 34

80 89 14 48

90 99 10 58

100 109 5 63

110 119 2 65

65

18

= (24+25+22+20+15+25+17+16+15+17) / 10 = 196/10 = = 19.6 MEDIA CON DATOS AGRUPADOS Se debe recordar que cada valor Xi de la variable, se repite tantas veces como indica su frecuencia fi; entonces la media es la suma de todas las observaciones

iguales; es decir es igual al producto Xi fi entonces la media es:

De los ejemplos de calificaciones y de los hijos

= 119/30

= 3.96

= 65/25

= 2.6

califica f xf

0 3 0 1 2 2 2 4 8 3 5 15 4 3 12 5 5 25 6 4 24 7 1 7 8 2 16 9 0 0 10 1 10

30 119

hijos f xf

0 2 0 1 5 5 2 5 10 3 6 18 4 4 16 5 2 10 6 1 6

25 65

19

MEDIA DE SERIE DE CLASE Y FRECUENCIAS Se suman todos los valores observados y hacemos una aproximación al suponer que todas las observaciones de una clase son iguales a su punto medio o marca de clase. Con esto se convierte una serie de clase en una serie de frecuencias sustituyendo las clases por sus puntos medios, quedando la formula:

De los ejemplos de calificaciones y salarios tenemos

= 136 / 30 = 4.53

= 5185 / 65 = 79.77

Ejemplos Los 17 juegos de la liga de fútbol de un equipo duraron 94, 93, 91, 93, 90, 92, 93, 93, 94, 90, 91, 92, 95, 90, 91 y 93 minutos. Determina su moda, mediana, media.

Califacación fi Mi Mifi

0-2 5 1 5 2-4 9 3 27 4-6 8 5 40 6-8 5 7 35

8-10 2 9 18 10-12 1 11 11

30 136

Salarios fi Mi Mifi

50-59 8 55 440 60-69 10 65 650 70-79 16 75 1200 80-89 14 85 1190 90-99 10 95 950

100-109 5 105 525 110-119 2 115 230

65 5185

20

Moda =93 Mediana= (n+1)/2 = 17+1 =18/2=9 ►93

Media = 1568/17 = 92.23 La distribución de frecuencias de los puntajes de coeficiente intelectual (CI) de 150 estudiantes del tercer grado son las siguientes: calcular MODA, MEDIA, MEDIANA.

Mo = 105+ (7/12) * 5 = 105+ (0.583)5 = 105+2.915 = 107.95

MEDIA

X= 16245 / 150 = 108.30

MEDIANA

n/2 = 150/2 = 75

= 105 + (0.777)*5 = 105 + 3.88 = 108.88 Los salarios mensuales promedio de los médicos residentes en cierto periodo fueron $3,500, $3,200 y $2,800 de acuerdo a si pertenecían al IMSS, ISSSTE o SSA ¿Cuál es el salario promedio mensual de los residentes de estas tres instituciones si contaban con 3,450; 1,200 y 2800 médicos respectivamente.

Xi f F xifi

90 3 3 270 91 3 6 273 92 2 8 184 93 6 13 558 94 2 16 188 95 1 17 95

17 1568

INTERVALO f F mi Mifi

85-89 9 9 87 783

90-94 11 20 92 1012

95-99 14 34 97 1358

100-104 20 54 102 2040

105-109 27← 81← 107 2889

110-114 22 103 112 2464

115-119 19 122 117 2223

120-124 16 138 122 1952

125-129 12 150 127 1524

150 16245

21

xi Médico

residente

xifi

IMSS 3500 3450 12,075,000 ISSSTE 1200 1200 3,840,000

SSA 2800 2800 7,840,000

7400 23,755,000

= 3,210.13

22

MEDIDAS DE DISPERSIÓN Una medida de la manera en que los variables individuales se desvían del valor promedio. Si tenemos por ejemplo que la edad promedio de la fiesta de ayer fue de 18 años, podemos pensar en una fiesta de adolescentes, pero resulta que fue de una abuela de 73 años que ofreció la fiesta a su nieto de 5 años y a sus tres primos de 3,5 y 4 años. Entonces: 73 + 5 + 3 + 5 + 4 = 90 ÷ 5 = 18 Por lo que se requiere calcular otras medidas que nos orienten sobre el comportamiento de los datos observados. Estas medidas llamadas de dispersión, nos indican que tan dispersos están los datos obtenidos en cualquier observación RANGO. Es la diferencia entre el valor máximo y el valor mínimo de los datos observados. De los ejemplos anteriores tenemos Calificaciones. Agrupados Xmax = 10; Xmin = 0 ►R = 10 - 0 = 10

Intervalo Xmax = 12, Xmin = 0 ►R = 12 - 0 = 12 Num de hijos (intervalo) Xmax = 6, Xmin = 0 ►R = 6 – 0 = 6 Salarios (intervalo) Xmax = 119, Xmin = 50 ►R = 119 – 50 = 69 Puntaje CI Xmax = 129, Xmin = 85 ►R = 129 - 85 = 44 Minutos de los partidos Xmax = 95, Xmin = 90 ►R = 95 – 90 = 5 DESVIACIÓN ABSOLUTA MEDIA Es la diferencia que existe de cada valor de la variable y el valor de la media, considerada en valores absolutos

▌Xi ▌

Es la media aritmética de todas las desviaciones respecto a la media.

Si se toma en cuenta el signo de la diferencia Xi - , la suma de las diferencias

respecto a la media es cero, por eso se debe tomar el valor absoluto de la diferencia .

23

= 40 / 4 = 10 DM1 = 16 / 4 = 4

= 40 / 4 = 10 DM2 = 6 = 1.5 En los ejemplos se demuestra que no siempre el valor de la media nos indica cómo se comportan nuestros datos, por lo que se deben realizar otro tipo de cálculos. Como la desviación absoluta media no sigue un proceso riguroso algebraico por lo que se prefiere emplear: VARIANZA Es la suma de los cuadrados de las desviaciones entre el número de observaciones. Si las observaciones corresponden a una muestra de la población se considera

n-1 Esto es: la varianza es el promedio de la diferencias de las observaciones con respeto al valor medio.

Del mismo ejemplo anterior. I Xi ▌Xi- ▌ ▌Xi- ▌²

2 8 64 10 0 0 12 2 4 16 6 36

40 104 II Xi ▌Xi- ▌ ▌Xi- ▌²

8 2 4 9 1 1 10 0 0 13 3 9

40 14

= 40/4 = 10 = 40/4 = 10

I Xi ▌Xi - ▌ II Xi ▌Xi - ▌

2 8 8 2 10 0 9 1 12 2 10 0 16 6 13 3

40 16 40 6

24

2 = 104/3 2 = 14/3

= 34.6

= 4.6

Si los datos están muy dispersos, la varianza es muy grande pero si, los datos están concentrados la varianza es pequeña. DESVIACIÓN ESTÁNDAR. Dado que la varianza es un dato cuyo valor esta al cuadrado no tiene las mismas unidades que los valores de las medidas de tendencia central por lo que se requiere calcular la raíz cuadrada de la varianza y se denomina desviación estándar.

Cuando la media presenta fracciones decimales se ocasionan dificultades de cálculo entonces lo que es preferible en ocasiones utilizar el MÉTODO ABREVIADO. Varianza Deviación estándar

Ejemplo Anterior: X = 40/4 =10

² = 104/3 = 34.6

= √34.6

= 5.88

Xi

IX- I

(X- )²

2 -8 64 10 0 0 12 2 4 16 6 36

40 104

25

= 40/4=10

² 14/3= 4.6

= √4.6

= 2.16 SERIE DE FRECUENCIAS El cálculo de la varianza y la desviación estándar es similar al de la serie simple pero se deben considerar las frecuencias.

lo mismo sucede para la Desviación estándar

Ejemplo Hijos

= 65/25=2.6

²= 60/24=2.5

√2.5=1.58 SERIE DE CLASES Y FRECUENCIAS. En este tipo de arreglos de datos, no tenemos realmente los valores observados, pero se puede tener una aproximación al sustituir cada intervalo de clase por el punto medio y se efectúa el cálculo igual que como serie de frecuencias cambiando la X por M. Ejemplo de salarios.

II X X - (X- )²

8 2 4

9 1 1

10 0 0

13 -3 9

40

Hijos X f F xf x- (X- )² (X- )²f 0 2 2 0 -2.6 6.76 13.52 1 5 7 5 -1.6 2.56 12.8 2 5 12 10 -0.6 0.36 1.8 3 6 18 18 0.4 0.16 .96 4 4 22 16 1.4 1.96 7.84 5 2 24 10 2.4 5.76 11.52 6 1 25 6 3.4 11.56 11.56

25 65 60.00

26

SALARIO f

mi

mifi

m-

(m- )²

(m- )²f 50-59 8 54.5 436 -25.27 638.57 5108.58 60-69 10 64.5 645 -15.27 233.57 2331.73 70-79 16 74.5 1192 -5.27 27.77 444.36 80-89 14 84.5 1183 4.73 22.37 313.22 90-99 10 94.5 945 14.73 216.97 2169.73

100-109 5 104.5 522.5 24.73 611.57 3057.86 110-119 2 114.5 229 34.73 1206.17 2412.34

65 5152.5 15837.82

= 5152.5 / 65 = 79.77

= 15,837.82 / 64 = 247.466

= √247.466 = 15.731

Ejemplos: CALIFICACIONES DE LOS ESTUDIANTES

= 119/ 30

= 3.96

²= 184.967/ 29 = 6.378

= √6.378 = 2.526

X f F Xifi X- (X- )² (X- )²f 0 3 3 0 -3.96 15.68 47.044 1 2 5 2 -2.96 8.76 17.523 2 4 9 8 -1.96 3.84 15.366 3 5 14 15 -0.96 .092 4.608 4 3 17 12 0.04 0.001 0.008 5 5 22 25 1.04 1.08 5.408 6 4 26 24 2.04 4.16 16.646 7 1 27 7 3.04 9.24 9.241 8 2 29 16 4.04 16.32 32.643 9 0 29 0 5.04 25.40 0 10 1 30 10 6.04 36.48 36.48

30 119 184,967

27

= 136/ 30 = 4.53

= 197.464/ 29 = 6.809

= √6.809 = 2.609 Los datos pueden presentarse de manera gráfica para poder realizar un análisis de ellos

CLASE

f

F

m

fm

mX

(m-X)²

(m-X)²f

0≤X2 5 5 1 5 -3.53 12.46 62.304 2≤X4 9 14 3 27 -1.53 2.34 21.068 4≤X6 8 22 5 40 0.47 0.22 1.767 6≤X8 5 27 7 35 2.47 6.10 30.504 8≤X10 2 29 9 18 4.47 19.98 39.961

10≤X12 1 30 11 11 6.47 41.86 41.860

30 136 197.464

28

HISTOGRAMA 1

Los siguientes datos muestran el consumo diario de calorías de 11 jóvenes, los datos originales se dividieron entre 1000 y se redondearon a la décima más próxima. 2.5,2.3,2.4,2.3,2.3,2.5,2.7,2.5,.2.6,2.7,2,7. Calcular moda, mediana, mediana, media, rango, varianza, desv. Estándar. Moda = 2.3 y 2.5 Mediana = 2.5

= 27.4/11 = 2.49 Rango = 2.7-2.3 = 0.4

² = 0.2291/10 = 0.02291

= 0.15136

+ σ 2.3758 y 2.6342

calorías

f

F

Xf

X-X

(X-X)²

(X-X)²f

2.3 3 3 6.9 0.19 0.036 0.1038 2.4 1 4 2.4 0.09 0.008 0.0081 2.5 3 7 7.5 0.01 0.0001 0.0003 2.6 2 9 5.2 0.11 0.0121 0.0242 2.7 2 11 5.4 0.21 0.0441 0.0882

11 27.4 0.2291

29

En un experimento de psicología se pide a varios individuos que memoricen cierta secuencia de palabras, en la tabla se dan los tiempos en segundos que necesitaron los participantes para la memorización. Calcular moda, mediana, media, rango, varianza, de su estándar.

intervalo f F m mf (m-x) (m-X)² (m-X)²f

30-40 6 6 37 222 -56.7 3214.89 19289.34

45-59 9 15 52 468 -41.7 1738.89 15650.01

60-74 10 25 67 670 -26.7 712.89 7128.9

75-89 17 42 82 1394 -11.7 136.89 2327.13

90-104 21 63 97 2037 3.3 10.89 228.69

105-119 17 80 112 1904 18.3 334.89 5693.13

120-134 11 91 127 1397 33.3 1108.89 12197.79

135-149 9 100 142 1278 48.3 2332.89 20996.01

100 9370 83511

Moda

30

Mo = 90 + (4/8)15=90 + (0.5)15= 90+7.5 = 97.5 Mediana

Md = 90 + (8/21)15= 90+120/21 = 90 + 5.71 = 95.71 Media

= 93.7

Rango Rango = Vmáx – Vmín = 149 - 30 = 119 Varianza

= 843.5454 Desviación estándar

= 29.0438

+ σ 64.656 a 122.744

31

TÉCNICAS DE CONTEO

Para realizar cálculos de probabilidades se debe poder determinar el número de veces que ocurre un evento determinado. En muchas situaciones es virtualmente imposible contar el número de documentos de un evento por lo que podemos recurrir a métodos cortos, rápidos y eficaces. Principio de la multiplicación Si hay que hacer operaciones y si la primera se puede hacer de “A1” maneras y si no importa la forma en que se hace la primera, la segunda se puede hacer de “A2” maneras y si no importa la forma en que se hicieron las dos primeras operaciones, la tercera se puede hacer de “A3” maneras, etc. Hasta llegar a “Nk” maneras. Ejemplo Para formar el anuario de la escuela, en una página que debe tener cinco fotografías diferentes ¿Cuántos proyectos de páginas se pueden hacer si se tienen 4 fotografías de un grupo de profesores, 10 fotografías de eventos deportivos, 7 de salones de clase, 8 del terreno de la escuela y 5 de diferentes actividades de los alumnos?

32

Una joven tiene 5 blusas; 4 faldas y 3 pares de zapatos, ¿Cuántos juegos de ropa diferente puede ponerse?

5*4*3 =60 juegos

Diagrama de árbol Se utiliza cuando el número de posibilidades no es demasiado grande. Consta de

una serie de “ramas” que corresponden a cada una de las formas en las que se puede realizar la operación, por lo que solo tenemos que contar éstas ramas. Ejemplo. Un empleado va todos los días a su oficina en automóvil puede llenar por tres rutas diferentes (A,B,C) luego puede tomar tres caminos diferentes de la utopista al centro (I,II,III) y del centro al estacionamiento por dos rutas (1,2); ¿Por cuantas rutas diferentes puede ir? Rutas = 3*3*2 = 18

4

7

8 5

10

4*10*7*8*5=11,200

A

B

C

II

I

II

I

1

1

1

2

2

2

II

I

II

I

1

1

1

2

2

2

II

I

II

I

1

1

1

2

2

2

33

baja

Se realiza un estudio médico de acuerdo al tipo de Sangre (A, B, AB, C) y su presión

cardiovascular, (baja, normal, alta) ¿Cuántos tipos de pacientes existen? Tipos = 4*3 = 12

Permutaciones Sirven para contar el número de todos los diferentes arreglos u ordenamientos que se pueden hacer con un conjunto de objetos. Nos interesa el orden en que se presentan Ejemplo Veinte pilotos participan en una carrera de automovilismo y solo los primeros 6 lugares acumulan puntos para el campeonato, de cuantas maneras posibles pueden los pilotos ocupar los 6 primeros lugares. Lugar 1°20 pilotos; 2° 19 pilotos; 3°18 pilotos; 4° 17 pilotos; 5° 16 pilotos; 6° 15 pilotos ► 20 ٭ 19٭18٭17٭16٭ 15= 27,907,200

alta

A

B

AB

O

baja

baja

baja

normal

alta

normal

alta

normal

normal

alta

34

Un grupo de 60 alumnos va a graduarse, necesitan formar un comité de graduación formando por un presidente, vicepresidente; un secretario y un tesorero. Presidente 60; vicepresidente 59; secretario 58; tesorero 57; ►60*59*58*57= 11, 703,240 Permutación. Elegir un conjunto de objetos en un orden determinado; donde el orden es relevante. n * (n-1)*(n-2)*(n-3)*…*(1) = n! 1! = 1 0! = 1 2! = 2*1 = 2 3! = 3*2*1 = 6 (8-2)! = 6! El número de formas en que se pueden ordenar “n” objetos es igual a n! Ejemplo Hay 6 banderas de distintos colores cuantas señales diferentes se pueden hacer usando las seis banderas al mismo tiempo: P6

6 = 61 = 6*5*4*3*2*1=720 Las permutaciones de r objetos tomados de un conjunto de n objetos, pueden expresarse por medio de factores

Ejemplo. Calcular P410

= 5040 Una investigadora compro 7 libros pero solo tiene espacio para acomodar 5, si le importa el orden en que los va a acomodar de cuantas formas lo puede hacer?

35

= 2520 Permutación con repetición Si los elementos de un conjunto no son todos diferentes entre sí, es decir algunos son idénticos. La formula de las permutaciones que se pueden formar en el caso de “n” elementos, cuando hay n, elementos idénticos, n2 elementos, de otro tipo idénticos, etc. Entonces

Ejemplo Cuantos tratamientos se pueden recetar con diez medicamentos utilizándolos todos y son 4 antidepresivos; 3 antibióticos; 3 antihistamínicos.

Combinaciones Es un arreglo de cierto número r de objetos tomados de un conjunto de n objetos en tal forma que el orden en que se disponen no importa.

Ejemplos Se debe nombrar un comité de tres personas de un grupo de 15 profesores. ¿Cuántos comités se pueden formar?

36

Con parte de su salario un joven decide comprar 3 de los 7 discos compactos que le faltan del grupo TRI ¿Cuántas posibilidades tiene?

En un examen de biología hay que contestar 4 de 12 preguntas, ¿De cuantas formas las pueden contestar?

En el sorteo melate se deben adivinar 6 de 51 números ¿Cuántas formas se tienen para adivinar los 6 números?

= 32’468,436

37

PROBABILIDAD Rama de las matemáticas que se ocupa de los fenómenos que se producen o de fenómenos aleatorios. Probabilidad se expresa como numero entre 0 y 1; si el evento es imposible su valor es cero y si el evento ocurre con certeza su valor es uno. Si el evento tiene la probabilidad de ocurrir o de no ocurrir de la misma manera su valor será 0.5 o el 50% Un evento es el resultado posible de un experimento. Un evento es mutuamente excluyente de otro si este ocurre y el otro no puede ocurrir; como ejemplo se tiene pasar o no un examen. Probabilidad clásica Si en un experimento pueden producirse N resultados igualmente probables y mutuamente excluyentes y si dentro de estos N resultados el evento E puede ocurrir N veces, la probabilidad de que ocurra el evento E es:

Ejemplos Si tiramos un dado, la probabilidad de que caiga un 6 es:

Caras del dado = 6 = N # de 6 en el dado = 1= NE P 6 = 1/6

Si lanzamos una moneda, la probabilidad de que caiga “sol” es

Caras moneda = 2 = N # de sol es= 1 = NE

P sol = ½ Si se toma una carta de una baraja la posibilidad de que salga “as” es:

Total de cartas = 13 X 4= 52 = N # de “as” = 4 PAS = 4/52 = 1/3

Si en una urna existen 10 esferas blancas, 15 azules y 5 rojas ¿Cuál es la probabilidad de que el extraer una esfera al azar, esta sea blanca? Total esferas 10+15+5 = 30 = N # Esferas blancas = 10 = NE Pblanca = 10/30 = 1/3

38

Probabilidad experimental o de frecuencia relativa La probabilidad experimental de que ocurra un evento es la frecuencia relativa observada con que ocurre ese evento. Si un experimento se realiza “n” veces bajo las mismas condiciones y si ocurre n(A) resultados favorables del evento. A el valor estimado de la probabilidad de que ocurra A como resultado de la experimentación, puede determinarse por

Axiomas de probabilidad Si dos eventos son mutuamente excluyentes, la probabilidad de obtener A o B es igual a la probabilidad de obtener A más la probabilidad de obtener B.

P (A U B)= P(A) + P(B)

Ejemplo En un grupo de 500 personas recién graduadas se sabe que 175 en se graduaron en educación 150 en comercio; 100 en humanidades; 75 en ciencias de la salud. Al azar se elige a una persona y se sabe que ninguna tiene más de 1 carrera ¿Cuál es la posibilidad de que sea de comercio o educación? P(E) = 175/500, P(C)= 150/500, P(H) = 100/500, P(S) = 75/500 ► P(CUE) = 150/500 + 175/500 = 325/500 = 0.65 Si los eventos no son excluyentes o sea que tienen puntos muéstrales en común y que en términos de conjunto se llama intersección tenemos que: dados dos eventos A y B, la probabilidad de que ocurra el evento A del evento B ambos es igual a la probabilidad de que ocurra el evento A mas la probabilidad de que ocurra B menos la probabilidad de que ocurra ambos eventos.

B A

39

B A

A U B

P (AUB) = P (A) +P (B) – P (A ∩ B)

Ejemplo. En una escuela se recibierón 25 solicitudes para la vacante de una plaza de docente, entre las solicitudes 10 son de hombre y 15 de mujeres, 17 tienen titulo y 8 tienen certificado del último año. Se hace la selección al azar. ¿Cuál es la probabilidad de seleccionar una mujer o una persona con certificado?

Nivel estudios

Género Titulo Certificado Total Hombre 7 3 10 Mujer 10 5 15

total 17 8 25

P = PM + PC – P(M⋂C) P = 15 + 8 – 5 = 18 PROBABILIDAD CONDICIONAL La probabilidad de que suceda el evento A dado al sucedió el evento B P(A/B) Depende de una condición específica dada por una información adicional. Es decir se busca un subconjunto del conjunto universal. La probabilidad que emplea como denominación un subconjunto.

B A

40

Ejemplo Del ejemplo de las solicitudes para la plaza de docente, se requiere que si la persona debe ser, mujer y debe ser seleccionada al azar de las personas que tienen certificado. N(M) = 15, N(C) = 8, N(M∩C) = 5

Si se requiere que tenga certificado y se selecciona al azar de las solicitudes de las mujeres. N(M) = 15, N(C) = 8, N(M∩C) = 5

Regla de la multiplicación Es la probabilidad de que ocurran conjuntamente dos eventos Ay B esto es P(A/B).

P (A∩B) = P(B) * P(A/B) ò P(A∩B) =P(A)* P(B/A) Ejemplo Si la probabilidad buscada es de que sea mujer y con certificado P(c)= 8/25 P(m/c) = 5/8 P(C∩M) = 8/25 * 5/8 = 40/200 = 1/5 = 0.20 La probabilidad de que tenga certificado o sea mujer P(m)= 15/25 P(c/m) = 5/15 P(M∩C) = 15/25 * 5/15 = 75/375 = 1/5 = 0.20

41

Ejemplos En un estudio de una escuela se observo que el 90% de los alumnos tienen caries, 40% padecen problemas visuales, 30% sufren ambas enfermedades. Si son 100 alumnos y uno de ellos se selecciona al azar ¿Cuál es la probabilidad de que tenga problemas visuales si se observó que padece caries? P(c)= 90 P(v) =40 P(v∩c)=30

Se tienen 2 cajas y una moneda. La caja roja contiene 4 esferas blancas y 2 negras. La caja amarilla contiene 2 esferas blancas y 8 negras. Se arroja la moneda, si sale águila se saca una esfera de la caja roja, si sale sol se extrae de la caja amarilla. ¿Cuál es la probabilidad de obtener una esfera blanca? P(R) = ½ P(A) = ½ P(B/R) = 4/6 P(B/A) = 2/10 P(B) =P(R) P (B/R) + P(A) P (B/A) = 1/2 (4/6) + (1/2) (2/10) = 4/12 + 2/20 = (20+6)/60 = 26/60 = 0.43 ¿Cuál es la probabilidad de extraer una esfera negra? P(R)= ½ P(A)= ½ P(N/R)=2/6 P(N/A) = 8/10 P(N) =P(R) P (N/R) + P(A) P (N/A) = 1/2 (2/6) + (1/2) (8/10) = 2/12+8/20 = (10+24)/60 = 34/60 = 0.56 Se lanzan dos dados al mismo tiempo, calcula las siguientes probabilidades a) la suma de las caras den 7 n = 6 x 6 = 36 Σ7 = (1,6) (2,5) (3,4) (4,3) (5,2) (6,1) = 6

10 60 30

C V

42

P7 = 6/36 = 1/6 b) La suma de las caras den 6 n = 36 Σ6 = (1,5) (2,4) (3,3) (4,2) (5,1) = 5 P6 = 5/36 c) La suma de las caras den 8 n = 36 Σ3 = (2,6) (3,5) (4,4) (5,3) (6,2) = 5 P5 = 5/36 Tres estudiantes de medicina A, B y C intervienen en una prueba de natación; A y B tienen la misma posibilidad de ganar y el doble de posibilidad de C ¿hallar la posibilidad de que gane B o C? P(A) + P(B) + P(C) = 1 P(A) = P(B) P(A) = 2P(C) P(B) = 2P(C) 2P(C) + 2P(C) + P(C) = 1 5P(C) = 1 P(C) = 1/5 P(A) + P(A) + 1/5 =1 2 P(A) = 1 – 1/5 = 5/5 – 1/5 = 4/5 P(A) = (4/5) / 2 = 4/10 = 2/5 2/5+ P(B) + 1/5 = 1 P(B) = 1 –2/5 – 1/5 = 5/5 -3/5 = 2/5 P(B U C) = P(B) + P(C) = 2/5 + 1/5 = 3/5 En una familia de tres hijos, se registra el género de cada uno de ellos (mayor, medio y menor). Encuentra la probabilidad de:

a) los hijos sean del mismo sexo b) máximo existe un hijo varón c) cuando mucho existen dos mujeres

M = masculino, F = femenino S = {MMM, MMF; MFM, MFF; FMM, FMF; FFM, FFF} S =8 a) mismo sexo b) máximo un varón c) cuando menos 2 mujeres (F) Sin F ó una ó dos F

43

a) = {MMM, FFF} =2 ► P(mismo sexo) = 2/8 = 1/4 = 0.25 b) = {MFF, FMF, FFM, FFF} = 4 P(b) = 4/8 = ½ = 0.5 c) = {MMF; MFM, MFF; FMM, FMF; FFM, MMM}= 7 P(C) = 7/8 = 0.875 En una empresa hay 50 obreros: a 35 les gusta un trabajo, 27 tienen buenas relaciones con su jefe: a 15 les gusta su trabajo y tienen buenas relaciones con su jefe. Si se selecciona un obrero al azar, obtén la probabilidad de que:

a) no le gusta su trabajo b) no le gusta su trabajo y no tenga buenas refacciones con su jefe c) le guste su trabajo y no tenga buenas relaciones con su jefe o tenga buenas

relaciones con su jefe y no le guste su trabajo.

n = 50 GT = 35 BR= 27 (GT∩BR)=15

a) P(GT)

C= 1 - P(GT) = 1 - 35/50 = 50/50 - 35/50 =15/50 ó 12/50 + 3/50 = 15/50

b) P(GT

c ∩ BRc) = P(GT U BR) c = 5/30

c) P(GT - BR) U P(BR - GT) = (35 – 15)/50 + (27 – 15)/50 = 20/50 + 12/50 = 32/50 = 0.64 ó 20/50 + 12/50 = 32/50 = 0.64

12 20 15

Gusta Relación

3

44

DISTRIBUCIONES DE PROBABILIDAD

Es la representación en tabla, gráfico o fórmula. Cualquier regla o mecanismo que sirva para determinar la P(x=x) probabilidad de que la variable aleatoria x tome cada uno de los valores posibles x Ejemplos Tiran dos dados y se suman los puntos tenemos:

Puntos casos Total casos probabilidad

2 (1,1) 1 1/36

3 (1,2) (2,1) 2 2/36

4 (1,3) (2,2,) (3,1) 3 3/36

5 (1,4) (2,3) (3,2) (4,1) 4 4/36

6 (1,5) (2,4) (3,3,) (4,2) (5,1) 5 5/36

7 (1,6) (2,5) (3,4) (4,3) (5,2) (6,1) 6 6/36

8 (2,6) (3,5) (4,4) (5,3) (6,2) 5 5/36

9 (3,6) (4,5) (5,4) (6,3) 4 4/36

10 (4,6) (5,5) (6,4) 3 3/36

11 (5,6) (6,5) 2 2/36

12 (6,6) 1 1/36

36 1

6/36 5/36 4/36 3/36 2/36 1/36

2 3 4 5 6 7 8 9 10 11 12

45

Una distribución de probabilidad es semejante a una distribución de frecuencia, en donde se presenta cada dato o valor de la variable aleatoria discreta con su valor asociado de probabilidad y se puede presentar como una tabla, una grafica o una formula. Asimismo, debe cumplir los axiomas de probabilidad.

P(x) es mayor o igual a 0. La sumatoria P(x)= 1.

La distribución de probabilidad de una variable aleatoria discreta se define de la siguiente forma: Sea x una variable aleatoria. Definida en un espacio muestral. S con el conjunto imagen finito. X(s)= X1, X2,….Xn Se convierte X(s) en un espacio. Se define la probabilidad de X, =X(s) como P(X=Xi), o también. Se escribe P(Xi) esta función se define: P (Xi)= P (x=Xi)= P {si S/x(s) = Xi} =

Ejemplo: Se lanza una moneda al aire dos veces: la variable aleatoria discreta se define X= {No de águilas}. Elabora la tabla y graficas de distribución de probabilidad. Águilas. X P(xi) PA(xi)

2 1/4 1/4

1 2/4 3/4

0 1/4 4/4

46

4/4 3/4 2/4 1/4

1 2 No. De águilas.

No de águilas

4/4 ¾ 2/4 1/4

1 2 3

47

0.6 0.5 0.4 0.3 0.2 0.1

f(x)

1 2 3 4 5 6 X

1.0 0.8 0.6 0.4 0.2

F(x)

Ejemplo El número de arrestos anteriores de 500 adolescentes que durante un año comparecieron ante un tribunal de menores es:

Arresto

anteriores Nº

adolescentes f(x)

P(X=x) Distribución acumulada

F(X) =P(X≤x)

0 300 300/500=0.60 300/500=0.60

1 100 100/500= 0.20 400/500=0.80

2 60 60/500=0.12 460/500=0.92

3 20 20/500=0.04 680/500=0.96

4 10 10/500=0.02 490/500=0.98

5 5 5/500=0.01 495/500=0.99

6 5 5/500=0.01 500/500=1.00 P(x=3) = 0.04; P(x=2) = 0.92; P (x=5) =0.01; P (x≤5) = 0.99

1 2 3 4 5 6 X

48

DISTRIBUCIÓN BINOMIAL Suponiendo que un tratamiento para una alergia particular tiene una probabilidad de que cada paciente se cure es de 0.6 El problema es encontrar la probabilidad de que una serie de 5 pacientes tramitados, sanen exactamente dos de ellos. Suponiendo que los resultados paciente “sano” o “no sano” son independientes y mutuamente exclusivos.

A B C D E

1 S (0.6) S (0.6) N (0.4) N (0.4) N (0.4)

2 S (0.6) N (0.4) S (0.6) N (0.4) N (0.4)

3 S (0.6) N (0.4) N (0.4) S (0.6) N (0.4)

4 S (0.6) N (0.4) N (0.4) N (0.4) S (0.6)

5 N (0.4) S (0.6) S (0.6) N (0.4) N (0.4)

6 N (0.4) N (0.4) S (0.6) S (0.6) N (0.4)

7 N (0.4) N (0.4) N (0.4) S (0.6) S (0.6)

8 N (0.4) S (0.6) N (0.4) N (0.4) S (0.6)

9 N (0.4) N (0.4) S (0.6) N (0.4) S (0.6)

10 N (0.4) S (0.6) N (0.4) S (0.6) N (0.4) El hecho de tener 10 resultados es que 10 = nCr = 5C2 y de acuerdo con el primer resultado tenemos: P (E1) = P(A sano y B sano y C no sano y D no sano E no sano) =P(A sano), (B sano) P(C no sano) P(D no sano) P(E no sano) = (0,6) (0,6) (0,4) (0,4) (0,4) = (0,6)2 (0,4)3 De manera similar tenemos:

Entonces: Dos pacientes sanos = 5C2(0.6)2 (0.4)3 Un paciente sano = 5C1 (0.6)1(0.4)4 = 0.0768 Y se puede realizar la lista de todos los resultados posibles: P (ningún paciente sano) = 1 (0.6)0 (0.4)5= 0.00102 P (un paciente sano) = 5 (0.6)1 (0.4)4= 0.0768 P (dos pacientes sanos) = 10 (0.6)2 (0.4)3= 0.2304 P (tres pacientes sanos) = 10 (0.6)3 (0.4)2= 0.3456 P (cuatro pacientes sanos) = 5 (0.6)4 (0.4)1=0.2592 P (cinco pacientes sanos) = 1 (0.6)5 (0.4)0= 0.0778 La palabra éxito se usa en forma muy general, de hecho el resultado descrito como éxito o fracaso puede tener una gran variedad de atributos, el único requisito es que en un experimento simple solo se puede tener éxito o fracaso y que la

49

atención solo se dirige al número total de éxitos en los n experimentos, estas deben cumplir.

1. El experimento consta de n pruebas estadísticamente independientes y repetidas.

2. Cada prueba tiene dos resultados posibles, uno llamado “éxito” y otro llamado “fracaso”.

3. La probabilidad de éxito en cada prueba es la misma e igual a P y la de fracaso es Q(q = 1-P)

4. Existe una variable aleatoria desierta X asociada al experimento que cuenta el numero de éxitos en las n pruebas de tal manera que los valores de X = {0,1,2,n}

Ejemplos. El 20% de los pacientes dados de alta en un hospital durante los últimos 10 años han sido adolescentes, al encargado de las historias clínicas le solicitan 3 historias de adolescentes, ¿Qué probabilidad hay de obtener 3 historias de adolescentes (éxitos) de 5 intentos que se obtienen al azar. P = 0.2 B (3, 5,0.20) = 3C5 (0.20)3(0.80)2 N= 5 =10(0.0008) (0.64) X= 3 =0.0512 De acuerdo con la asociación de automovilismo la probabilidad X de recuperar un auto robado en México es de 0.6. Si en una semana una compañía de seguros tiene reportados 8 autos robados cierta semana. ¿Cuáles son las probabilidades que se recuperen 0, 1, 2 … 7, 8 de los autos robados? Suponiendo que son eventos independientes. P = 0.6 N= 8 X=0, 1, 2, 3, 4, 5, 6, 7, 8

P(x=0/8, 0,6)= 8C0(0.6)0(0.4)

8 (1)(1) (0.001)= 0.001

P(x=1/8, 0,6)= 8C1(0.6)1(0.4)

7 (8)(0.6)(0.002)= 0.008

P(x=2/8, 0,6)= 8C2(0.6)2(0.4)

6 28(0.36)(0.004)= 0.040

P(x=3/8, 0,6)= 8C3(0.6)3(0.4)

5 56(0.26)(0.010)= 0.124

P(x=4/8, 0,6)= 8C4(0.6)4(0.4)

4 70(0.129)(0.026)= 0.231

P(x=5/8, 0,6)= 8C5(0.6)5(0.4)

3 56(0.077)(0.064)= 0.276

P(x=6/8, 0,6)= 8C6(0.6)6(0.4)

2 28(0.046)(0.16)= 0.206

P(x=7/8, 0,6)= 8C7(0.6)7(0.4)

1 8(0.028)(0.40)= 0.089

P(x=8/8, 0,6)= 8C8(0.6)8(0.4)

0 1(0.017)(1)= 0.017

0.999= 1

50

Después de seguir un tratamiento especial para dejar de fumar, la probabilidad de volver a fumar dentro del primer mes es de 0.4. Determinar la probabilidad de que:

a) a lo más 3 de 7 pacientes vuelvan a fumar antes del 1º mes. X = 0, 1, 2 y 3 P = 0.4 n = 7

P(X=0/7,0.4)= 7C0(0.4)0(0.6)

7= 1(1)(0.028) = 0.028

P(X=1/7,0.4)= 7C1(0.4)1(0.6)

6= 7(0.4)(0.047) =0.131

P(X=2/7,0.4)= 7C2(0.4)2(0.6)

5= 21(0.16)(0.078) =0.262

P(X=3/7,0.4)= 7C3(0.4)3(0.6)

4= 35(0.064)(0.13) =0.291

0.712

b) al menos 5 de 7 pacientes vuelvan a fumar antes de un mes X = 5, 6 y 7

P(X=5/7,0.4)= 7C0(0.4)5(0.6)2= 21(0.010)(0.36) =0.076

P(X=6/7,0.4)= 7C6(0.4)6(0.6)1= 7(0.004)(0.6) =0.017

P(X=7/7,0.4)= 7C7(0.4)7(0.6)0= 1(0.002)(1) =0.002

0.095 En un área determinada el 40% de la población adulta pertenece al PAN, se saca una muestra al azar de 10 adultos que probabilidad hay de que tres de ellos pertenezcan al PAN suponiendo que la población es muy grande. P = 0.40 n = 10 X = 3

0.30 0.25 0.20 0.15 0.110

0.05

1 2 3 4 5 6 7 8 0

51

P(X=3/10,0.4)= 10C3 (0.4)3 (0.6)7= 120(0.064)(0.028)= 0.215

En un laboratorio los lotes recibidos para la fabricación de medicamentos se inspeccionan para localizar los defectuosos por medio de muestras de 12 artículos. Se examinan los doce artículos y se rechaza si se encuentran dos o más artículos defectuosos. ¿Cuál es la probabilidad de rechazar un lote que contiene 5% de artículos defectuosos? n = 12 P = 0.05 X = 2,3,4,5,6,7,8,9,10,11,12

1-P=0.95 Son muchos P(X=2) +P(X=3)+ … P(X=12)=1 ► 1-(P(X=0) +P(X=1)

P(X=0/12,0.05)= 12C0 (0.05)0(0.95)12 = 1(1)(0.540) = 0.540

P(X=1/12,0.05)= 12C1 (0.05)1(0.95)11 = 12(0.05)(0.569) = 0.341 0.881

► 1-0.881=0.119 ¿Cómo cambia la probabilidad si aumenta el porcentaje de artículos defectuosos. a 10%; 20%; 30% o un 40%? 10%

P(X=0/12,0.10)= 12C0(0.10)0(0.90)12= 1(1)(0.282) =0.282

P(X=1/12,0.10)= 12C1(0.10)1(0.90)11= 12(0.1)(0.314) =0.377 0.659

1 - 0.659 = 0.341

20% P(X=0/12,0.20)= 12C0(0.20)0(0.80)12= 1(1)(0.0689) =0.069

P(X=1/12,0.20)= 12C1(0.20)1(0.80)11= 12(0.2)(0.0859) =0.206 0.275

1 - 0.275 = 0.725

30% P(X=0/12,0.30)= 12C0(0.30)0(0.70)12= (1)(1)(0.0138) =0.0138

P(X=1/12,0.70)= 12C1(0.30)1(070)11= 12(0.3)(0.0197) =0.0712 0.085

1 - 0.085 = 0.915

40% P(X=0/12,0.40)= 12C0(0.40)0(0.60)12= 1(1)(0.0022) =0.0022

P(X=1/12,0.10)= 12C1(0.40)1(0.60)11= 12(0.4)(0.0036) =0.0174 0.0196

1 - 0.0196 = 0.9804

52

MEDIA Y DESVIACIÓN ESTÁNDAR DE UNA VARIABLE ALEATORIA DISCRETA

Considerando el número de puntos al tirar dos dados y su distribución de probabilidad.

Puntos 2 3 4 5 6 7 8 9 10 11 12

Probabilidad 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Si el par de dados se tira muchas veces ¿Cuál es el promedio de puntos que se obtienen? Se considera la probabilidad como la proporción de veces que los dados dan los diferentes puntos. 2.1/36 + 3.2/36 + 4.3/36 + 5.4/36 + 6.5/36 + 7.6/36 + 8.5/36 + 9.4/36 +10.3/36+11.2/36 + 12.1/36 =

= 2/36 +6/36+12/36+20/36+30/36+42/36+40/36+36/36+30/36+22/36+12/36=7

Este es el valor esperado que representa el promedio de puntos que a la larga se obtienen tirando dos dados. Si una variable aleatoria toma los valores X1, X2,X3…Xn con probabilidades P(X1,)P(

X2,)…P(XK) su VALOR ESPERADO es

X1 P(X1,)+ X2,P(X2,)+ X3 P(X3,)+ … Xn P(XK)

Se conoce también como Media de la distribución de probabilidad.

Ejemplo De los autos robados donde se desea recuperar algunos de los 8 autos robados. La media de la distribución de probabilidad representa el número esperado de autos que la compañía de seguros desea recuperar teniendo:

µ = 0·P0 + P(1) + 2·P(2) + 3·P(3) + 4·P(4) +5·P(5) +6·P(6) +7·P(7) +8·P(8) = =0·(0.001) + 1·(0.008) + 2·(0.040) + 3·(0.124) + 4·(0.231) + 5·(0.276) + 6·(0.206) + 7·(0.089) + 8·(0.017) =

0+0.008+0.008+0.372+0.924+1.38+1.2361+0.623+0.136 = 4.76 ≈ 4.8

53

En el caso de la distribución binomial el valor esperado es sencillo de calcular puesto que tenemos un total de n ensayos y cada uno tiene una probabilidad P de éxito. Media de la distribución binomial Solo es válida para la distribución binomial Ejemplo. Pacientes que se sometieron a un tratamiento para dejar de fumar y que vuelve a fumar, es una variable binomial con n = 7, P = 0.4 Su o µ = 72.8 = 0.4٭ para grupos de siete pacientes que toman el tratamiento en promedio 2.8 de cada grupo vuelve a fumar. Desviación estándar de una distribución de probabilidad

Es semejante a la expresión original para calcula la desviación estándar de una población con las probabilidades empleando P(X) en lugar de 1/N La varianza de una distribución de probabilidad es el cuadrado de la desviación estándar

autos

(X- )

(X- )²

P(x)

(X- )²·P(x) 0 -4.8 23.04 0.001 0.015 1 -3.8 14.44 0.008 0.114 2 -2.8 7.84 0.041 0.324 3 -1.8 3.24 0.124 0.401 4 0.8 0.64 0.232 0.149 5 0.2 0.04 0.279 0.011 6 1.2 1.44 0.209 0.301 7 2.2 4.84 0.090 0.434 8 3.2 10.24 0.017 0.172

1.921

= 1.921

54

= √1.921 = 1.386 Al igual que para la media, es posible calcular la desviación estándar de una distribución binomial Desviación estándar de una distribución binomial

Ejemplo Del ejemplo anterior n = 8; P = 0.4; (1-P) = 0.6 podemos calcular la desviación estándar por

√1.92 = 1.386 Un estudio muestra que el 60% de los pacientes de una clínica esperan más de una hora antes de ser recibidos. Encuentra la media y la desviación estándar del número de pacientes que esperan más de una hora de un grupo de 12 pacientes. n = 12; P = 0.60; (1-P) = 0.4

Media = = 12*0.60 = 7.2

Desviación. Estándar.

= √2.88 = 1.7

55

DISTRIBUCIÓN NORMAL En el caso de variables aleatorias discretas como el ejemplo de los automóviles que se roban la grafica puede ser:

La probabilidad de que la variable tome cierto valor es igual al área de la barra de la gráfica correspondiente entonces como en una distribución de probabilidades la suma de las áreas es igual a 1. La probabilidad de recuperar entre 3 y 5 automóviles es igual al área de las barras. 3+4+5►0.124+0.232+0.277 = 0.633 En el caso de variables aleatorias continuas el histograma se convierte en líneas continuas porque podemos tener todos los valores. Encontrando distribuciones continúas.

El área bajo la curva es igual a 1. La altura es 1/(d-c) y la probabilidad de que la variable tome valores entre a y b es

0.3 0.25 0.2 0.15 0.1

0.05

0 1 2 3 4 5 6 7 8

0.001

0.008

0.041

0.124

0.231

0.276

0.206

0.089

0.017

c a b d

56

Si por ejemplo d = 1 y c = -1 entonces la altura es

y la probabilidad de que X tome un valor entre 0.3 y 0.7 es: P (0,3≤ x ≤0.7)= (0.7 - 0.3)/2 = 0.4/2 = 0.2 Distribución normal

Si graficamos los valores de las observaciones encontramos que la Mayor probabilidad de encontrar los valores se encuentra donde están las jorobas comparadas con el centro o los extremos de la gráfica porque es donde hay más área.

µ= 1 =0.3 µ= 2 =0.6

µ=1 µ=2 µ=3

= igual = igual

µ=0.70

µ=1

µ=1.5

57

La denominación “NORMAL” no se debe entender en el sentido de la distribución de que la distribución normal sea “USUAL” “TÍPICA” o “MAS COMÚN”. En particular una distribución que no siga esta forma se debe llamar “NO NORMAL” en lugar de “ANORMAL” por eso es que a veces se le denomina distribución Gauss o de La Place. La expresión matemática de la función de densidad de la curva normal es:

µ = media

π = 3.14159

desviación estándar e = 2.71828 Área entre a y b

CARACTERÍSTICAS IMPORTANTES DE LA DISTRIBUCIÓN NORMAL:

1. El área total comprendida bajo la curva y por encima del eje horizontal (x) es igual a 1.

2. La distribución es simétrica al respecto de su media es decir el 50% del área esta a la derecha de la media y el 50% a la izquierda.

3. La media, la mediana y la moda son todas iguales 4. La distancia horizontal que hay desde el punto de inflexión de la curva

(donde deja de ser cóncava hacia bajo y comienza a ser cóncava hacia arriba) hasta una perpendicular levantada sobre la media es igual a la desviación estándar.

5. La distribución norma es una familia de distribuciones puesto que hay una

diferente para cada µ y

6. La curva de una distribución normal se extiende de -∞ a +∞

7. La 1º del área bajo la curva, la 2º = 95% y la 3º = 99.7%.

50% 50%

µ ò X

Moda

Mediana µ=

58

0.8

1

0.95

0.997

Si una variable aleatoria x esta normalmente distribuida podemos calcular la probabilidad de que X asuma los valores entre Xa y Xb integrando la ecuación de la distribución normal desde Xa hasta Xb o cualquier otra probabilidad.

Ejemplo:

Se desea encontrar el área bajo la curva norma estándar entre 0 y 1.45 entonces:

Buscamos en la tabla 1.4 y en la fila 1º es 0; 2º es1; 3º es 2; 4º es 3; 5º es 4; 6º es 5; 7º es 6; 8º es 7; 9º es 8; 10º es 9 y entonces 1.45 se busca en la columna 2 el 1.4 y en la columna 6º que corresponde al 5 se tiene: el área entre 0 y 1.45= 0.4265.

Encontrar el área bajo la curva normal estándar a la izquierda de 0.83 Área total = 1 a la izquierda de cero es 0.5

A la izquierda de 0.83 es 0.2967

Entonces P(≤0.83) = 0.5 + 0.2967 = 0.7967

3 2

Xa Xb

0 0.83

0

0.5

0.29

67

59

Encontrar el área bajo la curva normal estándar a la derecha de 1.07

El área es 0.5 Buscamos 1.07 en la tabla= 0.3577 Del total de este lado de la grafica (0.5) Restamos el 0.3577 P = 0.5 - 0.3577 = 0.1423 El área bajo la cueva normal estándar entre 0.24 y 1.18

Buscamos el área de 0 a 1.18 y le restamos el área de 0 a 0.24 entonces nos queda el área buscada. Tabla 1.18 = 0.3810 y 0.24 = 0.0948 ►0.3810 - 0.0948 = 0.2862 Encontrar el área bajo la curva normal estándar entre -1.34 y 0

Tabla Buscar – 1.34 es igual a buscar 1.34 = 0.4099 P = 0.5 – 0.4099 = 0.0901 El área bajo la curva entre -0.97 y 1.14

Buscar -0.97 = 0.97 ⇉ 0.3340

Buscar 1.14 = 0.3729 Entonces se suman las áreas 0.3340 + 0.3729 = 0.7069 Se debe recordar que se usan las tablas cuando:

µ = 0 y = 1

0 1.7

0

0.35

77

0.24 1.18

0.9 4

8

0. 3 8 1

0

0

0.4 0 9 9

0 0

-1.34

0. 3 3 4

0

0

1.14

0. 3 7 2

9

-0.97

60

Pero si µ≠0 y ≠ 1 ¿tendremos que elaborar todas las combinaciones posibles?

nCx (P)x (1-P)n-x Afortunadamente se puede hacer un cambio de escala que convierte unidades de medida en unidades estándar por medio de:

Ejemplo. Supongamos que los C.I. de los individuos que componen una determinada población tiene aproximadamente una distribución normal con una

media de 100 y una = 10 ¿Cuál es la proporción de individuos con CI mayores que 125? X = 125 µ = 100

Buscar en la tabla 2.5 = 0.4938 como la pregunta dice que es mayor es que 125 entonces el área: P= 0.5 - 0.4938 = 0.0062

Cuál es la probabilidad de que un individuo elegido al azar entre los de esa población tenga un C.I. entre 105 y 115. X=1.5 y X=115

tabla= 0.195

tabla= 0.4332

►P= 0.4332 - 0.195 = 0.2382

Cuál es la probabilidad de que un individuo elegido al azar entre los de esa

población tenga un C.I. entre 80 y 95. Encontrar P(80 ≤ X ≤ 95) si µ = 100 y = 10

2.5

0 1.5 0.5

61

tabla = 0.4772

tabla = 0.1915

Entonces:

P = 0.4772 - 0.1915 = 0.2857

La distribución normal es útil cuando se pueda aproximar una distribución binomial a normal, cuando el número de ensayos n es muy grande y la probabilidad P es cercana a 0.5 puesto que la media de la distribución binomial es np y la desviación estándar es √nP (1-P). Esta aproximación es buena si np y n(1-P) son ambos mayores que cinco y que n sea suficientemente grande para valores pequeños de n. Ejemplo La probabilidad de obtener 2 soles al tirar 10 veces una moneda es: Tomamos n = 10 P = 0.5 entonces np = 5; n(1-P) = 5 Si calculamos para X = 2 se debe considerar para una distribución normal.

X1=1.5 y X2=2.5 y µ=np=5 y √nP (1-P).= 1.5811

Tabla = 0.4864

Tabla = 0.4429

►P = 0.4864 - 0.4429= 0.0435 Ejemplo. La proporción de complicaciones quirúrgicas en un proceso reconstructivo cardiovascular es 20% esto incluye todas las complicaciones desde infecciones ligeras hasta la muerte, en una serie de 50 operaciones ¿Cuál es la probabilidad de que a lo más 5 pacientes presentan complicaciones quirúrgicas? Supongamos que la ocurrencia o no ocurrencia de estas complicaciones en diferentes pacientes es un evento independiente. n = 50; P = 0.2; (1-P) = 0.8 Binomial = ∑B(X, 50,0.2)= 50

1∑50Cx(0.2) x (0.8)50-x y X = 0,1,2,3,4,5

0 -2 -0.5

-2.21 -1.58

62

Pero resulta muy complicado y como nP = 10 y n(1-P) = 40 se puede usar aproximación normal considerando X = 5.5

µ = np = 10; = √ nP (1-P)=√8= 2.8284

Tabla = 0.4441 ► P = 0.5- 0.4441= 0.0559

Se tira una moneda 20 veces, la probabilidad de obtener 12 águilas es: n = 20, X = 12; P = 0.5; (1-P) = 0.5 P(x) = 20C12(0.5)12(0.5)8 = 125970(0.000244)(0.003906)

= 0.1201

Si aproximamos µ = np = 20*0.5 = 10, σ = 20*0.5*0.5 = 2.236

Tabla 0.2486

Tabla 0.3686

► P= 0.3686 – 0.2486= 0.1200

El tiempo que toma un grupo de obreros que ha recibido entrenamiento especial

tiene una distribución normal con µ = 14.5 y = 2.5 min. ¿Cuál es la probabilidad de que a uno de estos obreros le tome entre 11 y 16 minutos?

tabla 0.4192

tabla 0.2257

P= 0.4192+ 0.2257 = 0.6449

¿Cuál es la probabilidad de que al obrero le tome más de 18 min?

0

-1.59

.67 1.12 0

0 0

0.6 -1.4

1.4

63

tabla 0.4192

P = 0.5 – 0.4192= 0.0808 Un grupo de 100 enfermos de SIDA se somete a un nuevo tratamiento donde cada uno sobrevive más de 5 años al tratamiento con probabilidad de 0.4. ¿Cuál es la probabilidad de que al menos 50 de los 100 pacientes sobrevivan más de cinco años al tratamiento? P(50) + P(51) +P(52) + …P(100) np = 100 * 0.4 = 40 µ=np=40

n(1-P)=100*0.6=60 =√n . p . (1-P)=√100*0.4*0.6 = √24 = 4.8989

Al menos 50 ►De 49.5 en adelante

Tabla 0.4738

P= 0.5 – 0.4738= 0.0262

El número de reclamaciones semanales en una tienda departamental es una variable aleatoria que es aproximadamente normal con media µ = 24 y desviación

estándar = 6. Encontrar la probabilidad de que durante una semana se reciban. a) entre 15 y 30 quejas.

De 14.5 a 30.5

Tabla 0.4429

Tabla 0.3599

P=0.4429+0.3599=0.8028

b) Más de 35 quejas (De 34.5 en adelante)

Tabla 0.4595

P= 0.5 – 0.4595 = 0.0405

c) menos de 27 quejas (Hasta 27.5 quejas)

1.94

1.8 -1.5

1.75

1.41

64

Tabla 0.2202

P= 0.5 + 0.2202 = 0.7202

DISTRIBUCIONES MUÉSTRALES Y EL TEOREMA DEL LIMITE CENTRAL

Supongamos que deseamos para un estudio nutricional obtener los promedios de los pesos y estaturas de los niños de 7 años de edad de una región en un estado de la república. Si ahí viven 50,000 niños de 7 años, resulta muy costosa y lenta la visita a todos los niños para pesarlos y medirlos. ¿Qué tan confiables son los datos si tomamos una muestra de 400 niños? ¿Los resultados dependen de la muestra elegida? Supongamos que N = 5 y que las muestra son de tamaño n = 2 entonces

Niño 1 2 3 4 5 altura 1.20 118 1.32 1.23 1.28

La media de la altura es

La desviación estándar es:

= 0.05154 Existe un total de 5C2 combinación = 10 muestras posibles. Pero para cada muestra tenemos su propia por ejemplo: Para {1 y 2} = (1.20 + 1.18)/2 = 1.19

Para {3 y 5} = (1.32 + 1.28)/2 = 1.30 Sabemos que la muestra que tomamos depende del azar, la media asociada a cada muestra es una variable aleatoria teniendo así mismo cada muestra su desviación estándar. Entonces en el caso de muestras

= Media de la distribución muestral

Es la media de las medias de cada muestra y

65

la desviación estándar.

Desviación estándar de la distribución muestral

O sea la desviación estándar de las medias de las muestras. Del ejemplo anterior tenemos:

n = 10 = 12.42 / 10 =1.242

La desviación estándar es:

= √0.000996 = 0.03156 Se observa que µ coincide con pero la desviación estándar de la media es menor que la de la población original. Si tomamos muestras de tamaño N de una población de tamaño n con media µ y

desviación estándar , entonces la distribución muestral x tienen media

= µ pero la desviación estándar queda como.

Y se denomina ERROR ESTÁNDAR Permite estimar la variabilidad de las medias muéstrales (error estándar de la

media ) en relación a la variabilidad de la población. Del ejemplo anterior vimos que su desviación estándar es 0.05154 entonces:

muestra 2

1.2 1.19 10.002704 1.3 1.26 0.000324 1.4 1.215 0.000729 1.5 1.24 0.000004 2-3 1.25 0.000064 2.4 1.205 0.001369 2.5 1.23 0.000144 3.4 1.275 0.001089 3.5 1.30 0.003364 4.5 1.255 0.000169

12.42 0.00996

66

Cuando N>20*n, el factor de la formula es muy cercano a 1 y puede ser

omitido. Si N>20n entonces el error estándar queda:

Ejemplo.

Una población de N = 900 con ¿Cómo cambia el error estándar de la muestra si el tamaño de la muestra n disminuye de 100 a 50? N=900 n1=100 n2=50

La razón entro los dos errores es:

0.1375 0.09431.46

TEOREMA DEL LÍMITE CENTRAL

Si n es grande (n≥30) la distribución muestral de las media puede aproximarse por medio de una distribución normal. Supongamos que una población de niños de siete años que deseamos estudiar es de N = 50,000 y que por estudios de la OMS sabemos que la desviación estándar

de las alturas es de = 10 cm. Tomamos una muestra al azar de n = 400 niños, si la media es de = 122 cm. ¿Qué tan razonable es tomar la media de 122 cm., como la media de la población? µ = ? n*20↔400*20 = 8,000

= 122 N ↔50,000>8,000

67

10

µ Esta entre µ-1 y µ+1 entonces está entre µ-1 y µ+1

Si µ-1 < < µ+1 Restamos µ tenemos -1 < - µ < +1

Dividimos entre x= 0.5 tenemos

Si entonces z < +1

Buscamos z entre 0 y 2 tabla = 0.4772 entonces el área entre -2 y +2 = 0.4772 * 2 = 0.9544.

Como = 122 es un valor aleatorio, la probabilidad de que la media se encuentre a menos de 1 cm. de 122 es de 0.9544. En otra palabras con el 95.44% de certeza podemos considerar que 122 cm es el valor promedio de las estaturas de los niños de 7 años Ejemplo Una región agrícola consta de 200,00 hectáreas donde se siembra trigo, para estimar la producción media por hectárea se realiza una muestra de 900 ya que

tuvieron en promedio una productividad de = 3,4 toneladas. La secretaria de agricultura estima que la desviación estándar de la productividad

del trigo en la región es de = 0.8 toneladas. ¿Cuál es la probabilidad de que nuestra estimación de la producción media en la región tenga un error de a lo más 0.05 toneladas?

N>20n ► 200,000 > 20* 900 ↔200,00>18,000

= 3.4 toneladas A lo más 0.05 toneladas de la media µ µ - 0.05 < < µ + 0.05

µ-1 µ µ+1

3.4 +0.05 -0.05

68

Restamos -0.05 < - < 0.05

Dividimos entre

Si entonces -1.879 < z < 1.879

Tabla 0.4699 La probabilidad de que la productividad media de la región se encuentre entre 3.35 y 3.45 es de 0.9398.

INTERVALOS DE CONFIANZA PARA MEDIAS . Una de las aplicaciones más frecuentes en estadística inferencial es estimación de medias. Ejemplo. 30 lecturas del nivel de ozono en periodo invernal en la ciudad de México son:

178 190 228 211 187 165 172 244 229 208 193 203 215 226 231 209 220 258 278 235 246 227 211 195 202 212 219 216 204 193

La media es Σn/N = 213.5. Si es la única información que poseemos se denomina estimación puntual ya que es un único número o punto de recta real pero no nos brinda información sobre el tamaño del error. La desviación estándar de la población y el tamaño de la muestra determinan la variabilidad de la distribución muestral de las media, ya que entre menor sea el error estándar de la media mejor será la estimación puntual. Por eso se debe estimar la media por medio de un intervalo. El teorema del límite central permite asociar a un intervalo alrededor del valor medio, en este caso = 213.5, una probabilidad o grado de certidumbre de que la media estimada se encuentre realmente entre esos límites. Una estimación por intervalo consiste de un intervalo y una probabilidad de que la media se encuentre en ese intervalo. Cuando no se tiene mayor información acerca de la desviación estándar de la

población tomamos la desviación estándar de la muestra S en lugar de .

69

Del ejemplo anterior.

S= 24.87 Dado que n≥30 se considera el error estándar de la media a:

El intervalo con centro en 213.5 y suponiendo una probabilidad de 0.8 se busca el valor de Ƶ a la inversa de la tabla y como se consideran ambos lados de la curva: se considera 0.8/2 = 0.4 y se busca en la tabla de forma inversa, del cuerpo de la tabla hacia el valor de z encontrando que z = 1.28.

Multiplicando * 4.54 4.54*(-1.28) < 213- µ < 4.54*(1.28) -5.81 < 213.5 - µ < 5.81 Restando 213.5 -5.81 – 213.5 < -µ < 5.81 – 213.5 -219.31 < -µ < - 207.69 Multiplicamos por -1 (invertir el intervalo) 207.19 < µ < 219.31 Entonces la media µ se encuentra entre 207.7 y 219.3 con una probabilidad de 0.8

207.7<-µ<- 219.31 con P=0.8

Intervalo de confianza Limites de confianza

Grado de confianza (probabilidad) Si la población es grande en relación al tamaño de la muestra (N>20n) y el tamaño de la muestra es mayor o igual que 30 el intervalo de confianza para µ de grado de confianza α es:

70

Donde el área bajo la curva normal estándar entre 0 y Ƶ0 es /2 esto es, con un

grado de confianza el error al estimar la media por es menor a

Cuando la desviación estándar de la población es desconocida y n es grande

(n≥30) sustituimos por la desviación estándar de las muestras. Los grados de confianza más usados son 0.90, 0.95 y 0.99 y sus correspondientes Ƶ0 son 1.645, 1.96 y 2.575. En el ejemplo de la contaminación en la ciudad de México los intervalos de confianza tenemos:

Con probabilidad 0.95, Z0= 1.96 entonces

213.5 – 8.9 ≤ µ ≤ 213 + 8.9 204.6 ≤ µ ≤ 222.4 Con probabilidad 0.95 la media se encuentra entre 204.6 y 222.4 Con un grado de confianza de 95% el error al estimar la media como 213.5 es de 8.9. Si deseamos aumentar el grado de certeza al 99% entonces el intervalo será:

213.5 - 11.7 ≤ µ ≤ 213.5 + 11.7 201.8 ≤ µ ≤ 225.2 Entre mayor de la certidumbre, (grado de confianza) mayor es el intervalo. Ejemplo

Del ejemplo de las 200,000 hectáreas n=900, = 3.4 con = 0.8 encontrar el intervalo de confianza del 90%, 95% y 99%. 90% ↔Ƶ0= 90/2= 0.45 tabla inversa= 1.645 95% ↔Ƶ0= 95/2= 0.475 tabla inversa= 1.96 99% ↔Ƶ0= 99/2= 0.495 tabla inversa= 2.575

71

Para el 90% Ƶ = 1.645

3.4 – 1.645 (0.0266) ≤ µ ≤ 3.4 + 1.645 (0.0266) 3.4 – 0.044 ≤ µ ≤ 3.4 + 0.044 3.356 ≤ µ ≤ 3.444 Error 0.044 Para el 95% Ƶ = 1.96

3.4 – 1.96 (0.0266) ≤ µ ≤ 3.4 + 1.96 (0.0266) 3.4 – 0.052 ≤ µ ≤ 3.4 + 0.052 3.348 ≤ µ ≤ 3.452 Error 0.052 Para el 99% Ƶ = 2.575

3.4 – 2.575 (0.0266) ≤ µ ≤ 3.4 + 2.575 (0.0266) 3.4 – 0.069 ≤ µ ≤ 3.4 + 0.069 3.331 ≤ µ ≤ 3.469 Error 0.069 La expresión

Error máximo al estimar la media por X con grado de confianza Se puede emplear para determinar el tamaño de la muestra cuando se desea cierto grado de precisión. Ejemplo. Un fabricante de baumanómetros desea determinar la vida promedio de ellos con un viaje de grado de certeza de 99% y con un error menor a 1000 se sabe que la desviación estándar es de 3000. ¿Qué tan grande debe ser la muestra?

Si E = es el error máximo.

72

n = (7.725)2= 59.67 60 Si el tamaño de la muestra es pequeño es decir los cálculos son semejantes, pero se debe regularizar la distribución normal por otra llamada.

Distribución t (t de student) Que tiene forma de campana pero depende de los grados de libertad que simplemente se calculan como n-1 o sea el tamaño de la muestra menos 1. Si el tamaño de la muestra es pequeño n<30 el intervalo de confianza para µ de

grado de confianza 1- es:

En la tabla de valores de t correspondientes a los valores tα/2 = t0.05, t0.25, t0.01 y t0.05 para los intervalos de confianza del 90%,95%,98% y 99%.

1-90%= .10 10/2= 0.05; 1- 95%= .95 0.05/2 = 0.025 Ejemplo Una empresa realizo un estudio del nivel de nicotina para una muestra de 20 cigarrillos producidos por otra empresa. La tabla siguiente muestra la cantidad de nicotina contenida en cada una de los cigarrillos de muestra. La media

=

=(22.5+26.7+…25.2)/20 = 24.9 Su desviación estándar

Intervalo de confianza de 95%

1 – 0.95 = 0.05 0.05/2 = 0.025 Como n –1 = 19

22.5 26.7 28.1 24.5 23.9 23.6 23.4 24.6 24.3 26.0 22.7 23.6 24.1 25.2 25.8 27.3 24.7 27.0 24.8 25.2

73

Renglón –19 El valor “t” es 2.093 entonces

24.9 – 2.093 (0.345) ≤ µ ≤ 24.9+ 2.093(0.345) 24.9–0.72 ≤ µ ≤ 24.9 + 0.72 24.18 ≤ µ ≤ 25.62 Con probabilidad 0.95 el nivel de la nicotina de la marca competidora está entre 24.18 y 25.62. O bien que al estudiar el nivel medio de nicotina como 24.9mg. Sabemos que con un grado de confianza del 95% el error es menor a 0.72mg. Si deseamos cambiar el intervalo para un 99% de intervalo de confianza tenemos:

= 0-01

Buscar 1 – 0.99= 0.01 0.01/2 = 0.005 con 19 grados de libertas tenemos t = 2.861

24.9 – 2.861 (0.345) ≤ µ ≤ 24.9 + 2.86 (0.345) 24.9 – 0.98 ≤ µ ≤ 24.9 + 0.98 23.92 ≤ µ ≤ 25.88 Con probabilidad0.99 el nivel medio de nicotina de la marca competidora está entre 23.92 y 25.88. Al estimar el nivel medio de nicotina como 24.9 con un grado de confianza del 99% el error es de 0.98 o sea menor de 1mg.

DISTRIBUCIÓN “CHI CUADRADA” “ ” La distribución de la varianza muestral

Es importante si el muestreo se hace en una población distribuida normalmente la distribución de una modificación de S2. Es la varianza de una muestra aleatoria de tamaño n de una población distribuida

normalmente con media µ y varianza 2 entonces:

74

tiene una distribución.

Chi cuadrado

Es la suma de las desviaciones elevadas al cuadrado de los valores muéstrales respecto de su media. Entonces podemos analizar nuestra distribución en función de:

y podemos obtener empíricamente una aproximación de esta distribución sacando de una población distribuida normalmente un gran número de muestras de tamaño n calculando para cada muestra la suma de las desviaciones elevadas al cuadrado de los valores muestrales respecto de su media y dividiendo cada una de estas

sumas por la población que se nos ira convirtiendo en: (n–1)s2/2

sigue una distribución CHI CUADRADO Igual que la distribución t de student, la distribución Chi cuadrada es una familia de distribuciones que dependen de cada valor posible llamado GRADOS DE LIBERTAD.

£ - student

75

La distribución CHI cuadrado que sigue la formula

tiene n-1 Grados de libertad. Las curvas tienden a alargarse hacia la derecha y no son simétricas. El área total limitada por la curva de una distribución Chi cuadrada y los ejes es

igual a uno pero la variable solo toma valores no negativos. La media es igual a sus grados de libertad y la varianza es igual a dos veces sus grados de libertad. Existen tablas para facilitar su empleo, recordando que las áreas son

probabilidades asociadas a intervalos limitados por valores determinados de . Ejemplo.

La distribución Chi cuadrada con 10 grados de libertad que valor de tiene a su izquierda 0.95 del área bajo la curva.

Buscar 10 grados de libertad y la columna 0.95 igual a 18.307 Como el área es igual a el 5% o sea el 0.05 del área esta a la derecha del 18.307.

Si se saca al azar un valor de de la distribución con 10 grados de libertad, la probabilidad que sea mayor o igual es a 18.307 es 0.05 Ejemplo. La varianza de los pesos jóvenes de 12 años es de 39 Kg. y que están normalmente distribuidos ¿cuál es la probabilidad de que una muestra aleatoria de 25 niños de 12 años arroje una varianza igual o mayor que 57?

Tabla con 24 grados de libertad, el valor está entre 33.196 y 36.415 en las

columnas 0.90 y

0.95 respectivamente.

CHI CUADRADO

df= 4 df= 6

df= 8

df=

10

76

Entonces la probabilidad de observar un valor de igual o mayor que 35.077 está entre 0.05 y 0.10 la probabilidad de observar un valor de S2 igual a mayor que 52 está entre 0.05 y 0.10.

PRUEBA X2 CHI CUADRADA. Se usa para comprobar si los resultados de una muestra (o experimento) confirman la distribución hipotética H0= la distribución hipotética es adecuada H1= la distribución hipotética no es adecuada Su formula es:

Oi= es la frecuencia observada en la muestra experimental. Єi= es la frecuencia esperada de acuerdo con la distribución hipotética y se obtiene multiplicando el total de las frecuencias observadas por la probabilidad teórica de la ocurrencia del evento. Ejemplo En un experimento de cruzas de dos tipos de maíz se obtuvieron 773 plantas verdes, 231 doradas, 238 verdes rayadas y 59 dorado-verde-rayada. Se desea saber si estos resultados reafirman o contradicen la teoría mendeliana según los

cuatro grupos deben de estar en las proporciones 9:3:3:1 con = 5% (significancia). P1= 9/16 P2= 3/16 P3= 3/16 P4= 1/16

= 231+ 0.68 + 0.14 + 6.12 = 9.25

Si tenemos = 0.05 y grado de libertad n–1

GL = 4–1 = 3 tabla = 7.81

observadas Esperadas 773 1301(9/16)= 731.9 231 1301(3/16)= 243.9 238 1301(3/16)= 243.9 59 1301(1/16)= 81.3

1301 ← = → 130.10

77

H0

GL= 3

X2 CALCULADA= 9.25

5%

Hi

Acepta H0 7.28 Rechaza H0

X2= 1.94

Acepta 3.84 Rechaza

Se rechaza la

probabilidad 9:3:3:1

En un experimento de genética se obtuvieron 312 plantas de jitomate rojo y 88 de jitomate amarillo. Debido a la dominancia del rojo sobre el amarillo y la generación con la que se trabajo, se esperaba una relación 3:1 ¿Concuerdan los resultados experimentales con los teóricos a un nivel de significancia del 5%?

H0 proporción 3:1 adecuada P= 0.75 Hi proporción 3:1 no adecuada P≠0.75 P= probabilidad de 1 jitomate rojo

GL= 2-1= 1 =0.05 tabla 0.05= 3.84

X2= calculada< X2tabla

Acepta la proporción 3:1

En una prueba sensorial para estudiar la características organolépticas del cóctel de frutas, 20 personas pudieron distinguir entre las muestras tipo “A” y la muestra “B” a estas 20 personas se les pregunto en cuál de las dos muestras notaban mayor espesor en el almíbar de los cuales 8 contestaron que en la muestra “A” y 12 que en la muestra “B”.

observado Esperado 312 400(3/4)= 300 88 400(1/4)= 100

400 400

78

¿Es el espesor del almíbar un factor determinante para distinguir las muestras? *si el espesor del almíbar no es factor determinante significaría que la mitad de las personas seleccionan la muestra “A”. H0: P= ½ y Hi= P≠ ½

= 0.4 + 0.4 = 0.80

Tabla = 0.05 v =2-1 = 1gl

tabla= 3.84

Como calculada < tabla se acepta H0 que dice que el espesor del almíbar no es determinante. Los siguientes datos corresponden a mujeres clasificadas según el tipo de síntomas somáticos del sueño en la menopausia y la pregunta es ¿existe alguna diferencia en los síntomas somáticos entre las mujeres que padecen trastornos del sueño por la menopausia? H0: P1= P2=P3=P4=P5=0.20 Hi: P1≠ P2≠P3≠P4≠P5

Síntomas somáticos del sueño

observados Esperados

Vasomotores 18 100*0.20= 20 Músculo esquelético 22 100*0.20= 20 Gastrointestinales 21 100*0.20= 20

observados esperado 8 20(1/2)= 10 12 20(1/2)= 10

20 20

X2= 0.80

Acepta 3.84 Rechaza

79

1.1

Acepta 9.488 Rechaza

SNC 17 100*0.20= 20 fatiga 22 100*0.20= 20

100 100*0.20= 100

= 4/20 + 4/20 + 1/20 + 9/20 + 4/20 = 22/20 = 1.1

Tabla = = 5% = 0.05 GL= 5 – 1 = 4 = 9.488 Como X2< X2tabla acepta H0

apuntes metodologia invest ii final

Documents