técnicas graficas de exploración de datos
DESCRIPTION
Estadística en el laboratorio. Técnicas graficas de exploración de datos. Técnicas graficas de exploración. Histogramas Gráfico de barras que representa una distribución de frecuencia. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/1.jpg)
TÉCNICAS GRAFICAS DE EXPLORACIÓN DE DATOS
Estadística en el laboratorio
![Page 2: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/2.jpg)
Técnicas graficas de exploración
• Histogramas– Gráfico de barras que representa una distribución
de frecuencia.– La altura de cada una de las barras representa la
frecuencia de la observación identificada en el eje horizontal (x).
![Page 3: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/3.jpg)
Técnicas graficas de exploración
• HistogramasHistogram (DATA BN 6v*1043c)
Produccion (cajas/ha) = 938*5*normal(x; 30,1078; 7,0483)
5 10 15 20 25 30 35 40 45 50 55 60 65 70
Produccion (cajas/ha)
0
20
40
60
80
100
120
140
160
180
200
220
240
260
280
No
of
ob
s
Produccion (cajas/ha): N = 938, Mean = 30,1078305, StdDv = 7,04828092, Max = 61,3333333, Min = 14,0166667
![Page 4: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/4.jpg)
Técnicas graficas de exploración
• Gráfico de probabilidades– Es un histograma que muestra el número de veces
que un resultado dado estuvo dentro de un rango específico, centrado alrededor de un valor medio.
![Page 5: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/5.jpg)
Técnicas graficas de exploración
• Gráfico de probabilidadesHistogram (DATA BN 6v*1043c)
Produccion (cajas/ha) = 938*5*normal(x; 30,1078; 7,0483)
5 10 15 20 25 30 35 40 45 50 55 60 65 70
Produccion (cajas/ha)
0
20
40
60
80
100
120
140
160
180
200
220
240
260
280
No
of
ob
s
Produccion (cajas/ha): N = 938, Mean = 30,1078305, StdDv = 7,04828092, Max = 61,3333333, Min = 14,0166667
![Page 6: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/6.jpg)
Técnicas graficas de exploración
• Correlaciones– Nos ayuda a determinar si dos variables aleatorias
son interdependientes.– Resulta de interés el conocer si existen alguna
relación entre nuestra variables.– La herramienta estadística para este tipo de
análisis son las correlaciones.– El método más común se basa en el coeficiente de
Pearson.
![Page 7: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/7.jpg)
Técnicas graficas de exploración
• Correlaciones
![Page 8: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/8.jpg)
Técnicas graficas de exploración
• Correlaciones
![Page 9: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/9.jpg)
HAGAMOS UN EJERCICIOApliquemos la estadística
![Page 10: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/10.jpg)
Ejercicio 1: Evaluemos un método
• Pensemos en la comparación de un nuevo método de análisis con uno tradicional
• La pregunta es: ¿Cuál es el mejor?• Mejor: menor error, menor límite de
detección, menor tiempo de análisis, etc.• ¿Cómo lo haría?• ¿Por donde partimos?
![Page 11: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/11.jpg)
Ejercicio 1: Evaluemos un método• Resulta claro que es necesario un diseño experimental.
• Sin embargo, en base a su diseño:
– ¿Ha logrado comparar el desempeño de ambos métodos para el análisis de la muestra?
– O– ¿Ha logrado comparar el desempeño del analista para el uso de ambos
métodos? (Dado que es claro que el analista poseía más experiencia en su método que en el tradicional)
• De aquí la importancia de realizar los experimentos con un adecuado diseño.
![Page 12: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/12.jpg)
Química y ciencia
• La ciencia práctica no debe iniciar con la colección de datos, sino con una hipótesis acerca de un problema o técnica.
• La data a ser colectada deber ser relevante para responder al problema o probar la hipótesis.
• Una mala selección de los parámetros a evaluar resultará en un costo innecesario.
• Un experimento correctamente realizado, nos permite identificar parámetros redundantes que serán omitidos en futuros análisis.
![Page 13: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/13.jpg)
Calidad de resultados• La calidad de cualquier resultado es dependiente de la muestra
utilizada.
• No existe técnica estadística que “recupere” un dato mal levantado.
• El resultado de cualquier análisis estadístico es solo tan bueno como la calidad de los datos utilizados.
• De aquí la importancia de contar con una muestra representativa y un adecuado diseño.
• En casos donde el diseño experimental no es aplicable (ej. monitoreo ambiental), la muestra debe ser representativa del sistema.
![Page 14: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/14.jpg)
Calidad de resultados
• Entonces, la pregunta inicial sería:– ¿Cuál es el propósito del experimento, y qué propongo
como resultado?
• Pregunta que deberá ser transformada en una hipótesis.
• Finalmente la hipótesis deberá ser evaluada en base a técnicas estadísticas apropiadas e identificadas a priori.
![Page 15: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/15.jpg)
Calidad de resultados
• Sin embargo, siempre es posible “torturar” sus datos, a fin de “escuchar” lo que desean.
• Sin embargo, resultados obtenidos en base a una “tortura” estadística suelen ser difíciles de defender ante expertos (eg. transformaciones).
• Mucho mejor cuando un correcto diseño y adecuados métodos son utilizados para dejar “hablar” por sí solos a sus datos.
![Page 16: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/16.jpg)
FUENTES DE ERROREvaluación estadística de datos
![Page 17: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/17.jpg)
Fuentes de error
• Una vez realizado el análisis químico, el resultado final será un valor, que predominantemente cuantifica los niveles de un parámetro de interés.
• Sin embargo, ése valor está sujeto a variables que pueden incidir en su magnitud (i.e. fuentes de error).
• Por tal motivo, consientes de la variabilidad en la naturaleza, es necesario contar con una medida de ese error o incertidumbre en la medida.
![Page 18: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/18.jpg)
Fuentes de error
• Es importante también no sólo conformarse con el resultado arrojado por la estadística, sino también confrontar ese resultado con la población de la cual fue obtenido.
– Ej. Se calcula el promedio de la estatura de los estudiantes del presente curso, y se determina una media de 296 cm.
– ¿Lo aceptamos?
– Es necesario confrontar ese valor con lo que nosotros observamos en base a un criterio experto en la población.
![Page 19: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/19.jpg)
Principales tipos de error
• Los científicos generalmente consideran tres tipos de error:– Errores groseros o accidentales– Errores sistemáticos– Errores aleatorios.
![Page 20: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/20.jpg)
Principales tipos de error
• Errores groseros– Causados por un daño en el equipo tales como
fallas de voltaje, daño en la lámpara, contaminación severa de la muestra, soluciones contaminadas, etc.
– Un error de este tipo en el experimento DEBE anular completamente los resultados
– Sin embargo, ¿cómo los detectamos si no contamos con una réplica?
![Page 21: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/21.jpg)
Principales tipos de error
• Errores sistemáticos:– Debidos a imperfecciones en el procedimiento, que
conllevan un bias en la data (ej. datos superiores o inferiores)
– Surgen por pobre calibración de instrumentos o uso incorrecto de la vidriería para medición de volúmenes.
– Este tipo de errores pueden ser constantes o proporcionales.
– Generalmente de fácil detección por medios gráficos (ej. recta de calibración).
– Difíciles de detectar cuando existen errores sistemáticos positivos y negativos !
![Page 22: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/22.jpg)
Principales tipos de error
• Principales tipos de errores sistemáticos:– De muestreo, en cuyo caso la muestra no es
representativa de la población– Error del método, debido a sus limitaciones– Errores de medida, debido a la tolerancia de los
instrumentos utilizados (ej. 25mL +/- 0.03mL)– Errores personales, debido a los sesgos
introducidos por el analista
![Page 23: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/23.jpg)
Principales tipos de error
• Principales tipos de errores sistemáticos:– Error sistemático constante, cuyo valor es igual
en todas las muestras.– Error sistemático proporcional, cuyo valor
depende de la cantidad de muestra analizada
![Page 24: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/24.jpg)
Principales tipos de error
• Errores aleatorios (o ruido):– Generan resultados dispersos alrededor del valor
promedio.– Mientras mayor la aleatoriedad mayor la
dispersión.– Generalmente no tenemos control sobre ellos.– Pudiendo afectar la precisión (Reproductibilidad)
de los resultados experimentales.– Nuestro objetivo: reducirlos.– La precisión es determinada a partir de réplicas.
![Page 25: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/25.jpg)
Algunos términos comunes
• Generalmente referidos en laboratorio:– Exactitud– Precisión– Dentro de rachas (Within-run)– Entre rachas (Between-run)– Repetitividad– Reproducibilidad
![Page 26: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/26.jpg)
Algunos términos comunes
• Exactitud:– Decimos que un resultado es exacto cuando las
mediciones realizadas son cercanas al valor real (patrón).
– La ISO define exactitud como el grado de concordancia entre el resultado de un ensayo y el valor de referencia aceptado del analito.
– Esto implica que los errores sistemáticos son mínimos.
![Page 27: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/27.jpg)
Algunos términos comunes
• Precisión:– Decimos que un análisis es preciso cuando las
mediciones realizadas poseen una pequeña dispersión de sus valores.
– Por lo tanto, es una medida de la reproducibilidad.
– Es decir que los errores aleatorios son mínimos.
![Page 28: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/28.jpg)
Algunos términos comunes
• Within-run:– Conjunto de mediciones realizadas en secuencia
en el mismo laboratorio utilizando el mismo equipo.
![Page 29: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/29.jpg)
Algunos términos comunes
• Between-run:– Conjunto de mediciones realizadas en diferentes
ocasiones, posiblemente en diferentes laboratorios y bajo diferentes circunstancias
![Page 30: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/30.jpg)
Algunos términos comunes
• Repetitividad:– Una medida de la precisión de dentro de rachas
(within-run).
• Reproducibilidad:– Una medida de la precisión de entre rachas
(between-run).
![Page 31: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/31.jpg)
PRECISIÓN Y EXACTITUDEvaluación estadística de datos
![Page 32: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/32.jpg)
Precisión y exactitud
• Para la química analítica, es vital realizar mediciones analíticas que provean resultados precisos y exactos.
• Incluso, la calidad de la información puede ser evaluada mediante su precisión y exactitud.
• La exactitud puede ser definida como la habilidad del resultado medido de ser igual al valor verdadero en la data [E= - x̄� ].
![Page 33: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/33.jpg)
Midiendo la exactitud y la precisión
• Exactitud:– Evaluada en base al valor promedio.
• Precisión:– Evaluada en base a la desviación estándar.
![Page 34: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/34.jpg)
Midiendo la exactitud y la precisión
• Cuatro principales escenarios de precisión y exactitud para los resultados:
![Page 35: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/35.jpg)
Midiendo la exactitud y la precisión
• En química analítica, se suele dar prioridad a la precisión más que a la exactitud.
• Los resultados obtenidos con precisión podrían ser corregidos mediante comparación con estándares.
• En cambio, resultados con baja precisión no pueden ser corregidos posteriormente.
![Page 36: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/36.jpg)
Midiendo la exactitud y la precisión• ¿Cómo evaluar la precisión de mis resultados?
• La desviación estándar provee una medición útil de la dispersión de mis resultados alrededor de un valor central (¿y la forma de la distribución?).
• Sin embargo, a fin de evaluar la precisión de los resultados se puede recurrir a las distribuciones de frecuencia.
• Mientras más amplia sea la distribución, menor será la precisión de los resultados.
• Se suele asumir que datos correctamente colectados presentarán una distribución normal, lo cual nos permite el posterior uso de modelos estadísticos basados en esta distribución (normal).
![Page 37: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/37.jpg)
Midiendo la exactitud y la precisión
![Page 38: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/38.jpg)
Midiendo la exactitud y la precisión
• A fin de graficar un histograma que refleje la distribución de mis resultados, necesitaré una gran cantidad de datos (i.e. 500 observaciones).
• Sin embargo, puedo hacer uso del teorema del límite central:
– Un conjunto de datos (resultados) presentarán la misma distribución que la de la población a la que pertenecen.
– Conforme el tamaño de la muestra se incrementa, los datos se aproximarán más a un distribución normal.
![Page 39: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/39.jpg)
DISTRIBUCIÓN DE PROBABILIDADES
Evaluación estadística de datos
![Page 40: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/40.jpg)
Distribución normal
• Obtenida al graficar una distribución de probabilidad en base a una gran cantidad (infinita) de observaciones.
• Su forma y simetría alrededor de la media es función de la desviación estándar.
• Independientemente de su media y desviación estándar, es siempre cierto que aproximadamente:– 68% de las observaciones recaen entre +/- 1 DS a partir de la
media.– 95% de las observaciones entre +/- 2 DS.– 99.7% entre +/- 3 DS.
![Page 41: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/41.jpg)
![Page 42: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/42.jpg)
Distribución normal
• Responde a la fórmula:
![Page 43: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/43.jpg)
La Distribución normal estándar• Por conveniencia, la distribución normal puede ser transformada
a una distribución normal estándar en términos de z, donde:
• Y considerando:– Media ()= 0– Desviación estándar ()= 1
– Donde:
![Page 44: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/44.jpg)
La Distribución normal estándar
• De esta manera, conociendo y , y asumiendo que dicha variable posee una distribución normal, es posible calcular (z)
• Así, se puede determinar el área bajo la curva de la distribución.
![Page 45: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/45.jpg)
La Distribución normal estándar
![Page 46: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/46.jpg)
La Distribución normal estándar
• Ejemplo: – Si las medidas repetidas de una valoración se
distribuyen de forma normal con media de 10.15 mL y desviación estándar de 0.02 mL, encuentre:
• La proporción de medidas que serán inferior a 10.20 mL.
• La proporción de medidas que serán inferiores a 10.12
• La proporción de medidas que estarán entre 10.12 mL y 10.20 mL.
![Page 47: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/47.jpg)
EL PROBLEMA DE LAS MUESTRAS PEQUEÑAS
Evaluación estadística de datos
![Page 48: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/48.jpg)
La distribución t
• La Distribución t– Nunca podremos muestrear a todos los
representantes de la población.
– Necesidad de estimar la y la de la población N en base a una muestra de tamaño n.
– De aquí:• x̄�• s
![Page 49: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/49.jpg)
La distribución t
• Sin embargo, toda estimación conlleva una incertidumbre.
• La incertidumbre en la estimación de y dependerá del tamaño de la muestra.
• Es por esto que la distribución t [o (t)] nos sirve para “ajustar” esa incertidumbre en función de n.
• Cuando n es pequeña (ej. 3 o 5) la incertidumbre es mayor que cuando n es grande (ej. 30 a 50).
![Page 50: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/50.jpg)
La distribución t
• Ahora, el valor de puede ser estimado a partir de x̄� mediante:
• Donde:– sx̄� es la desviación estándar de la muestra
– t/2 es el valor de t para el nivel de confianza deseado (ej. 95%) y con cierto número de grados de libertad (n - 1).
• Obteniéndose un rango de posibles valores de .
![Page 51: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/51.jpg)
La distribución t
• ¿Qué son los grados de libertad?– Número de combinaciones independientes que son
utilizadas para calcular s.– Por ejemplo:
• Una muestra de 5 observaciones permitirían un total de 4 combinaciones posibles independientes (xi - x̄� ):
• Serían cuatro las observaciones posibles de ser seleccionadas aleatoriamente para estimar , mientras x̄�que la quinta sería tomada “obligatoriamente”.
– Con una muestra de n=30 la distribución t se acerca mucho a la distribución normal.
![Page 52: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/52.jpg)
La Distribución t
![Page 53: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/53.jpg)
INTERVALOS DE CONFIANZAEvaluación estadística de datos
![Page 54: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/54.jpg)
Intervalo de confianza
• El intervalo de confianza es el rango dentro del cual podemos asumir que el resultado obtenido es verdadero.
• Los valores ubicados en los extremos de este rango son conocidos como los limites de confianza
![Page 55: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/55.jpg)
Intervalo de confianza• Muestras grandes:
– En el caso de muestras grandes, asumimos una distribución íntegramente normal.
– El rango estará dado por:
– donde
![Page 56: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/56.jpg)
Intervalo de confianza
• Muestras grandes:– Ejemplo:
• Calcule los límites de confianza de la media al 95% y al 99% para las mediciones indicadas en la siguiente tabla:
• Considere s = 0.0165 g mL-1
![Page 57: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/57.jpg)
Intervalo de confianza
![Page 58: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/58.jpg)
Intervalo de confianza
• Muestras pequeñas:– En el caso de muestras pequeñas:
– Donde t corresponde a la t critica con (n-1) grados de libertad y a un determinado nivel de confianza.
![Page 59: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/59.jpg)
Intervalo de confianza
• Muestras pequeñas:– El contenido del ion sodio de una muestra de
orina fue determinado mediante un electrodo selectivo al ión. Se obtuvieron los valores de: 102, 97, 99, 98, 101, 107 mM.
– ¿Cuáles serían los límites de confianza al 95% y 99% para la concentración del ión sodio?
![Page 60: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/60.jpg)
Intervalo de confianza
• Muestras pequeñas:
![Page 61: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/61.jpg)
Intervalo de confianza
![Page 62: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/62.jpg)
Intervalo de confianza• A partir de una determinada desviación
estándar (s), podemos construir un intervalo de confianza alrededor de la media.
• En el caso de una variable con distribución aleatoria:
– 68% de las observaciones recaen entre +/- 1 DS a partir de la media.
– 95% de las observaciones entre +/- 2 DS.– 99.7% entre +/- 3 DS.
![Page 63: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/63.jpg)
Intervalo de confianza
• Para el caso de la distribución normal, si definiéramos un intervalo de confianza del 95% tendríamos que:– El 95% de las observaciones se encuentran entre:
• ¿De dónde surgió el “1.96”?
![Page 64: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/64.jpg)
Intervalo de confianza
• El 1,96 proviene de la distribución t.
• Recordemos que su forma depende de los grados de libertad (n-1):
![Page 65: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/65.jpg)
Intervalo de confianza
• El valor t depende de:– Grados de libertad (n-1)– Grados de confianza (ej. 95%)
• 1.96 corresponde a infinitos grados de libertad y 95% de confianza.
• Con esta premisa:– ¿que ocurrirá si incrementamos el tamaño de la muestra?– ¿Que ocurrirá si alteramos nuestro “nivel” de confianza deseado?– ¿Nuestro “intervalo de confianza” será siempre el mismo?
![Page 66: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/66.jpg)
Intervalo de confianza
• Ejercicio:– Imagine que cuenta con un lote de 1000 botellas de agua.– Se procede a tomar una muestra de 100 botellas.– En base a esa muestra, usted determina el valor promedio y
la desviación estándar de un parámetro en particular (ej. conductividad).
– Si vuelve a tomar una muestra de 100 botellas:• ¿esperaría que el parámetro medido presente la misma media y
DS?• ¿Cree que siempre será el mismo?• ¿Es posible que en un momento dado obtenga un valor
completamente diferente?
![Page 67: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/67.jpg)
Intervalo de confianza
• De aquí la necesidad de establecer los intervalos de confianza
![Page 68: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/68.jpg)
Intervalo de confianza
![Page 69: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/69.jpg)
Intervalo de confianza
![Page 70: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/70.jpg)
Intervalo de confianza
![Page 71: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/71.jpg)
Intervalo de confianza
• A fin de conocer el intervalo de confianza:
• Consideremos una observación a partir de una población de:– x=105– s= 3.2– n=6
• ¿Cuál sería el intervalo de confianza?
![Page 72: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/72.jpg)
![Page 73: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/73.jpg)
Intervalo de confianza
• Entonces
![Page 74: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/74.jpg)
Interpretación
• Errónea:– Existe un 95% de probabilidad que la media real
de la población se encuentre dentro de este intervalo
• Correcta– El 95% de las veces que se calcule el intervalo de
confianza de esta manera, éste contendrá el valor verdadero de la media de la población.
![Page 75: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/75.jpg)
Interpretación
• Si repitiéramos un experimento 100 veces, y creáramos 100 intervalos de confianza:– aproximadamente 95 de éstos intervalos
contendrían el valor real de la media– 5 no lo contendrían.
![Page 76: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/76.jpg)
Otras medidas de dispersión
• El rango, que es la diferencia numérica entre los valores mayor y menor de un conjunto de datos.
• La desviación estándar relativa (DER):– sr= s/x̄�
• La DER porcentual– sr x 100 (%)
![Page 77: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/77.jpg)
CONTRASTES DE SIGNIFICACIÓNPruebas de hipótesis
![Page 78: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/78.jpg)
Contrates de significación
• Analicemos un experimento clásico:– Pensemos en un análisis realizado a dos muestras
de agua diferentes (A y B).– Cada análisis es realizado por triplicado.– Al comparar las medias de ambas mediciones,
resulta que el valor medio de A es superior al valor observado en B.
– ¿Podemos decir que la muestra A presenta una mayor concentración del analito que B?
![Page 79: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/79.jpg)
Contrates de significación
• Analicemos un experimento clásico:– ¿Por qué no puedo decir que A presenta una mayor
concentración del analito que B?– La respuesta:
• La diferencia podría deberse simplemente a errores en el análisis.
• Fuentes de errores aleatorios y sistemáticos.• Errores aleatorios (variabilidad natural)
– Es por esto que necesitamos definir si una diferencia entre observaciones es diferente de manera significativa en términos estadísticos.
![Page 80: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/80.jpg)
Contrates de significación
• Importancia– Si no llevamos a cabo una prueba estadística,
únicamente podremos decir “no existe diferencia entre las muestras”.
– No hay manera de cuantificar la “fortaleza” de esa diferencia.
– En cambio, en base a un análisis estadístico, diríamos “no existe una diferencia significativa entre las muestras”.
– Las técnicas descriptivas revisadas solo nos permiten llegar a conclusiones empíricas, mas no cuantitativas.
![Page 81: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/81.jpg)
Contrates de significación
• Recordar:– Un resultado estadístico dependerá del cuidado
que se tenga en:• La selección del método estadístico• El procesamiento de los datos• El diseño experimental adecuado• Reducción de errores en el análisis• Los niveles de significación
![Page 82: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/82.jpg)
Contrates de significación
• Niveles de significación– 0.05, significativo
• 1/20
– 0.01, muy significativo• 1/100
– 0.001, altamente significativo• 1/1000
![Page 83: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/83.jpg)
ALGUNOS CASOS COMUNESContrastes de significación
![Page 84: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/84.jpg)
Evaluar la exactitud de un método
• Estrategia:– Análisis de una muestra de referencia cuyo valor
medio es conocido ().– Hipótesis nula (H0):
• No existe diferencia significativa entre el valor medido ( ) y el valor real del analito (x̄� ).
– Análisis utilizado• El análisis t del estudiante
![Page 85: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/85.jpg)
Evaluar la exactitud de un método
• T-test– Calculado en base a:
– Si t calculado es superior al valor t crítico, no existe evidencia suficiente para aceptar H0, siendo por tanto rechazada.
– Por tal motivo, si existe una diferencia significativa entre y x̄� .
s
nXt
![Page 86: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/86.jpg)
Evaluar la exactitud de un método
• T-test: Ejemplo– En un nuevo método para determinar selenourea en agua
se obtuvieron los siguientes valores:
– 50.4, 50.7, 49.1, 49.0, 51.1 ng/mL
– Conociendo que la muestra contenía 50 ng/mL de selenourea, ¿Existe alguna evidencia de error sistemático?
– Deberemos definir nuestro nivel de significación (p<0.05, 0.01, 0.001).
![Page 87: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/87.jpg)
Evaluar la exactitud de un método
• T-test: Ejemplo– Determinamos la media (50.06 ng/mL), y la desviación estándar
(0.956 ng/mL).– Procedemos a determinar el valor de t.
– Comparamos el valor t con el valor t crítico (tn-1).– Dado que el valor t es menor que el t critico, la hipótesis nula se
retiene.– No existe diferencia entre y x̄� , por tanto tampoco existe evidencia
suficiente para constatar la presencia de un error sistemático.
s
nXt
![Page 88: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/88.jpg)
Comparación de dos medias experimentales• Estadístico t es calculado mediante:
• Donde s es calculado a partir de:
• Y t posee (n1+ n2-2) grados de libertad• Considerando que ambas poblaciones poseen una s similar.
21
21
11nn
s
XXt
)2(
)1()1(
21
222
2112
nn
snsnS
![Page 89: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/89.jpg)
Comparación de dos medias experimentales• Ejemplo 1:
– Se realiza una comparación de dos métodos para determinar el contenido de Cromo (mg/kg) en muestras de hierba de centeno.
– Al realizar cinco determinaciones para cada método, se obtuvo que:
• Método 1: = 1.48; s= 0.28x̄�• Método 2: = 2.33; s= 0.31x̄�
– Asumiendo que ambos métodos poseen una similar, ¿estos dos métodos proveen medias que difieren significativamente?
![Page 90: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/90.jpg)
Comparación de dos medias experimentales• Ejemplo 2:
– A fin de determinar el contenido de estaño en productos alimenticios, las muestras fueron llevadas a ebullición con HCl a reflujo para diferentes tiempos. Los resultados fueron:
• 30 min: 55, 57, 59, 56, 56, 59• 75 min: 57, 55, 58, 59, 59, 59
– Asumiendo que es similar para ambas poblaciones, ¿Es significativamente diferente el contenido de Sn obtenido mediante ambos tiempos de ebullición?
![Page 91: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/91.jpg)
Comparación de dos medias experimentales• Casos especiales
– ¿Qué ocurre cuando no es posible asumir que las s de ambas poblaciones son similares?– El estadístico t es obtenido mediante:
– Con grados de libertad
– Redondeado a un número entero
![Page 92: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/92.jpg)
Comparación de dos medias experimentales• Ejemplo:
– Los datos de la siguiente tabla proporcionan la concentración de tiol (mM) en el lisado sanguíneo de dos grupos de voluntarios, siendo el primer grupo “normal” y el segundo sufriendo de artritis reumatoide.
– Normal: 1.84; 1.92; 1.94; 1.92; 1.85; 1.91; 2.07– Reumatoide: 2.81; 4.06; 3.62; 3.27; 3.27; 3.76
– ¿Existe evidencia suficiente que indique una diferencia significativa en los niveles de tiol entre los dos grupos?
![Page 93: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/93.jpg)
T-test pareado
• Objetivo:– Necesidad de comparar dos métodos de análisis
en base a varias muestras que contienen diferente cantidad del analito.
![Page 94: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/94.jpg)
T-test pareado
• Estrategia:– Diferencias pueden deberse a:
• Diferencias por errores aleatorios• Diferencias en las concentraciones del analito en cada
muestra• Diferencias en la técnica de análisis.
– Las diferencias que realmente nos interesa son las obtenidas para cada par de mediciones
– Se define así la variable d.
![Page 95: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/95.jpg)
T-test pareado
• Estrategia:– Adicional a la variable d, es necesario definir la s
de los valores de d (sd). – Con esta información se calcula el estadístico t:
– Importante indicar que los valores medidos podrían ser también valores promedios.
![Page 96: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/96.jpg)
T-test pareado
• Algunas asunciones:– Los valores de d se encuentran normalmente
distribuidos– La precisión y el bias en ambos métodos se
mantienen constantes a diferentes concentraciones del analito
– n mediciones deben ser realizadas por el método 1 para cada muestra, y m mediciones por el método 2.
– m y n no necesariamente deben ser iguales.
![Page 97: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/97.jpg)
T-test pareado
• Ejercicio:– Determinar si existe una diferencia significativa
entre los dos métodos de análisis empleados para la determinación de paracetamol (%m/m) en tabletas.
![Page 98: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/98.jpg)
Contrastes de una y dos colas
• Motivos:– Hasta ahora, los contrastes de significación han sido
realizados haciendo uso de las dos colas de la distribución.
– Es decir, damos la oportunidad de que la diferencia entre las poblaciones sea positiva o negativa.
– Sin embargo, en ocasiones es posible con antelación conocer que lo que contrastaremos es un aumento.
– En esos casos, es recomendable hacer uso de un contraste unilateral.
![Page 99: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/99.jpg)
Contrastes de una y dos colas
• Estrategia:– Hacer uso del valor de t indicado en la tabla para
el doble del nivel de significación deseado:• Contraste de una cola al nivel P=0.01, se emplea la
columna P=0.02• Contraste de una cola al nivel P=0.05, se emplea la
columna P=0.10
![Page 100: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/100.jpg)
Contrastes de una y dos colas
• Ejemplo:– Se sospecha que un método de valoración ácido-base tiene
un error de indicador significativo, y por tanto, tiende a dar resultados sistemáticos positivos (sesgo positivo). Para comprobar esto se utiliza una disolución exactamente 0.1M de ácido para valorar 25.00 mL de otra disolución exactamente 0.1M de una base, con los siguientes resultados (mL):
– 25.06; 25.18; 24.87; 25.51; 25.34; 25.41
– Contrastar la existencia de sesgo positivo en estos resultados.
![Page 101: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/101.jpg)
La prueba F• Objetivo:
– Comparación de la varianza (precisión)
• Estrategia:– Determinación de una relación entre las varianzas de las dos poblaciones– Donde el valor de F 1– Necesidad de ordenar el numerador y denominador adecuadamente.– Se asume que las varianzas de ambas poblaciones son relativamente similares– Comparación del estadístico F con el valor crítico (tablas).
• Posibilidades– Evaluar si existe una diferencia entre la varianza de ambas poblaciones (dos colas).– Evaluar si existe una diferencia positiva o negativa entre las poblaciones (una cola).
22
21
S
SF
![Page 102: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/102.jpg)
La prueba F
• Ejemplo:– Se desea evaluar si dos métodos de síntesis para
un mismo producto poseen una misma precisión:
![Page 103: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/103.jpg)
La prueba F
• Ejemplo:– Se comparó un método propuesto para la
determinación de DQO en aguas residuales con otro método patrón. Los siguientes resultados fueron obtenidos para una misma muestra de aguas residuales:
• Método patrón: x= 72; s= 3.31; n=5• Método propuesto: x= 72; s= 1.51; n=6
– ¿Existe evidencia de que el método propuesto es más preciso que el patrón?
![Page 104: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/104.jpg)
ANOVAPruebas de Hipótesis
![Page 105: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/105.jpg)
ANOVA
• Cuando necesitamos probar diferencias significativas entre dos poblaciones (o métodos) hemos recurrido al test t.
• Sin embargo, cuando se desea probar diferencias significativas entre mas de dos poblaciones se recurre al Análisis de Varianza (ANOVA).
• Importante indicar que el ANOVA únicamente nos indicará si existe o no una diferencia entre las poblaciones evaluadas.
• El ANOVA no me indica las relaciones entre poblaciones.
![Page 106: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/106.jpg)
ANOVA
• Asunciones:– Las poblaciones evaluadas poseen una distribución
normal.– Las varianzas (2) es la misma para todas las
poblaciones.– La única diferencia entre poblaciones radica en sus
valores medios.– ANOVA considera dos potenciales fuentes de variación
de las medias:• Variación entre poblaciones• Variación dentro de cada una de las poblaciones
![Page 107: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/107.jpg)
ANOVA• Ejemplo:
– Un químico desea evaluar cuatro métodos diferentes de extracción a fin de determinar un compuesto orgánico en el agua de mar. Para este fin, el químico prepara una solución en agua de mar del compuesto orgánico a ser evaluado, y lo analiza por triplicado con cada uno de los métodos propuestos. Los resultados obtenidos se muestran a continuación:
Método de extracción
Valor medido(unidades)
Valor promedio (unidades)
A 300, 294, 304 299
B 299, 291, 300 296
C 280, 281, 289 283
D 305, 310, 300 305
296
![Page 108: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/108.jpg)
ANOVA
• Solución:– Es claro que existen potenciales diferencias entre
los métodos (entre poblaciones), así como en las lecturas obtenidas dentro de cada método (dentro de cada población).
![Page 109: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/109.jpg)
ANOVA
• Variación dentro de tratamientos – Cálculo de la varianza (2) para cada uno de los
tratamientos.– Obtención de una varianza promedio.
![Page 110: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/110.jpg)
ANOVA
• Variación dentro de cada tratamiento
![Page 111: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/111.jpg)
ANOVA
• Variación dentro de cada tratamiento
Método de extracción
Valor medido(unidades)
Valor promedio (unidades)
2
A 300, 294, 304 299 25.5
B 299, 291, 300 296 25.0
C 280, 281, 289 283 24.5
D 305, 310, 300 305 25.0
Media global 296 25.0
![Page 112: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/112.jpg)
ANOVA
• Variación entre tratamientos
– Considerando que:• Varianza promedio dentro de los tratamientos= 25 con
8 grados de libertad (g.l.)• Varianza entre los tratamientos= 86 con 3 g.l.
![Page 113: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/113.jpg)
ANOVA• Hipótesis nula:
– No existe diferencia significativa entre los tratamientos• Análisis estadístico utilizado:
– F test
– Comparación del F calculado contra el F crítico.– H0 se acepta si Fcalc es menor que Fcrit
– En este caso Fcrit = 4.006 (p=0.05)– Por tanto: No existe diferencia significativa entre las medias de los
tratamientos
entosen tratami promedio Varianza
tos tratamienentre VarianzacalcF
![Page 114: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/114.jpg)
ANOVA
• ¿Y donde esta la diferencia?– Método de la Mínima Diferencia Significativa (m.d.s.)
– Donde n es el número de replicas, s es la estimada dentro de los tratamientos, y (n-1) son los grados de libertad de esta estimación.
– Si la magnitud de la m.d.s. es inferior a la diferencia entre las medias de los tratamientos ordenados, entonces no hay evidencia de una diferencia significativa.
)1(
2... nhtnssdm
![Page 115: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/115.jpg)
ANOVA• Volviendo a nuestro ejemplo:
• Donde la m.d.s. es inferior a la diferencia de varianza existente entre cualquiera de los tratamientos.
• A= 25.5 B= 25.0 C= 24.5 D=25.0
)1(
2... nhtnssdm
63.936.23
225... sdm
![Page 116: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/116.jpg)
ANOVA
• Ejercicio:– Se evalúa la estabilidad de un reactivo a diferentes
condiciones de almacenamiento, obteniéndose los siguientes resultados:
Condiciones Valores medidos MediaA
recién preparado102, 100, 101 101
B una hora en la oscuridad
101, 101, 104 102
Cuna hora luz tenue
97, 95, 99 97
Dna hora luz brillante
90, 92, 94 92
Media global 98
![Page 117: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/117.jpg)
DATOS ANÓMALOSPruebas de Hipótesis
![Page 118: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/118.jpg)
Datos anómalos
• Frecuentemente nos encontramos con datos extremos, que podrían proceder de:– Un error en la medición– Un error en la calibración– Un dato inusual
• ¿Cómo identificarlos?– Técnicas gráficas de exploración (ej. diagrama de cajas)– Otras técnicas estadísticas
• Contrate de Dixon (o contrates Q)• Contrate de Grubbs
![Page 119: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/119.jpg)
Datos anómalos
• Contraste de Dixon (Q)– Basado en el cálculo de Q:
• Qcalc contrastado con Qcrit.
• Asunciones:– Válido para tamaños de muestra de 3 a 7– La población presenta una distribución normal
*pequeño másvalor -grande másvalor
cercano másvalor -sospechosovalor Q
*Rango considerando el valor sospechoso
![Page 120: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/120.jpg)
Datos anómalos
• Contraste de Dixon (Q)– Ejemplo 1:
• Se obtuvieron los siguientes valores para la concentración de nitrito (mg/L) en una muestra de agua de río:
• 0.403 0.410 0.401 0.308
• ¿Deberíamos rechazar la última medición?
![Page 121: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/121.jpg)
Datos anómalos
• Contraste de Dixon (Q)– Ejemplo 2:
• Al análisis anterior se adicionan tres nuevas mediciones:
• 0.403 0.410 0.401 0.380 0.400 0.413 0.411
• ¿Se debería mantener la observación de 0.380?
![Page 122: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/122.jpg)
Datos anómalos• Contraste de Grubbs
– Basado en el cálculo de G1, G2 y G3:
– donde:• S es la desviación estándar de todos los datos
(incluyendo los datos extremos)• xi es la observación sospechosa
• S2n-2 es la varianza calculada al excluir los valores
extremos
– Si G1, G2 y G3 calculados son mayores que los G críticos, entonces existe evidencia significativa de que son valores anómalos (provenientes de otra población)
s
xxG
i1
s
xxG in 2
2
22
3 1
31
sn
snG n
![Page 123: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/123.jpg)
Datos anómalos
• Contraste de Grubbs
n
![Page 124: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/124.jpg)
Datos anómalos
• Contraste de Grubbs
![Page 125: Técnicas graficas de exploración de datos](https://reader035.vdocuments.mx/reader035/viewer/2022062501/56815b48550346895dc926d3/html5/thumbnails/125.jpg)
Datos anómalos
• Ejemplo:– Los resultados obtenidos para la determinación de
Cd (ng/g) en cabello humano mediante TXRF se muestran a continuación: