estadística parte 1venus.ifca.unican.es/~carreraf/estadistica/transparenci... · 2017. 10. 3. ·...
TRANSCRIPT
Estadística Parte 1
Francisco J. Carrera Troyano
Instituto de Física de Cantabria Consejo Superior de Investigaciones Científicas
y Universidad de Cantabria
Octubre 2017
Estadística
• “There are lies, damned lies, and statistics”Benjamin Disraeli
• “If you need statistics, you ought to have done a better experiment”Ernest Rutherford
• Diálogo entre P. Scheuer y un estudiante:– How are the data?– We did a Kolmogorov-Smirnov test...– Ah! That bad.
Estadística
• La estadística es una herramienta habitual en muchas disciplinas científicas
• Puede ayudar a:– Cuantificar nuestras impresiones subjetivas sobre los datos
experimentales– Extraer información de los datos, cuantificando la incertidumbre con
un grado determinado de confianza– Especialmente importante cuando las circunstancias no permiten “hacer un experimento mejor”
– ...• Pero no puede sustituir al sentido común y al sentido crítico
• Nunca se puede probar que una teoría es cierta, sólo que es falsa, con un determinado grado de confianza
Índice1. Incertidumbres y errores
– Incertidumbres en las medidas• Errores en la medida: sistemáticos y estadísticos. Incertidumbres.
Distribuciones original y de la muestra. Momentos de una distribución. Medidas del valor central. Medidas de la dispersión. Puntos aislados.
– Análisis de errores• Propagación de errores. Barras de error asimétricas.
2. Contrastes de hipótesis paramétricos y no paramétricos– Comparación de dos distribuciones
• Comparación de las medias. Comparación de las varianzas. Test c2. Test de Kolmogorov-Smirnov. Comparación de distribuciones bidimensionales
• Análisis de varianza: ANOVA• Correlación lineal. Test no-paramétricos. Correlaciones parciales.
Variables con límites superiores e inferiores– Significancia de una detección
• Cociente señal-ruido.3. Modelado estadístico de datos
– Métodos de máxima verosimilitud• Modelos frente a datos. Verosimilitud. c2: Introducción, Estimación de
parámetros. Bondad del ajuste. Incertidumbre en los parámetros. Regresión lineal.
• Verosimilitud en régimen Poissoniano
Bibliografía• "Data reduction and error analysis for the physical sciences"
Bevington & Robinson, 1992, McGraw-Hill• "Numerical Recipes" Press et al., 1994, CUP• “Estadística básica para estudiantes de Ciencias” J. Gorgas,
N. Cardiel, J. Zamorano, 2009, http://pendientedemigracion.ucm.es/info/Astrof/users/jaz/estadistica.html
• "Probability and statistics in engineering and managementscience" Hines & Montgomery, 1990, J. Wiley & Sons (tb. version en castellano)
• "Practical Statistics for Astronomers" Wall & Jenkins, 2003, CUP
• “Modern statistical methods for Astronomy” Feigelson & Babu, 2012, CUP
• “Astronomy Methods” H. Bradt, 2004, CUP
Incertidumbres en las medidas (Bevington & Robinson’92)
• Errores de medida: – Error: diferencia entre el valor observado (o calculado) y el valor
verdadero• Problema: no sabemos el valor verdadero: necesitamos acotarlo a partir de
los datos obtenidos
• Dos conceptos importantes:– Exactitud: cercanía entre el resultado de un experimento y el valor
verdadero– Precisión: “bondad” en la determinación del resultado, reproducibilidad.
Sin referencia al valor verdadero• Generalmente: incertidumbre ~ precisión
Incertidumbres en las medidas (Bevington & Robinson’92)
• Errores de medida: – Error: diferencia entre el valor observado (o calculado) y el valor
verdadero• Problema: no sabemos el valor verdadero: necesitamos acotarlo a partir de
los datos obtenidos
• Dos conceptos importantes:– Exactitud: cercanía entre el resultado de un experimento y el valor
verdadero– Precisión: “bondad” en la determinación del resultado, reproducibilidad.
Sin referencia al valor verdadero• Generalmente: incertidumbre ~ precisión
PrecisoInexacto
ImprecisoExacto
Errores sistemáticos
• Inexactitud reproducible introducida por fallos del equipo, de su calibración, o de la técnica utilizada– Afectan a la exactitud– Difíciles de detectar y de estudiar de manera estadística
• Se evitan/detectan:– Diseñando el experimento con cuidado– Cuidando las condiciones en las que se realiza el
experimento– Midiendo las mismas cantidades con métodos distintos
Errores estadísticos
• Indefinición del resultado introducida por la precisión finita de la medida. Medida de la fluctuación al repetir el experimento– Afectan a la precisión– Debidos a fluctuaciones en las observaciones que producen
resultados distintos en experimentos distintos– Requieren observaciones repetidas para mejorar su
precisión• Dos tipos:
– Instrumentales: imperfecciones en el equipo, o en la lectura. • Se evitan con mejoras en la precisión y fiabilidad de los instrumentos
– Fluctuaciones estadísticas: inevitables, debidas a la propia naturaleza física de la medida
• Se pueden reducir con más medidas, pero no indefinidamente
Incertidumbres
• Magnitud del error que se estima que se ha cometido en la determinación de los resultados– Nivel de confianza de que otra medida caerá dentro de un intervalo con
determinada probabilidad (Ej. 1s, 68.3%, 99%...)• Dos tipos:
– Fluctuaciones en las medidas– Descripción teórica (ej. medida tamaño mesa ovalada)
• Nos interesa estimar los errores inherentes en el experimento, lo que haremos a partir de las incertidumbres en las medidas
• También nos interesa averiguar si el modelo que estamos aplicando es el que mejor caracteriza el sistema (Secciones 2 y 3 del curso)
Distribuciones original y de la muestra
• Si medimos una cantidad x obtenemos {xi}• Si hiciéramos infinitas medidas de la distribución de los {xi},
seguiría la distribución teórica de los valores esperados de {xi} (gaussiana, poissoniana...)
• En casos reales:– Distribución original≡esperada– Distribución de la muestra≡{xi}
• Cuantas más medidas se efectúen más se parecerán, pero no serán idénticas:
(parámetro original) = limN→∞(parámetro experimental)
Distribuciones original y de la muestra
• Si medimos una cantidad x obtenemos {xi}• Si hiciéramos infinitas medidas de la distribución de los {xi},
seguiría la distribución teórica de los valores esperados de {xi} (gaussiana, poissoniana...)
• En casos reales:– Distribución original≡esperada– Distribución de la muestra≡{xi}
• Cuantas más medidas se efectúen más se parecerán, pero no serán idénticas:
(parámetro original) = limN→∞(parámetro experimental)
Muestra
Modelo muestra
Original
• Idealmente queremos conocer la distribución completa• No siempre es posible/deseable, así que intentamos
“resumirla” en unos pocos parámetros:- Momentos de una distribución
• Cualitativamente:1. Valor central2. Dispersión3. Asimetría (sesgo, “skewness”)4. Curtosis
• Normalmente se usan sólo los dos primeros:- Razones históricas (Poissoniana -1-, gaussiana -1,2-...)- Más robustas- Suelen ser las más útiles
Caracterizando una muestra
mk (a) = dx P(x)(x − a)k−∞
∞
∫
• Idealmente queremos conocer la distribución completa• No siempre es posible/deseable, así que intentamos
“resumirla” en unos pocos parámetros:– Momentos de una distribución
• Cualitativamente:1. Valor central2. Dispersión3. Asimetría (sesgo, “skewness”)4. Curtosis
• Normalmente se usan sólo las dos primeras:- Razones históricas (Poissoniana -1-, gaussiana -1,2-...)- Más robustas - Suelen ser las más útiles
Caracterizando una muestra
Medidas del valor central
• Tienen sentido si la distribución de valores tiende a agruparse en torno a un valor particular
• Media, centroide o valor promedio: de la muestra
original– Si P(x) simétrica en torno a x0: µ=x0
– El error estándar en la media: s/√N , N nº puntos
– En general:ò¥
¥-
= )()( xfxdxPf
÷ø
öçè
æ= å
=¥®
N
iiNx
N 1
1limµ
å=
=N
iixN
x1
1
ò¥
¥-
= xxdxPx )(
Medidas del valor central
• Mediana µ1/2
• Tantos valores por encima como por debajo– Si N impar: µ1/2~xint(N/2)+1
– Si N par: µ1/2~(xN/2+xN/2+1)/2• Menos sensible a puntos aislados muy fuera de la distribución• Si P(x) simétrica respecto µÞ media=mediana• La media falla como estimador si las colas son largas, mientras
que la mediana falla sólo si el área bajo las colas es grande
2/1)()( 2/12/1 =<=³ µµ xPxP
Medidas del valor central
• Moda: Valor más probable µmax: P(µmax)≥P(x≠µmax)– El más probable de ser observado– Pico de la distribución
• Puede haber más de uno: en este caso µ, µ1/2 no muy útiles• Si sólo hay uno y la distribución es simétrica: µ=µmax=µ1/2
– Distribución asimétrica: generalmente µmax<µ1/2<µ ó µmax>µ1/2>µ
• ¿Cuál usar?– Depende de lo que se quiera y de la forma de la distribución– Importante hacer histograma
Medidas del valor central
• Moda: Valor más probable µmax: P(µmax)≥P(x≠µmax)– El más probable de ser observado– Pico de la distribución
• Puede haber más de uno: en este caso µ, µ1/2 no muy útiles• Si sólo hay uno y la distribución es simétrica: µ=µmax=µ1/2
– Distribución asimétrica: generalmente µmax<µ1/2<µ ó µmax>µ1/2>µ
• ¿Cuál usar?– Depende de lo que se quiera y de la forma de la distribución– Importante hacer histograma
Medidas de la dispersión
• Desviaciones:
• Desviación promedio: ADev ó a promedio valores absolutos de las desviaciones
– Valor absoluto complica tratamiento analítico– A veces se usa mediana en lugar de media, esto minimiza
ADev– No muy usada, pero útil en el caso de distribuciones con
muchos puntos aislados “fuera” de la distribución
0lim =-=¥®dxxd
Nii
å -= xxN i1ADev úû
ùêëé -= 奮
xxN iN
1lima
Medidas de la dispersión
• Varianza:
– Desviación estándar:
– Varianza de la muestra:
• Se usa N-1 en lugar de N porque para calcular s se utiliza la media, que se obtiene con la propia distribución
– Hay distribuciones de probabilidad para las que s no existe:• Si P(x) cae como 1/x2 o más despacio esta expresión →∞
– Por ejemplo la lorentziana
– a es un parámetro más robusto
( ) ( ) 22222 1lim1lim µµs -÷øö
çèæ=úû
ùêëé -=-= åå ¥®¥® iNN
xN
xxN
x
as >= Varianza
( )å --
= 22
11 xxN
s i
ò¥
¥-
-= 22 ))(( µs xxdxP
22 )2/()(2/1),;(G--
G=G
µpµ
xxP
Otras medidas de la dispersión
• Cuando hay muchos puntos: percentiles– Valores de {xi} que engloban una fracción determinada
de las observaciones:• Cuartiles: Q1 (25%), Q2 (50%≡µ1/2), Q3 (75%)
– Relacionados con la mediana– Útiles cuando la distribución no sigue una forma clara
(modelo teórico desconocido) o cuando hay muchos puntos aislados
– Por ejemplo: en unas simulaciones para ver si una función es una buena aproximación: se usa un estadístico (función de los datos) y se mira qué porcentaje de las simulaciones producen un valor del estadístico que cae por debajo del valor observado
Significado del valor central y de la dispersión
• Media (moda, mediana): estimación del valor del parámetro que queremos determinar
• Varianza (desviación promedio, percentiles): estimación de la incertidumbre de nuestro método en la determinación de ese parámetro
• Distribución gaussiana: media y varianza determinan distribución– Por razones históricas siguen dominando– Además, momentos mayores no siempre útiles (poco
robustos)
Histogramas I
• Muestran el número de datos en intervalos de una variable bin:– Útiles para ver la frecuencia relativa de los diversos valores– Si no son discretos: agrupación en n intervalos Δx– Para compararlos: normalizarlos a área unidad, mismos intervalos
• A la hora de decidir sobre los intervalos:– Demasiados dan lugar a muchas fluctuaciones– Pocos pierden detalle de la distribución– Deben cubrir el rango de los datos, ¡pero no más!– Si discretos deben centrarse los intervalos en los valores
• Reglas sobre n, Δx: no universal, mejor probar– n=N1/2
– Freedman-Diaconis: Δx=2 IQR/N1/3 , IQR≡Q3-Q1
– Intervalos no uniformes?
Histogramas I
• Muestran el número de datos en intervalos de una variable bin:– Útiles para ver la frecuencia relativa de los diversos valores– Si no son discretos: agrupación en n intervalos Δx– Para compararlos: normalizarlos a área unidad, mismos intervalos
• A la hora de decidir sobre los intervalos:– Demasiados dan lugar a muchas fluctuaciones– Pocos pierden detalle de la distribución– Deben cubrir el rango de los datos, ¡pero no más!– Si discretos deben centrarse los intervalos en los valores
• Reglas sobre n, Δx: no universal, mejor probar– n=N1/2
– Freedman-Diaconis: Δx=2 IQR/N1/3 , IQR≡Q3-Q1
– Intervalos no uniformes?
Histogramas II
• ¿Cómo tratar los datos si tienen barras de error σi?– Si σi<<Δx: se pueden seguir usando métodos anteriores– Si no es así:
• Si las barras de error son simétricas y datos ~gaussianos: se define P(x)=ΣiN(xi, σi)/N : normalizada a la unidad
• Si se conocen las distribuciones individuales Pi(x): se define P(x)=ΣiPi(x)/N : normalizada a la unidad
• Los valores del histograma en el bin j serían ∫ΔxjdxP(x)
Ejercicio 1
• Archivos dat1.dat,dat2.dat,dat3.dat enhttp://venus.ifca.unican.es/~carreraf/Estadistica/Ejercicios
• Calcular:– La moda– La media y la desviación estándar– La mediana– Histograma
• ¿Qué distribuciones son?¿Por qué?
Medidas del valor central II
• Media ponderada: cuando se combinan datos {xi}con errores individuales {σi}
– Relacionada con c2 (gaussiana): equivale a ajuste a constante
– No tiene en cuenta la dispersión en los valores
åå
å==
i i
x
j j
i i
ix
x2
2
2
2
11
1s
s
s
s
Medidas del valor central. Ejemplo I
Se toman medidas del número de galaxias en N=1000zonas diferentes del cielo (fichero datCounts.dat) yse desea comprobar si la densidad de fuentes escompatible con ser constante o si hay algunadispersión intrínseca• Primer paso: histograma
(línea negra continua)– Pico ~100
• Segundo paso: cálculo demedia y medidas dispersión:– 〈x〉=100.3– s=22 (línea azul puntos)
> √〈x〉~10 (línea roja trazos)– s/√1000=0.7
• Tercer paso: asignar barrasde error individuales ~√x
• Cuarto paso: dibujar lospuntos y sus barras de error:– Dispersión entre puntos >
barras de error⇒Dispersión intrínseca?
Medidas del valorcentral. Ejemplo II
Medidas del valor central III
• Media ponderada teniendo en cuenta la dispersión en los valores: cuando se combinan datos con errores y dispersión intrínseca– Supone distribución gaussiana de los valores respecto de ⟨x⟩, con dispersión intrínseca σ
– Se busca mínimo de la “verosimilitud” (log-likelihood !=-2LnP, Sección 3 del curso)
– Se puede encontrar el error en ⟨x⟩ buscando en torno al mínimo
=xi − x( )
2
σ i2 +σ 2
i∑ + Ln 2π σ i
2 +σ 2( )#$
%&
i∑
• Tercer paso: asignar barrasde error individuales ~√x
• Cuarto paso: dibujar lospuntos y sus barras de rror:– Dispersión entre puntos >
barras de error⇒Dispersión intrínseca?
• Quinto paso: Ajustamos unamedia con dispersiónintrínseca (“+” en diagramade contornos)– Media=99.34– Dispersión intrínseca=19.77– Significancia?– Incertidumbres?⇒contornos χ2 (ver Sección 3)
Medidas del valorcentral. Ejemplo III
Puntos aislados fuera de la distribución I
• Son mucho más frecuentes en la vida real que en las distribuciones teóricas
• Eliminación con juicio y sentido crítico– Sólo si se entiende el origen de las discrepancias
• Técnica: el sigma clipping1. Definición de límite n×s (n>2-3) ó en probabilidad (95%, 99%...)2. Cálculo de 〈x〉, s3. Si |xi-〈x〉| >n×s rechazamos el punto i4. Si se ha rechazado algún punto, se vuelve a 2 (a veces límite en el
número de bucles)5. Si no se ha rechazado ninguno, muestra “limpia”
Puntos aislados fuera de la
distribución II
• Método más robusto usando el rango intercuartil: IQR≡Q3-Q1
• Se definen límites: Lo que quede fuera outlier– Q1-1.5 IQR– Q3+1.5 IQR
Propagación de errores
• Función A(x,y,...), si se conocen los errores en x (sx), y (sy)... ¿Cuál es el error en A (sA)?– Si se conoce la distribución estadística de las distintas variables, se
puede calcular– Si no es así, y sx ,sy...<<:
• A partir de las propiedades de la distribución gaussiana• También hay términos de correlaciones cruzadas
– deberían anularse si las medidas de x,y... no están relacionadas– Lo que siempre hay que comprobar
– Ejemplos:
...22
22
2 +÷÷ø
öççè
涶
+÷øö
çè涶
= yxA yA
xA sss
yxyxA ss÷÷ø
öççè
涶
¶2
A = ax + by⇒σ A2 = a2σ x
2 + b2σ y2
A = axb ⇒σ A2 = abxb−1( )
2σ x
2
A = abx ⇒σ A = bLn a abxσ x
Barras de error asimétricas(Barlow arXiv: physics/0306138,0406120)
• Caso típico: µ +σ1-σ2
– Interpretación? Gaussiana con errores asimétricos no tiene sentido• Parametrización de la P(x) con alguna función:
– “Bien comportada”: continua y con colas controlables– Parámetros del problema:
• Máximo en µ• !=-2LnPmin±1 correspondan con σ1, σ2 (ver parte 3 del curso)
• Equivalentemente
• Dos aproximaciones:– Barlow (2003,2004): distribución de probabilidad asimétrica, mejores resultados
con gaussiana de varianza variable. Implementado enhttp://www.slac.stanford.edu/~barlow/java/statistics.html
– Buscar N(µ,σ) simétrica con σ entre σ1 y σ2 que cumpla:
= −2 lnP(x) = x −µσ −σ '(x −µ)"
#$
%
&'
2
, σ =2σ1σ 2σ1+σ 2
, σ ' = σ1−σ 2σ1+σ 2
dx N(0,1)−1
1
∫ = dx P(x)µ−σ 2
µ+σ1
∫
dx N(0,1)−1
1
∫ = dx 1σ 2πµ−σ 2
µ+σ1
∫ exp −(x −µ)2
2σ 2
#
$%
&
'(