estadística parte 1venus.ifca.unican.es/~carreraf/estadistica/transparenci... · 2017. 10. 3. ·...

Estadística Parte 1

Francisco J. Carrera Troyano

Instituto de Física de Cantabria Consejo Superior de Investigaciones Científicas

y Universidad de Cantabria

Octubre 2017

Estadística

• “There are lies, damned lies, and statistics”Benjamin Disraeli

• “If you need statistics, you ought to have done a better experiment”Ernest Rutherford

• Diálogo entre P. Scheuer y un estudiante:– How are the data?– We did a Kolmogorov-Smirnov test...– Ah! That bad.

Estadística

• La estadística es una herramienta habitual en muchas disciplinas científicas

• Puede ayudar a:– Cuantificar nuestras impresiones subjetivas sobre los datos

experimentales– Extraer información de los datos, cuantificando la incertidumbre con

un grado determinado de confianza– Especialmente importante cuando las circunstancias no permiten “hacer un experimento mejor”

– ...• Pero no puede sustituir al sentido común y al sentido crítico

• Nunca se puede probar que una teoría es cierta, sólo que es falsa, con un determinado grado de confianza

Índice1. Incertidumbres y errores

– Incertidumbres en las medidas• Errores en la medida: sistemáticos y estadísticos. Incertidumbres.

Distribuciones original y de la muestra. Momentos de una distribución. Medidas del valor central. Medidas de la dispersión. Puntos aislados.

– Análisis de errores• Propagación de errores. Barras de error asimétricas.

2. Contrastes de hipótesis paramétricos y no paramétricos– Comparación de dos distribuciones

• Comparación de las medias. Comparación de las varianzas. Test c2. Test de Kolmogorov-Smirnov. Comparación de distribuciones bidimensionales

• Análisis de varianza: ANOVA• Correlación lineal. Test no-paramétricos. Correlaciones parciales.

Variables con límites superiores e inferiores– Significancia de una detección

• Cociente señal-ruido.3. Modelado estadístico de datos

– Métodos de máxima verosimilitud• Modelos frente a datos. Verosimilitud. c2: Introducción, Estimación de

parámetros. Bondad del ajuste. Incertidumbre en los parámetros. Regresión lineal.

• Verosimilitud en régimen Poissoniano

Bibliografía• "Data reduction and error analysis for the physical sciences"

Bevington & Robinson, 1992, McGraw-Hill• "Numerical Recipes" Press et al., 1994, CUP• “Estadística básica para estudiantes de Ciencias” J. Gorgas,

N. Cardiel, J. Zamorano, 2009, http://pendientedemigracion.ucm.es/info/Astrof/users/jaz/estadistica.html

• "Probability and statistics in engineering and managementscience" Hines & Montgomery, 1990, J. Wiley & Sons (tb. version en castellano)

• "Practical Statistics for Astronomers" Wall & Jenkins, 2003, CUP

• “Modern statistical methods for Astronomy” Feigelson & Babu, 2012, CUP

• “Astronomy Methods” H. Bradt, 2004, CUP

Incertidumbres en las medidas (Bevington & Robinson’92)

• Errores de medida: – Error: diferencia entre el valor observado (o calculado) y el valor

verdadero• Problema: no sabemos el valor verdadero: necesitamos acotarlo a partir de

los datos obtenidos

• Dos conceptos importantes:– Exactitud: cercanía entre el resultado de un experimento y el valor

verdadero– Precisión: “bondad” en la determinación del resultado, reproducibilidad.

Sin referencia al valor verdadero• Generalmente: incertidumbre ~ precisión

Incertidumbres en las medidas (Bevington & Robinson’92)

• Errores de medida: – Error: diferencia entre el valor observado (o calculado) y el valor

verdadero• Problema: no sabemos el valor verdadero: necesitamos acotarlo a partir de

los datos obtenidos

• Dos conceptos importantes:– Exactitud: cercanía entre el resultado de un experimento y el valor

verdadero– Precisión: “bondad” en la determinación del resultado, reproducibilidad.

Sin referencia al valor verdadero• Generalmente: incertidumbre ~ precisión

PrecisoInexacto

ImprecisoExacto

Errores sistemáticos

• Inexactitud reproducible introducida por fallos del equipo, de su calibración, o de la técnica utilizada– Afectan a la exactitud– Difíciles de detectar y de estudiar de manera estadística

• Se evitan/detectan:– Diseñando el experimento con cuidado– Cuidando las condiciones en las que se realiza el

experimento– Midiendo las mismas cantidades con métodos distintos

Errores estadísticos

• Indefinición del resultado introducida por la precisión finita de la medida. Medida de la fluctuación al repetir el experimento– Afectan a la precisión– Debidos a fluctuaciones en las observaciones que producen

resultados distintos en experimentos distintos– Requieren observaciones repetidas para mejorar su

precisión• Dos tipos:

– Instrumentales: imperfecciones en el equipo, o en la lectura. • Se evitan con mejoras en la precisión y fiabilidad de los instrumentos

– Fluctuaciones estadísticas: inevitables, debidas a la propia naturaleza física de la medida

• Se pueden reducir con más medidas, pero no indefinidamente

Incertidumbres

• Magnitud del error que se estima que se ha cometido en la determinación de los resultados– Nivel de confianza de que otra medida caerá dentro de un intervalo con

determinada probabilidad (Ej. 1s, 68.3%, 99%...)• Dos tipos:

– Fluctuaciones en las medidas– Descripción teórica (ej. medida tamaño mesa ovalada)

• Nos interesa estimar los errores inherentes en el experimento, lo que haremos a partir de las incertidumbres en las medidas

• También nos interesa averiguar si el modelo que estamos aplicando es el que mejor caracteriza el sistema (Secciones 2 y 3 del curso)

Distribuciones original y de la muestra

• Si medimos una cantidad x obtenemos {xi}• Si hiciéramos infinitas medidas de la distribución de los {xi},

seguiría la distribución teórica de los valores esperados de {xi} (gaussiana, poissoniana...)

• En casos reales:– Distribución original≡esperada– Distribución de la muestra≡{xi}

• Cuantas más medidas se efectúen más se parecerán, pero no serán idénticas:

(parámetro original) = limN→∞(parámetro experimental)

Distribuciones original y de la muestra

• Si medimos una cantidad x obtenemos {xi}• Si hiciéramos infinitas medidas de la distribución de los {xi},

seguiría la distribución teórica de los valores esperados de {xi} (gaussiana, poissoniana...)

• En casos reales:– Distribución original≡esperada– Distribución de la muestra≡{xi}

• Cuantas más medidas se efectúen más se parecerán, pero no serán idénticas:

(parámetro original) = limN→∞(parámetro experimental)

Muestra

Modelo muestra

Original

• Idealmente queremos conocer la distribución completa• No siempre es posible/deseable, así que intentamos

“resumirla” en unos pocos parámetros:- Momentos de una distribución

• Cualitativamente:1. Valor central2. Dispersión3. Asimetría (sesgo, “skewness”)4. Curtosis

• Normalmente se usan sólo los dos primeros:- Razones históricas (Poissoniana -1-, gaussiana -1,2-...)- Más robustas- Suelen ser las más útiles

Caracterizando una muestra

mk (a) = dx P(x)(x − a)k−∞

∞

∫

• Idealmente queremos conocer la distribución completa• No siempre es posible/deseable, así que intentamos

“resumirla” en unos pocos parámetros:– Momentos de una distribución

• Cualitativamente:1. Valor central2. Dispersión3. Asimetría (sesgo, “skewness”)4. Curtosis

• Normalmente se usan sólo las dos primeras:- Razones históricas (Poissoniana -1-, gaussiana -1,2-...)- Más robustas - Suelen ser las más útiles

Caracterizando una muestra

Medidas del valor central

• Tienen sentido si la distribución de valores tiende a agruparse en torno a un valor particular

• Media, centroide o valor promedio: de la muestra

original– Si P(x) simétrica en torno a x0: µ=x0

– El error estándar en la media: s/√N , N nº puntos

– En general:ò¥

¥-

= )()( xfxdxPf

÷ø

öçè

æ= å

=¥®

N

iiNx

N 1

1limµ

å=

=N

iixN

x1

1

ò¥

¥-

= xxdxPx )(


• Mediana µ1/2

• Tantos valores por encima como por debajo– Si N impar: µ1/2~xint(N/2)+1

– Si N par: µ1/2~(xN/2+xN/2+1)/2• Menos sensible a puntos aislados muy fuera de la distribución• Si P(x) simétrica respecto µÞ media=mediana• La media falla como estimador si las colas son largas, mientras

que la mediana falla sólo si el área bajo las colas es grande

2/1)()( 2/12/1 =<=³ µµ xPxP


• Moda: Valor más probable µmax: P(µmax)≥P(x≠µmax)– El más probable de ser observado– Pico de la distribución

• Puede haber más de uno: en este caso µ, µ1/2 no muy útiles• Si sólo hay uno y la distribución es simétrica: µ=µmax=µ1/2

– Distribución asimétrica: generalmente µmax<µ1/2<µ ó µmax>µ1/2>µ

• ¿Cuál usar?– Depende de lo que se quiera y de la forma de la distribución– Importante hacer histograma

Medidas de la dispersión

• Desviaciones:

• Desviación promedio: ADev ó a promedio valores absolutos de las desviaciones

– Valor absoluto complica tratamiento analítico– A veces se usa mediana en lugar de media, esto minimiza

ADev– No muy usada, pero útil en el caso de distribuciones con

muchos puntos aislados “fuera” de la distribución

0lim =-=¥®dxxd

Nii

å -= xxN i1ADev úû

ùêëé -= å¥®

xxN iN

1lima

Medidas de la dispersión

• Varianza:

– Desviación estándar:

– Varianza de la muestra:

• Se usa N-1 en lugar de N porque para calcular s se utiliza la media, que se obtiene con la propia distribución

– Hay distribuciones de probabilidad para las que s no existe:• Si P(x) cae como 1/x2 o más despacio esta expresión →∞

– Por ejemplo la lorentziana

– a es un parámetro más robusto

( ) ( ) 22222 1lim1lim µµs -÷øö

çèæ=úû

ùêëé -=-= åå ¥®¥® iNN

xN

xxN

x

as >= Varianza

( )å --

= 22

11 xxN

s i

ò¥

¥-

-= 22 ))(( µs xxdxP

22 )2/()(2/1),;(G--

G=G

µpµ

xxP

Otras medidas de la dispersión

• Cuando hay muchos puntos: percentiles– Valores de {xi} que engloban una fracción determinada

de las observaciones:• Cuartiles: Q1 (25%), Q2 (50%≡µ1/2), Q3 (75%)

– Relacionados con la mediana– Útiles cuando la distribución no sigue una forma clara

(modelo teórico desconocido) o cuando hay muchos puntos aislados

– Por ejemplo: en unas simulaciones para ver si una función es una buena aproximación: se usa un estadístico (función de los datos) y se mira qué porcentaje de las simulaciones producen un valor del estadístico que cae por debajo del valor observado

Significado del valor central y de la dispersión

• Media (moda, mediana): estimación del valor del parámetro que queremos determinar

• Varianza (desviación promedio, percentiles): estimación de la incertidumbre de nuestro método en la determinación de ese parámetro

• Distribución gaussiana: media y varianza determinan distribución– Por razones históricas siguen dominando– Además, momentos mayores no siempre útiles (poco

robustos)

Histogramas I

• Muestran el número de datos en intervalos de una variable bin:– Útiles para ver la frecuencia relativa de los diversos valores– Si no son discretos: agrupación en n intervalos Δx– Para compararlos: normalizarlos a área unidad, mismos intervalos

• A la hora de decidir sobre los intervalos:– Demasiados dan lugar a muchas fluctuaciones– Pocos pierden detalle de la distribución– Deben cubrir el rango de los datos, ¡pero no más!– Si discretos deben centrarse los intervalos en los valores

• Reglas sobre n, Δx: no universal, mejor probar– n=N1/2

– Freedman-Diaconis: Δx=2 IQR/N1/3 , IQR≡Q3-Q1

– Intervalos no uniformes?

Histogramas II

• ¿Cómo tratar los datos si tienen barras de error σi?– Si σi<<Δx: se pueden seguir usando métodos anteriores– Si no es así:

• Si las barras de error son simétricas y datos ~gaussianos: se define P(x)=ΣiN(xi, σi)/N : normalizada a la unidad

• Si se conocen las distribuciones individuales Pi(x): se define P(x)=ΣiPi(x)/N : normalizada a la unidad

• Los valores del histograma en el bin j serían ∫ΔxjdxP(x)

Ejercicio 1

• Archivos dat1.dat,dat2.dat,dat3.dat enhttp://venus.ifca.unican.es/~carreraf/Estadistica/Ejercicios

• Calcular:– La moda– La media y la desviación estándar– La mediana– Histograma

• ¿Qué distribuciones son?¿Por qué?

Medidas del valor central II

• Media ponderada: cuando se combinan datos {xi}con errores individuales {σi}

– Relacionada con c2 (gaussiana): equivale a ajuste a constante

– No tiene en cuenta la dispersión en los valores

åå

å==

i i

x

j j

i i

ix

x2

2

2

2

11

1s

s

s

s

Medidas del valor central. Ejemplo I

Se toman medidas del número de galaxias en N=1000zonas diferentes del cielo (fichero datCounts.dat) yse desea comprobar si la densidad de fuentes escompatible con ser constante o si hay algunadispersión intrínseca• Primer paso: histograma

(línea negra continua)– Pico ~100

• Segundo paso: cálculo demedia y medidas dispersión:– 〈x〉=100.3– s=22 (línea azul puntos)

> √〈x〉~10 (línea roja trazos)– s/√1000=0.7

• Tercer paso: asignar barrasde error individuales ~√x

• Cuarto paso: dibujar lospuntos y sus barras de error:– Dispersión entre puntos >

barras de error⇒Dispersión intrínseca?

Medidas del valorcentral. Ejemplo II

Medidas del valor central III

• Media ponderada teniendo en cuenta la dispersión en los valores: cuando se combinan datos con errores y dispersión intrínseca– Supone distribución gaussiana de los valores respecto de ⟨x⟩, con dispersión intrínseca σ

– Se busca mínimo de la “verosimilitud” (log-likelihood !=-2LnP, Sección 3 del curso)

– Se puede encontrar el error en ⟨x⟩ buscando en torno al mínimo

=xi − x( )

2

σ i2 +σ 2

i∑ + Ln 2π σ i

2 +σ 2( )#$

%&

i∑

• Tercer paso: asignar barrasde error individuales ~√x

• Cuarto paso: dibujar lospuntos y sus barras de rror:– Dispersión entre puntos >

barras de error⇒Dispersión intrínseca?

• Quinto paso: Ajustamos unamedia con dispersiónintrínseca (“+” en diagramade contornos)– Media=99.34– Dispersión intrínseca=19.77– Significancia?– Incertidumbres?⇒contornos χ2 (ver Sección 3)

Medidas del valorcentral. Ejemplo III

Puntos aislados fuera de la distribución I

• Son mucho más frecuentes en la vida real que en las distribuciones teóricas

• Eliminación con juicio y sentido crítico– Sólo si se entiende el origen de las discrepancias

• Técnica: el sigma clipping1. Definición de límite n×s (n>2-3) ó en probabilidad (95%, 99%...)2. Cálculo de 〈x〉, s3. Si |xi-〈x〉| >n×s rechazamos el punto i4. Si se ha rechazado algún punto, se vuelve a 2 (a veces límite en el

número de bucles)5. Si no se ha rechazado ninguno, muestra “limpia”

Puntos aislados fuera de la

distribución II

• Método más robusto usando el rango intercuartil: IQR≡Q3-Q1

• Se definen límites: Lo que quede fuera outlier– Q1-1.5 IQR– Q3+1.5 IQR

Propagación de errores

• Función A(x,y,...), si se conocen los errores en x (sx), y (sy)... ¿Cuál es el error en A (sA)?– Si se conoce la distribución estadística de las distintas variables, se

puede calcular– Si no es así, y sx ,sy...<<:

• A partir de las propiedades de la distribución gaussiana• También hay términos de correlaciones cruzadas

– deberían anularse si las medidas de x,y... no están relacionadas– Lo que siempre hay que comprobar

– Ejemplos:

...22

22

2 +÷÷ø

öççè

æ¶¶

+÷øö

çèæ¶¶

= yxA yA

xA sss

yxyxA ss÷÷ø

öççè

æ¶¶

¶2

A = ax + by⇒σ A2 = a2σ x

2 + b2σ y2

A = axb ⇒σ A2 = abxb−1( )

2σ x

2

A = abx ⇒σ A = bLn a abxσ x

Barras de error asimétricas(Barlow arXiv: physics/0306138,0406120)

• Caso típico: µ +σ1-σ2

– Interpretación? Gaussiana con errores asimétricos no tiene sentido• Parametrización de la P(x) con alguna función:

– “Bien comportada”: continua y con colas controlables– Parámetros del problema:

• Máximo en µ• !=-2LnPmin±1 correspondan con σ1, σ2 (ver parte 3 del curso)

• Equivalentemente

• Dos aproximaciones:– Barlow (2003,2004): distribución de probabilidad asimétrica, mejores resultados

con gaussiana de varianza variable. Implementado enhttp://www.slac.stanford.edu/~barlow/java/statistics.html

– Buscar N(µ,σ) simétrica con σ entre σ1 y σ2 que cumpla:

= −2 lnP(x) = x −µσ −σ '(x −µ)"

#$

%

&'

2

, σ =2σ1σ 2σ1+σ 2

, σ ' = σ1−σ 2σ1+σ 2

dx N(0,1)−1

1

∫ = dx P(x)µ−σ 2

µ+σ1

∫

dx N(0,1)−1

1

∫ = dx 1σ 2πµ−σ 2

µ+σ1

∫ exp −(x −µ)2

2σ 2

#

$%

&

'(

estadística parte 1venus.ifca.unican.es/~carreraf/estadistica/transparenci... · 2017. 10. 3. ·...

Documents