modelado - fcn.unp.edu.ar fileprimeros componentes principales en lugar de las variables originales...
TRANSCRIPT
MODELADO
CALIBRACIÓN MULTIVARIADA
Calibración multivariada
aproximaciones multivariadas para crear una curva de calibración:
regresión clásica u ordinaria (classical/ordinary least squares, CLS)regresión de componentes principales (principal component regression, PCR)regresión de cuadrados mínimos parciales (partial least squares regression, PLS)
optimizan el ajuste de los datos de manera diferente
método de evaluación y resultados similares
Regresión por componentes principales (PCR)
objetivo:
reducir el número de variables predictoras usando los primeros componentes principales en lugar de las variables originales
el método funciona bien si hay un alto grado de correlación entre variables predictoras, lo cual suele ocurrir en casos de calibración inversa
Regresión por componentes principales (PCR)
emplea una calibración inversa
no correlaciona las concentraciones directamente con las respuestas instrumentales
correlaciona las concentraciones con la matriz de puntuaciones (scores)
scores o variables latentes: deben condensar de un modo eficiente la información espectral completa (las variables manifiestas) en una matriz de tamaño adecuado
aspecto fundamental: estimación del número de PC (por scree plot, PRESS, variación explicada)
si se emplean menos PC que los necesarios se obtiene una situación poco deseable llamada subajuste de los datos
demasiados PC no aportan información relevante sino esencialmente ruido: sobreajuste
en general, no es aconsejable utilizar un número de PC superior a la mitad del número de mezclas de calibración
Ejemplo regresión PCR
C1 C2 C3 A1 A2 A3 A4 A5 A6
A 0,89 0,02 0,01 18,7 26,8 42,1 56,6 70,0 83,2B 0,46 0,09 0,24 31,3 33,4 45,7 49,3 53,8 55,3C 0,45 0,16 0,23 30,0 35,1 48,3 53,5 59,2 57,7D 0,56 0,09 0,09 20,0 25,7 39,3 46,6 56,5 57,8E 0,41 0,02 0,28 31,5 34,8 46,5 46,7 48,5 51,1F 0,44 0,17 0,14 22,0 28,0 38,5 46,7 54,1 53,6G 0,34 0,23 0,20 25,7 31,4 41,1 50,6 53,5 49,3H 0,74 0,11 0,01 18,7 26,8 37,8 50,6 65,0 72,3I 0,75 0,01 0,15 27,3 34,6 47,8 55,9 67,9 75,2J 0,48 0,15 0,06 18,3 22,8 32,8 43,4 49,6 51,1
Empleando Minitab
debe realizarse primero un PCA
para los datos de la tabla anterior
Principal Component Analysis: A1.A2.A3.A4.A5.A6
Eigenanalysis of the Covariance Matrix
Eigenvalue 210,01 73,86 4,62 0,93 0,79 0,28Proportion 0,723 0,254 0,016 0,003 0,003 0,001Cumulative 0,723 0,977 0,993 0,996 0,999 1,000
Empleando Minitab
Principal Component Analysis: A1.A2.A3.A4.A5.A6 Variable PC1 PC2 PC3
A1 -0,124 -0,592 -0,253A2 -0,017 -0,513 0,048A3 0,066 -0,571 -0,102A4 0,244 -0,239 0,575A5 0,510 -0,042 0,545A6 0,813 0,043 -0,544
los primeros PCs explican más del 99 % de la variación en las absorbanciasse pueden seleccionar solo estas dos absorbancias (sin sentido cuando son tan pocas variables predictoras)
Empleando Minitab
obtener las puntuaciones (scores) de los PC seleccionados, en este caso 3, pero se pueden calcular más
Muestra Z1 Z2 Z3A 117,126 -61,6838 17,7148B 82,975 -73,3721 16,6156C 89,007 -76,0823 20,8135D 86,833 -58,4389 18,3197E 76,229 -74,0041 14,4500F 81,880 -60,4513 19,0386G 78,686 -66,9623 22,2530H 103,970 -58,0594 17,9048I 108,561 -74,1204 18,1318J 76,919 -51,4731 17,3175
Empleando Minitab
obtener la ecuación de regresiónRegression Analysis: c1 versus z1. z2. z3
The regression equation isc1 = 0,0685 + 0,0119 z1 + 0,00419 z2 - 0,0171 z3
Predictor Coef SE Coef T PConstant 0,06849 0,06571 1,04 0,337
z1 0,0118502 0,0003480 34,05 0,000z2 0,0041884 0,0005868 7,14 0,000z3 -0,017058 0,002345 -7,27 0,000
S = 0,0151299 R-Sq = 99,5% R-Sq(adj) = 99,3%PRESS = 0,00301908 R-Sq(pred) = 98,96%
Empleando Minitab
PCR: PRESS = 0,00301908
CLS: PRESS = 0,0274584
en este caso PRESS PCR < PRESS CLS
¿cuál modelo es mejor?
Empleando Minitab
para obtener una expresión en función de la concentración reemplazar z en términos de A empleando las puntuaciones (loadings)
z1 z2 z3-0,123596 -0,592342 -0,253000-0,017376 -0,512546 0,0479360,066134 -0,570740 -0,1023000,243876 -0,238879 0,5750980,509940 -0,041775 0,5449490,812733 0,043296 -0,543617
Empleando Minitab
para obtener una expresión en función de la concentración reemplazar z en términos de A empleando las puntuaciones (loadings)
z1 = - 0,124A1 -0,017A2 + 0,066A3 + 0,244A4 +0,510A5 +0,813A6
c1 = 0,06849 + 0,00037 A1 – 0,00317 A2 +
0,00014 A3 – 0,00792 A4 – 0,00343 A5 + 0,0190 A6
repetir para las otras concentraciones
Empleando Minitab
para obtener la concentración de una muestra incógnita:A1 32,6A2 29,8A3 37,9A4 48,5A5 60,3A6 63,9
c1 = 0,61repetir para las otras concentraciones
Empleando Matlab
1. Estudio óptimo de factores presentes en la matriz de calibrado: Método: validación cruzada empleando rutina: pcr_cv.m
2. Calibración del modelo PCR empleando rutina: pcr_cal.m
3. Predicción de muestras incógnita > rutina pcr-pred.m
Empleando Matlab
1- Validación cruzada: usar la rutina pcr_cv.m
% COMO EJECUTAR LA RUTINA 'pcr_cv.m'% ************************************************* **% 1) Guardar los datos en archivos ASCII:% Los datos de señal se guardan en un archivo con I columnas (I es el numero de muestras de calibrado)% y J filas (J es el numero de longitudes de onda ), o sea, una columna para cada espectro.% Los datos de concentracion se guardan en un arc hivo con una columna e I filas.% 2) Ejecutar 'pcr_cv.m'.% 3) Introudcir el numero maximo de factores a prob ar.% 4) Introducir los nombres de los archivos ASCII e ntre comillas simples. Ejemplo: 'resp_cal.txt'
Empleando Matlab
1- Validación cruzada: usar la rutina pcr_cv.m
Empleando Matlab
1- Validación cruzada: usar la rutina pcr_cv.m
Empleando Matlab
1- Validación cruzada: usar la rutina pcr_cv.m
Empleando Matlab
2- Calibración: usar la rutina pcr_cal.m
● se calibra un analito a la vez
% ************************************************* **% COMO EJECUTAR LA RUTINA 'pcr_cal.m'% ************************************************* **% 1) Guardar los datos en archivos ASCII:% Los datos de señal se guardan en un archivo con I columnas (I es el numero de muestras de calibrado)% y J filas (J es el numero de longitudes de onda ), o sea, una columna para cada espectro.% Los datos de concentracion se guardan en un arc hivo con una columna e I filas.% 2) Ejecutar 'pcr_cal.m'.% 3) Introducir el numero de factores para la calib racion.% 4) Introducir los nombres de los archivos ASCII e ntre comillas simples. Ejemplo: 'resp_cal.txt'
Empleando Matlab
1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 610
20
30
40
50
60
70
80
90Espectros de calibracion
Abso
rban
cia
Longitud de onda / nm
1 2
3
4
5 6
7
8
9 10
2- Calibración: usar la rutina pcr_cal.m
Empleando Matlab
3- Predicción: usar la rutina pcr_pred.m
COMO EJECUTAR LA RUTINA 'pcr_pred.m'% ************************************************* **% 1) Guardar los datos en archivos ASCII:% Los datos de señal se guardan en un archivo con tantas columnas como muestras incognita% y J filas (J es el numero de longitudes de onda ), o sea, una columna para cada muestra.% 2) Ejecutar 'pcr_pred.m'.% 4) Introducir el nombre del archivo ASCII entre c omillas simples. Ejemplo: 'resp_test.txt'
PCR: c1= 0,61 (r. esp.= 5,35)
CLS: c1 = 0,61 (r. esp.= 5,45)
Empleando Matlab
3- Predicción: usar la rutina pcr_pred.m
Ventajas de la PCR
PCR combina las ventajas de la regresión multivariada CLS
es posible la calibración directa, que permite ignorar las concentraciones de compuestos químicos desconocidos durante el calibrado
el uso de espectros abstractos (scores) elimina los problemas asociados con la colinealidad espectral
Ventajas de la PCR
PCR combina las ventajas de la regresión multivariada CLS
es posible la calibración directa, que permite ignorar las concentraciones de compuestos químicos desconocidos durante el calibrado
el uso de espectros abstractos (scores) elimina los problemas asociados con la colinealidad espectral
Desventajas de la PCR
interferencias no modeladas: si aparece en una muestra incógnita un compuesto no contenido en la calibración, el análisis no será exacto
los modelos son capaces de detectar interferencias, aunque no de corregirla
PCR sólo utiliza factores calculados en base a información espectral del calibrado únicamente, sin referencia a las concentraciones de calibrado
Regresión por cuadrados mínimos parciales (PLS)
PLS (partial least-squares) emplea combinaciones lineales para predecir
diferencia con PCR es la forma de elegir estas combinaciones:
PCR: describen la máxima variación de las variables predictoras
PLS: las variables que tienen mayor correlación con la respuesta tienen un peso extra por ser más efectivas para la predicción
Regresión por PLS
PLS opera de manera similar a PCR weigth loading factors: contenidos en una matriz usualmente llamada W
loadings: contenidos en una matriz llamada P
las columnas de W son ortogonales, mientras que las de P no necesariamente lo son, a diferencia de PCR
Regresión por PLS
las columnas de W no son autovectores propiamente dichos, sino factores obtenidos mediante una técnica diferente a la de PCR, cuyos elementos dependen de las concentraciones de calibración del analito de interés
la obtención de estos factores se lleva a cabo mediante un algoritmo iterativo cíclico, muy similar a PCR
diferencia fundamental: en PLS los factores describen la máxima correlación posible entre la matriz de datos y el vector de concentraciones del analito de interés
Regresión por PLS
Formas de llevar a cabo PLS:
PLS1: cada variable respuesta se trata separadamente (más común)
PLS2: las variables respuesta se tratan colectivamente, se suele usar solamente cuando las variables respuesta están correlacionadas entre sí
Regresión por PLS empleando Minitab
PLS Regression: c1 versus A1, A2, A3, A4, A5, A6
Number of components selected by cross-validation: 4Number of observations left out per group: 1Number of components cross-validated: 6
Analysis of Variance for c1
Source DF SS MS F PRegression 4 0,289476 0,0723690 333,84 0,000Residual Error 5 0,001084 0,0002168Total 9 0,290560
Regresión por PLS
Model Selection and Validation for c1
Components X Variance Error SS R-Sq PRESS R-Sq (pred) 1 0,457325 0,0287984 0,900887 0,0469069 0,838564 2 0,957200 0,0255230 0,912159 0,0511899 0,823823 3 0,988793 0,0021123 0,992730 0,0078758 0,972894 4 0,992990 0,0010839 0,996270 0,0052733 0,981851 5 0,0010724 0,996309 0,0186933 0,935664 6 0,0010681 0,996324 0,0274584 0,905498
Regresión por PLS
c1 c1 standardized
Constant 0,0426293 0,00000A1 0,0039542 0,11981A2 -0,0111737 -0,27695A3 0,0038227 0,10753A4 -0,0092380 -0,22261A5 -0,0003408 -0,01425A6 0,0176165 1,16114
Regresión por PLS
Regresión por PLS
evaluación de los resultados: método leave-one-out
usando validación cruzada el número de componentes necesario para modelar c1 = 4
se elige a partir del valor de PRESS es menor para el modelo de 4 componentes (PRESS=0,0052733)
la capacidad predictiva del modelo disminuye si se agregan más componentes
Regresión por PLS
la ecuación de regresión es:
c1 = 0,0426 + 0,0040 A1 – 0,0112 A2 +0,0038 A3 - 0,0092 A4 – 0,0003 A5 + 0,0176 A6
obtener ecuaciones para predecir c2 y c3 de manera similar
Comparación de resultados empleando Minitab
ecuación de regresión para c1 empleando los distintos métodos multivariados:
CLS c1 = 0,0501 + 0,000252A1 – 0,00939A2 + 0,00375A3 – 0,00920A4 – 0,00106A5 + 0,0179A6
PCR c1 = 0,06849 + 0,00037A1 – 0,00317A2 + 0,00014A3 – 0,00792 A4 – 0,00343 A5 + 0,0190 A6
PLS c1 = 0,0426 + 0,0040A1 – 0,0112A2 +0,0038A3 - 0,0092 A4 – 0,0003 A5 + 0,0176 A6
Empleando Matlab
1. Estudio óptimo de factores presentes en la matriz de calibrado: Método: validación cruzada empleando rutina: pls_cv.m
2. Calibración del modelo PLS empleando rutina: pls_cal.m
3. Predicción de muestras incógnita > rutina pls_pred.m
Empleando Matlab
PLS: c1 = 0,61 (r. esp. = 5,36)
PCR: c1 = 0,61 (r. esp. = 5,35)
CLS:
c1 = 0,61 (r. esp.= 5,45)
Ventajas de la regresión por PLS
es el método de calibración multivariada más empleado cuando la información instrumental proveniente de cada muestra es de tipo vectorial
incorpora información útil referida a concentraciones de calibrado durante la etapa de cálculo de las variables latentes
Desventajas de la regresión por PLS
interfencias no modeladas: desventaja de los métodos multivariados
métodos para calibración multivariada: se basan en el procesamiento de datos del tipo vectorial (espectros, voltamperogramas u otro tipo similar de datos instrumentales)
Tipos de calibraciones
calibración de orden cero: calibración univariada se clasificaría como de orden cero
calibración de primer orden: basada en vectores para cada muestra se llama calibración (un vector se considera, en lenguaje tensorial, como un tensor de primer orden)
Tipos de calibraciones
● calibración de segundo orden: empleando datos matriciales para cada muestras (EEM, obtenidas fácilmente en un espectrofluorómetro convencional), matrices de absorbancia-tiempo (obtenidas a través de una reacción química en un espectrofotómetro de arreglo de diodos), etc.
Ventajas de las calibraciones de orden superior
ventaja de segundo orden: se pueden cuantificar analitos calibrados en presencia de interferencias no calibradas
propiedad ausente en los datos de primer orden
presenta inmensas posibilidades en el análisis de mezclas complejas, en particular las de origen biológico, alimentos
métodos: PARAFAC , ...