Что такое хемометрика и нужна ли она лично Вам?
DESCRIPTION
Что такое хемометрика и нужна ли она лично Вам?. Родионова Оксана Евгеньевна, Институт химической физики РАН. Содержание. Введение БИК-спектроскопия и калибровка Сенсоры и хемометрика Формальные и содержательные модели Многомерный статистический контроль процессов Многие приложения - PowerPoint PPT PresentationTRANSCRIPT
Что такое хемометрика и нужна ли Что такое хемометрика и нужна ли она лично Вам?она лично Вам?
Родионова Оксана Евгеньевна, Институт химической физики РАН.
СодержаниеСодержание
1. Введение
2. БИК-спектроскопия и калибровка
3. Сенсоры и хемометрика
4. Формальные и содержательные модели
5. Многомерный статистический контроль процессов
6. Многие приложения
7. Заключение
Хемометрика - это научная дисциплина, находящаяся на стыке химии и математики, предметом которой являются математические методы исследования химических данных
сайт Российского хемометрического общества
ХемометрикаХемометрика: : два определениядва определенияДедуктивное
Хемометрика – это то, что делают хемометрики. сайт Международного хемометрического общества
Хемометрики – это такие люди, которые все время пьют пиво и воруют идеи у математиков
Svante Wold
Индуктивное
Что делают хемометрики?Что делают хемометрики?
• исследуют причины разрушения документов, написанных старинными гальскими чернилами
• расшифровывают состав косметики Древнего Египта;
• определяют происхождение пигментов, использованных старыми живописцами.
• локализуют месторождение золота в Швеции;
• определяют состояние лесов в Канаде по снимкам из космоса;
• исследуют органические субстанции в кометном веществе
• проводят допинг контроль спортсменов;• проводят диагностику артрита и рака на ранних стадиях;
• контролируют производство аспирина, полупроводников, пива, водки, бумаги полиэтилена, бензина, булочек …
• находят следы кокаина на банкнотах, собранных в Британском парламенте;
• выявляют фальшивые лекарства;
Так что же делает хемометрика? Так что же делает хемометрика?
• Хемометрика имеет дело с даннымиданными (зачас-тую с очень большими), поэтому хемометрика - это подраздел информатики (Data mining)
• Данные, которые исследует хемометрика по большей части происходят из химиихимии, поэтому хемометрика - это подраздел химии (Analytical chemistry)
• Методы, которые использует хемометрика ориентированы на формальноеформальное моделирование (Soft modeling)
Почему «хемо-» ?Почему «хемо-» ?
• Хемометрика родилась из задачи анализа хими-
ческих спектровспектров
• Спектроскопия – один из наилучший метод
получения информации по ходу процесса (on-on-
lineline) в режиме реального времени: быстро и без
влияния на процесс
• «Хемо» подчеркивает практическуюпрактическую, а не ста-
тистическую значимость применяемых методов
Почему «-метрика» ?Почему «-метрика» ?
• Хемометрические методы легко и плодотворно
переносятсяпереносятся в другие области, например, в пси-
хологию, биологию, геологию, и т. д.
• Хемометрика активно эксплуатирует математикуматематику
статистику, линейную алгебру.
-------------------------------------------------------------------
‘It is easier to teach a chemist statistics that to teach
chemistry to a statistician.’ (Svante Wold)
Когда появилась? Когда появилась?
«Каждая попытка применить математические методы для исследования химических проблем должна рассматриваться как абсолютно абсурдная и противоречащая самому духу химии.
Если математический анализ, когда-либо займет сколько-нибудь значительное место в химии – извращение, которое по счастью почти невероятно – это повлечет за собой повсеместно быстрое вырождение этой науки». Огюст Конт, 1825
СШАСША,, Сиэтле, 1974 год Сиэтле, 1974 год
Брюс Ковальски Брюс Ковальски (B. Kowalski)(B. Kowalski)
Сванте Волд Сванте Волд (S. Wold)(S. Wold)
Почему появилась?Почему появилась?
Математические методы
Много переменных и много измеренийМного переменных и много измеренийОдно измерение – спектр (600 точек) Один цикл – 800 спектров (времен)
ю . . .
Один массив данных – 200 образцов (циклов)
Основные принципыОсновные принципы
1.1. Использование многомерного подхода при конструировании экспериментов и анализе их результатов.
2.2. Что считать шумом, а что – информацией, всегда решается с учетом поставленных целей и методов, используемых для ее достижения.
3.3. Понятие эффективного (химического) ранга и скрытых, латентных переменных, число которых равно этому рангу.
Основная задача хемометрикиОсновная задача хемометрикиЗаменить прямые измерения, которые либо –
невозможны
дороги
длительны
на косвенные измерения, которые –
доступны
дешевы
быстры
с последующей их обработкой (калибровкой).
Определение качества бензина Определение качества бензина по БИК-спектрупо БИК-спектру
0
0.2
0.4
0.6
1100 1200 1300 1400 1500 1600
86
88
90
92
86 87 88 89 90 91 92
S S
S
S
S
S
S
S
S
S
S
SS
Elements:Slope:Offset:Correlation:RMSEP:SEP:Bias:
131.010279
-0.9184750.9876800.2338970.2433050.008032
Measured Y
Predicted Y
-0.3
0
0.3
0.6
-0.2 0 0.2 0.4 0.6 0.8
MM
M
L
HH
L
LL
H
M
H
L
HH
LL
H
L
H
L
H
H
L
M HPC1
PC2 Scores
Определение качества зерна Определение качества зерна по по БИК-спектруБИК-спектру
NIR analyzers standardization
Pavel A. Luzanov,
Lumex ltd.,
St. Petersburg, Russia
Сенсоры и хемометрика.Сенсоры и хемометрика.Электронные язык и носЭлектронные язык и нос
по материалам Алисы Рудницкой, Россия
analysedsolution
multiplexor
computer
measuring device
referenceelectrode
sensor array
V
Схема электронного языкаСхема электронного языка
Реальный видРеальный вид
-6 -4 -2 0 2 4 6 8 10 12 14
-3
-2
-1
0
1
2
3
4
5bittersweetsalty
Roo
t2 (
8%)
Root1 (92%)
Корреляция «человек-сенсор»Корреляция «человек-сенсор»
Подробнее о языке Подробнее о языке
Analysis of port wines using the electronic tongue. Assessment of port wine age and comparison with chemical analysis data
Alisa Rudnitskaya
Sr. Petersburg University, Russia
И еще о сенсорахИ еще о сенсорах
The classification of aqueous solutions with the use of voltammetric system of divided cells and principal component analysis
Artem Sidelnikov, Bashkir State University, Ufa, Russia
Формальные и содержательные моделиФормальные и содержательные моделиСодержательные
“Hard” modelsФормальные“Soft” models
Откуда Физика, химия, …. Из данных
Формула y=f (x,a)+ y=Xa+
Параметры Имеют физ. смысл Физически бессмысленны
Проблемы Построить модель Обработать данные
Назначение Экстраполяция Интерполяция
Пример Хим. кинетика ANOVA
Оценка активностиОценка активностиантиоксидантов методом ДСКантиоксидантов методом ДСК
Hard and soft modeling. A case study
Alexey Pomerantsev
Institute of Chemical Physics,
Moscow, Russia
Многомерный статистический Многомерный статистический контрольконтроль процессов процессов (MSPC)(MSPC)
• Цель: Научиться у самих себя принимать оптимальные решения в различных ситуациях.
• Средства: Сбор истории работы процесса, а также анализ накопленных данных.
• Результат: Снижении затрат при стабилизации качества.
MSPC – это математический анализ реальных истори-ческих данных, характеризующих опыт работы
MSPC – это один из методов анализа процессов (PAT)
Одномерная область контроля
Контроль с помощью Контроль с помощью SPCSPC
X1
X2
t
t
t
t
t
t
t
t
t
t
t
t
t
t
X2X1
Многомерная область контроля
Контроль с помощью Контроль с помощью MSPCMSPC
Ошибка моделирования(расстояние до модели)
Мера Т2 Хотеллинга(расстояние внутри модели)
X2X1
X3
Зачем в Зачем в MSPC MSPC нужна хемометрика? нужна хемометрика?
Потому, что все больше данных о процессах
получают с помощью современных, эффективных
приборов Макропеременные (температура, pH, давление, ... )
Спектроскопия (УФ, ИК, БИК, ...)
Хроматография (ЖХ, ГХ, ...)
Гибридные методы (ЖХ/МС, ЖХ/ЯМР, ...)
Видео образы и гиперспектры (2D, 3D)
Диагностика отказовДиагностика отказов
Real time diagnostics of technological processes and field equipment
Rusinov L.A, St. Petersburg Technological University, Russia
PAT & FDAPAT & FDA
Process Analytical Technology (PAT) =Технология (методы) анализа процессов
PAT = Статистический контроль процессов (MSPC) +
Хемометрика (Chemometrics)
FDA = U.S. Department of Health and Human Services Food and Drug Administration
Guidance for Industry PAT — A Framework for Innovative Pharmaceutical Development, Manufacturing, and Quality Assurance
Pharmaceutical CGMPs, September 2004
Контроль и оптимизацияКонтроль и оптимизация
Analytical Process Control and Optimization
Oxana Rodionova Institute of Chemical Physics, Moscow, Russia
Периодические (Периодические (batch) batch) процессыпроцессыПериодические процессы применяются при производ-стве лекарств, полимеров, пищевых продуктов, и т. п. Они характеризуются –
Конечной продолжительностью Кинетикой протекания Изменчивостью, как внутри, так и между циклами Частой сменой производимых продуктов
В непрерывных процессах важны только взаимоотно-шения между переменными, тогда как в периодических важно знать как переменные меняются во временименяются во времени. Поэтому здесь особенно важен контроль в реальном времени.
Сравнение двух типов процессовСравнение двух типов процессов
Непрерывный процесс Периодический процесс
t
X
t
X
batch 1 batch 2 batch 3
$t1 $t2 $t3
Концентрации
B
CA
0
0.2
0.4
0.6
0.8
1
0 2 4 6 8 10time
con
cen
trat
ion
s
Контроль в фармацевтикеКонтроль в фармацевтике
Макропараметры: температура, давление
t
t
Модель
Реакция идет при T= – 50оС
MSPC MSPC в фармацевтикев фармацевтикеРеактор
Спектры
Обратная связь
t
t
t
t
Макро
История процесса
MSPC Контроль
Текущий циклt
Проекционная модель
Рентгеновская кристаллография Рентгеновская кристаллография белковбелков
Two examples of chemometrics application in protein crystallography
Andrey Bogomolov,
European Molecular Biology Laboratory (EMBL), Hamburg, Germany
Многомерный анализ изображений Многомерный анализ изображений ((MIA)MIA)
по материалам Paul Geladi, Sweeden
Разложение изображения по каналамРазложение изображения по каналам
Red channel Blue channel
Green channel
Оцифровка изображенияОцифровка изображения
Применение МГК для анализаПрименение МГК для анализа
X PCA
Образ ГК1
Образ ГК2
Он же в пространстве ГК1 Исходный аэроснимок
Исследование состояния лесов (Канада)Исследование состояния лесов (Канада)
Область с высоким коэффициентом отражения
Область в тениНовые посадкиСтарые деревья
Анализ изображений и медицинаАнализ изображений и медицина
Using black and white models for classification of medical images
Sergei Kucheryavski, Altai State University, Barnaul, Russia
Хемометрика и экспертизаХемометрика и экспертиза
по материалам Оксаны Родионовой, Россия и Lars P. Houmøller, Denmark
Фальшивые таблеткиФальшивые таблетки
ИК Спектры таблетокИК Спектры таблеток
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
3800 4800 5800 6800 7800 8800 9800
cm-1
N1 N1Cut
N2 N2Cut
N2
N1
Прибор Bomem MB160 в диапазоне 3800 – 10000 cm-1 (ближний ИК спектр); 1609 значений.
N1 - таблетки от производителя –10 штук; N1Cut – образец N1 разрезанный
N2 - таблетки фальсифицированные – 10 штук; N2Cut – образец N2 разрезанный
PCA PCA полного спектраполного спектра
-0.2
-0.1
0.0
0.1
0.2
0.3
-0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6
PC1
PC2N1 N1Cut
N2 N2Cut
True
Fake
Отдельные участки спектраОтдельные участки спектра
0
0.04
0.08
0.12
0.16
0.2
5800 6000 6200 6400 6600 6800
cm-1
N1 N1Cut
N2 N2Cut
-0.15
-0.13
-0.11
-0.09
-0.07
-0.05
-0.03
-0.01
7000 7100 7200 7300 7400cm-1
N1 N1Cut
N2 N2Cut
Анализ «наихудшего» участка спектраАнализ «наихудшего» участка спектра
-0.04
-0.02
0.00
0.02
0.04
0.06
0.08
-0.10 -0.05 0.00 0.05 0.10
PC1
PC2 N1 N1Cut
N2 N2Cut
0.40
0.45
0.50
0.55
0.60
0.65
0.70
3800 3900 4000 4100 4200 4300
cm-1
N2
N1True
Fake
SIMCA SIMCA
0.000
0.005
0.010
0.015
0.020
0 10 20 30 40 50 60 70
Leverage, h
Dis
tan
ce to
mo
de
l, s
i
N2
N1Cut
0.000
0.001
0.002
0.003
0.004
0.005
0 20 40 60 80 100
Leverage, h
Dis
tan
ce to
mo
de
l, s
i
N2
N1Cut
Полный спектр (1609 точек) Участок спектра (130 точек)
Гипреспектры таблетокГипреспектры таблеток
Spectral Dimensions
MatrixNIR Hyperspectral Imaging Camera
Wavelength: 900 – 1700nm @ 10 nm intervals
Image size: 256 x 320 pixels
Гиперспектральный анализГиперспектральный анализ
Is Hypserspectral Imaging an Analytical Instrument?
Paul Geladi, SLU, Umeå, Sweden
Хемометрика и экологияХемометрика и экология
по материалам Pentti Minkkinen, Finland
Влияние ванадиевой пыли на людейВлияние ванадиевой пыли на людей
Испытательная группа 18 человек подверженных пыли V2O5 на фабрике
Контрольная группа 17 человек
Измерялись 26 клинических показателей плазмы крови
-5 0 5-5
-4
-3
-2
-1
0
1
2
3
4
5
VV
V
V
V
VV
V
V
V
V
V
V
V
VV
V
VCC
C
C
C
CC
C
C
C
CCC
C
C
C
C
ГК1 (29.9 %)
ГК
2 (1
7.5
%)
График ГКГрафик ГК
x11 x12 … … x1k
x21 x22 … … x2k
… … … …
… … … …
xi1 xi2 … … xik
xi+1,1 xi+1,2 … … xi+1,k
… … …
… … …
xn1 xn2 xnk
1 0
1 0
1 0
1 0
1 0
0 1
0 1
0 1
0 1
0 1
Матрица дескрипторов X
CLASS C
CLASS V
PLS-D PLS-D ДискриминацияДискриминация
PLS2
Матрица индикаторов Y
-5 -4 -3 -2 -1 0 1 2 3 4-3
-2
-1
0
1
2
3
V
VV
V
V
VV
VV
V
V
V
V
V
V
VV
V
CC
C
C
C
C
CC
C
CC
C
C
C
C
C
C
ГК1
ГК2
График ГК в График ГК в PLS-DPLS-D
Анализ экологического состояния Анализ экологического состояния Волжского бассейнаВолжского бассейна
The principle of «ecological matreshka (a set of nesting doll)» in the system of the analysis of multivariate ecological data
G.S. Rozenberg, Institute of ecology of the Volga river basin of the RAS, Togliatti, Russia
Реки КаталонииРеки Каталонии
Investigation of main contamination sources of heavy metal ions in fish, sediments and waters from catalonia rivers using different multiway data analysis methods
Roma Tauler
IIQAB-CSIC, Barcelona, Spain
Озеро Саимаа в ФинляндииОзеро Саимаа в Финляндии
Environmental Monitoring of Lake Saimaa, Finland
Satu-Pia Reinikainen, Lappeenranta University of Technology, Lappeenranta, Finland
Мониторинг состояния Мониторинг состояния окружающей средыокружающей среды
Chemometric methods for environmental pollution monitoring D.E Bykov, Samara State Technical University, Samara, Russia
ПробоотборПробоотбор
по материалам Pentti Minkkinen, Finland
Теория пробоотбораТеория пробоотбораПробоотбор• Искусство отделения малой части из большой массы и подготовки этой пробы к анализу
Лозунг дня• Результат анализа всегда хуже, чем проба, по которой он сделан• Проба должна быть представительной
Теория, соединяющая техническую и статистическую стороны была разработана Pierre Gy: Sampling for Analytical Purposes, Wiley, 1998и теперь развивается в работах Kim Esbensen & Pentti Minkkinen
Введение в теорию пробоотбораВведение в теорию пробоотбора
Representative sampling in PAT and environmental/geological work: Theory of Sampling (TOS) — a missing link
Kim H. Esbensen, Aalborg University, Esbjerg Institute of Technology, Denmark
Подробнее об ошибках пробоотбораПодробнее об ошибках пробоотбора
Weighting Error — the Often Neglected Component of the Sampling Errors
Pentti Minkkinen, Lappeenranta University of Technology, Lappeenranta, Finland
Четвертая парадигмаЧетвертая парадигма
Парадигма – концептуальная схема, используемая для постановки проблем и их решения, господствующая в научном сообществе в течение длительного исторического периода.
Энциклопедический словарь
по материалам Алексея Померанцев
Познать, значит нарисоватьПознать, значит нарисоватьV-III вв до н.э.
Познать, значит посчитатьПознать, значит посчитатьX-XV н.э.
Познать, значит составить и решить Познать, значит составить и решить дифференциальное уравнениедифференциальное уравнение
XVII в. –н.в.
2H2H22+O+O22 2H 2H22OO
Познать, значит собрать и Познать, значит собрать и проанализировать данныепроанализировать данные