17/04/2017 - uspnequimed.iqsc.usp.br/files/2015/03/a1intro.pdf · artificial neural networks (data...
TRANSCRIPT
-
17/04/2017
1
Carlos MontanariGrupo de Química Medicinal
NEQUIMED/IQSC/USPDepartamento de Química e Física Molecular
Instituto de Química de São Carlosemail: [email protected]
http://www.nequimed.iqsc.usp.br/
Carlos MontanariIQSC, 1.2017
Bibliografia
1. Chemometrics : A Practical Guide (Wiley-Interscience Series on
Laboratory Automation) by Kenneth R. Beebe, Randy J. Pell,
Mary Beth Seasholtz “Wiley-Interscience (March 20, 1998)
2. Chemometrics : Data Analysis for the Laboratory and Chemical Plant
by Richard G. Brereton (John Wiley & Sons, April 4, 2003)
3. Nature-inspired methods in chemometrics: genetic algorithms and
artificial neural networks (Data Handling in Science and Technology)
by Riccardo Leardi. Elsevier Science (December 3, 2003)
4. Multi- and Megavariate Data Analysis: Principles and Applications
by L. Eriksson, E. Johansson, N. Kettaneh-Wold, and S. Wold (2001)
5. Chemometric Techniques for Quantitative Analysis
by Richard Kramer. Marcel Dekker (June 1, 1998)
-
17/04/2017
2
Conteúdo
1. Mineração de dados
2. Estudo de casos
3. Produção e análise de dados
4. Construção de modelos
4.1Regressão, classificação, híbridos
5. Experimentos
6. Validação e interpretação
Definições?Não tem uma definição universal!
1 "Chemometrics is the use of mathematical and statistical methods for handling, interpreting, and predicting chemical data."
Malinowski, E.R.. (1991) Factor Analysis in Chemistry, Second Edition, page 1.
2 "The entire process whereby data (e.g., numbers in a table) are transformed into information used for decision making."
Beebe, K. R., Pell, R. J., and M. B. Seasholtz. (1998) Chemometrics: A Practical Guide, page 1.
3 "Chemometrics is a chemical discipline that uses mathematics, statistics and formal logic
(a) to design or select optimal experimental procedures; (b) to provide maximum relevant chemical information by analyzing
chemical data; and (c) to obtain knowledge about chemical systems."
4 Massart, D.L., et al.. (1997) Data Handling in Science and Technology 20A: Handbook of Chemometrics and Qualimetrics Part A, page 1.
Quimiometria e Laboratórios Inteligentes
1.Ensaio (processos analíticos em tecnologia)2.Qualidade por planejamento
1.Programas acadêmicos e industriais3.Economia de custo e tempo4.Modelagem quantitativa
1.Quão efetivo é o processo de validação5.Otimização
-
17/04/2017
3
Tendência comportamental
TécnicasNão há uma técnica. Use várias em várias etapas!
Quimiometria não é estatística!
1. Pré-processamento
2. Seleção de variáveis
3. Análise de componentes principais (PCA)
4. Análise de agrupamentos (HCA)
5. Método do vizinho mais próximo (KNN)
6. Similaridade química por analogia (SIMCA)
7. Análise de regressão multivariada (MRA)
8. Análise dos mínimos quadrados parciais (PLS)
9. PCA-SIMCA
Modelos
1 Procedimento guiado por teoria1.1 Sistemas complexos mal definidos
1.1.1. Conhecimento prévio insuficiente1.1.2. Informação prévia incerta sobre a estrutura do
modelo1.1.3. Conhecimento insuficiente sobre os fatores de
interferência
2. Procedimento guiado por dados2.1. Falta de conhecimento prévio sobre a
estrutura do modelo matemático
-
17/04/2017
4
Problemas em predição
1. Grande coleção de dados
1.1. Mais variáveis do que objetos
1.1.1. Problema: dimensionalidade
2. Capacidade preditiva do modelo ruim
3. Resultado: extração irrelevante de conhecimento
Quimiometria
1. Análise de dados:
1.1. Extração de informação dos dados químicos
2. Planejamento experimental:
2.1. Conteúdo de informação dos dados
3. Modelagem:
3.1. Investigação das relações complicadas
4. Obtenção de dados multivariados a partir de experimentos
X Y C
Variáveis Classe
1, 2, 3, ..., p 1, 2, 3, ..., r 1
Classes
-
17/04/2017
5
Estratégias quimiométricas
Dados Exploração de dados
OtimizaçãoRegressãoClassificação
Análise de agrupamentos
Experimentos
Planejamento experimental
Problema Objetivo
s
Hipótese
s
Modelo qualitativo Modelo quantitativo Modelo empírico
Medicinal Chemistry and Drug Discovery
SAR/SPR/STR
Data banks, Combinatorial
chemistryNatural products
Discovery,
identification,
validation
Virtual and
Realcollections
In silico models(affinity/potency/ADME)Synthetic viability
Pharmacological screening, HTS
Cheminformatics
DrugLigandsBiological
Target Lead
Discovery andDevelopment
Identification and optimization
Clinical phases
Approval
Molecular biology
Bioinformatics
Pre-clinical studies
(Montanari et al. Burger's Medicinal Chemistry, Drug Discovery and Development. 7th Ed. 2010)
Localização do modelo
1D
2D
3D
Coligativas
Estereodinâmica
Estereoeletrônica
InteraçãoLigante-receptor
-
17/04/2017
6
Nova entidade química (NCE)
Mr < 500; H, C, N, O, P, S, F, Cl, Br
= 1062-64
Problema numeral
Problema numeral...
Chemical Abstract >> 80.106
WDI > 90.103
1448 fármacos, 131 biofármacos e 85 nutracêuticos em uso terapêutico.+ 5080 fármacos experimentais
vs
-
17/04/2017
7
Quantificação da diversidade química
1. Responder às perguntas:
1. (i) Quanta diversidade está perdida
1. (ii) Quanta diversidade é necessária
2. Respostas:
2.(i) Calcular e medir propriedades:
Índices topológicos
Grupos funcionais
Lipofilia, etc.
2.(ii) Análise estatística multivariada
Quantificação
Quantificação...1. Por exemplo: Extremos de uma
coleção de hexapeptídeos
1.1. 64 milhões de possibilidades!
1.1.1. Ac-Phe-Phe-Phe-Phe-Phe-Phe-NH2.
CLOG P= 5,5
1.1.2. Ac-Arg-Arg-Arg-Arg-Arg-Arg-NH2.
CLOG P = -13
Carregado: CLOG D = -37
-
17/04/2017
8
Problema de representação
1.CNS
1.1. Pequena distribuição!
1.2. Diversidade química redundante!
2. Então,
2.1. REPRESENTAÇÃO.
Planejar série dentro do SSS
CLOG P
Número de Ocorrências
0-1 1-2 2-3 3-4 4-5 5-6
1. Quantos grupos podem/devem ser usados
X possibilidades = X4 combinações
2. Quais grupos?
3. Todas as combinações são necessárias?
“Grupos-de-construção” dentro do SSS?
SÍNTESE COMBINATÓRIA
2. X = 166 subs.3. Síntese de 7,6.108
moléculas
1. X = 13 28.561!(X2 = 5 25)
N
N
R2
OR4
R3
R1
O que são elemento estrutural e descritor físico-químico?Qual é a relação com a
propriedade e atividade?
Propriedade Estrutura
Atividade
Atividade Propriedade
Estrutura
-
17/04/2017
9
Propriedade Estrutura
Atividade
Diagrama de Venn
Química do nosso século!
1. Quantos substâncias químicas existem? E, quais?
2. Chemical Abstract
– 11.000 substâncias/dia!
– 2.500 documentos/dia!
3. O problema não é somente obter informações, mas como
organizá-las!
Como solucionar?
Quimiometria
Quimiometria sem equações (ou quase nenhuma) é designado para aqueles que desejam explorar o poder das ferramentas quimiométricas, mas são desencorajados pelo alto nível da matemática encontrados em muitos livros e manuais de software.
A ênfase da disciplina está na correta aplicação e interpretação de métodos quimiométricos para solucionar os problemas da vida real do químico.
O objetivo é ensinar da forma mais simples possível, para que os(as) alunos(as) tornem-se bons praticantes e gerentes em quimiometria.
-
17/04/2017
10
Arieh Warshel, Prêmio Nobel de Química 2013