17/04/2017 - uspnequimed.iqsc.usp.br/files/2015/03/a1intro.pdf · artificial neural networks (data...

10
17/04/2017 1 Carlos Montanari Grupo de Química Medicinal NEQUIMED/IQSC/USP Departamento de Química e Física Molecular Instituto de Química de São Carlos email: [email protected] http://www.nequimed.iqsc.usp.br/ Carlos Montanari IQSC, 1.2017 Bibliografia 1. Chemometrics : A Practical Guide (Wiley-Interscience Series on Laboratory Automation) by Kenneth R. Beebe, Randy J. Pell, Mary Beth Seasholtz “Wiley-Interscience (March 20, 1998) 2. Chemometrics : Data Analysis for the Laboratory and Chemical Plant by Richard G. Brereton (John Wiley & Sons, April 4, 2003) 3. Nature-inspired methods in chemometrics: genetic algorithms and artificial neural networks (Data Handling in Science and Technology) by Riccardo Leardi. Elsevier Science (December 3, 2003) 4. Multi- and Megavariate Data Analysis: Principles and Applications by L. Eriksson, E. Johansson, N. Kettaneh-Wold, and S. Wold (2001) 5. Chemometric Techniques for Quantitative Analysis by Richard Kramer. Marcel Dekker (June 1, 1998)

Upload: others

Post on 22-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

  • 17/04/2017

    1

    Carlos MontanariGrupo de Química Medicinal

    NEQUIMED/IQSC/USPDepartamento de Química e Física Molecular

    Instituto de Química de São Carlosemail: [email protected]

    http://www.nequimed.iqsc.usp.br/

    Carlos MontanariIQSC, 1.2017

    Bibliografia

    1. Chemometrics : A Practical Guide (Wiley-Interscience Series on

    Laboratory Automation) by Kenneth R. Beebe, Randy J. Pell,

    Mary Beth Seasholtz “Wiley-Interscience (March 20, 1998)

    2. Chemometrics : Data Analysis for the Laboratory and Chemical Plant

    by Richard G. Brereton (John Wiley & Sons, April 4, 2003)

    3. Nature-inspired methods in chemometrics: genetic algorithms and

    artificial neural networks (Data Handling in Science and Technology)

    by Riccardo Leardi. Elsevier Science (December 3, 2003)

    4. Multi- and Megavariate Data Analysis: Principles and Applications

    by L. Eriksson, E. Johansson, N. Kettaneh-Wold, and S. Wold (2001)

    5. Chemometric Techniques for Quantitative Analysis

    by Richard Kramer. Marcel Dekker (June 1, 1998)

  • 17/04/2017

    2

    Conteúdo

    1. Mineração de dados

    2. Estudo de casos

    3. Produção e análise de dados

    4. Construção de modelos

    4.1Regressão, classificação, híbridos

    5. Experimentos

    6. Validação e interpretação

    Definições?Não tem uma definição universal!

    1 "Chemometrics is the use of mathematical and statistical methods for handling, interpreting, and predicting chemical data."

    Malinowski, E.R.. (1991) Factor Analysis in Chemistry, Second Edition, page 1.

    2 "The entire process whereby data (e.g., numbers in a table) are transformed into information used for decision making."

    Beebe, K. R., Pell, R. J., and M. B. Seasholtz. (1998) Chemometrics: A Practical Guide, page 1.

    3 "Chemometrics is a chemical discipline that uses mathematics, statistics and formal logic

    (a) to design or select optimal experimental procedures; (b) to provide maximum relevant chemical information by analyzing

    chemical data; and (c) to obtain knowledge about chemical systems."

    4 Massart, D.L., et al.. (1997) Data Handling in Science and Technology 20A: Handbook of Chemometrics and Qualimetrics Part A, page 1.

    Quimiometria e Laboratórios Inteligentes

    1.Ensaio (processos analíticos em tecnologia)2.Qualidade por planejamento

    1.Programas acadêmicos e industriais3.Economia de custo e tempo4.Modelagem quantitativa

    1.Quão efetivo é o processo de validação5.Otimização

  • 17/04/2017

    3

    Tendência comportamental

    TécnicasNão há uma técnica. Use várias em várias etapas!

    Quimiometria não é estatística!

    1. Pré-processamento

    2. Seleção de variáveis

    3. Análise de componentes principais (PCA)

    4. Análise de agrupamentos (HCA)

    5. Método do vizinho mais próximo (KNN)

    6. Similaridade química por analogia (SIMCA)

    7. Análise de regressão multivariada (MRA)

    8. Análise dos mínimos quadrados parciais (PLS)

    9. PCA-SIMCA

    Modelos

    1 Procedimento guiado por teoria1.1 Sistemas complexos mal definidos

    1.1.1. Conhecimento prévio insuficiente1.1.2. Informação prévia incerta sobre a estrutura do

    modelo1.1.3. Conhecimento insuficiente sobre os fatores de

    interferência

    2. Procedimento guiado por dados2.1. Falta de conhecimento prévio sobre a

    estrutura do modelo matemático

  • 17/04/2017

    4

    Problemas em predição

    1. Grande coleção de dados

    1.1. Mais variáveis do que objetos

    1.1.1. Problema: dimensionalidade

    2. Capacidade preditiva do modelo ruim

    3. Resultado: extração irrelevante de conhecimento

    Quimiometria

    1. Análise de dados:

    1.1. Extração de informação dos dados químicos

    2. Planejamento experimental:

    2.1. Conteúdo de informação dos dados

    3. Modelagem:

    3.1. Investigação das relações complicadas

    4. Obtenção de dados multivariados a partir de experimentos

    X Y C

    Variáveis Classe

    1, 2, 3, ..., p 1, 2, 3, ..., r 1

    Classes

  • 17/04/2017

    5

    Estratégias quimiométricas

    Dados Exploração de dados

    OtimizaçãoRegressãoClassificação

    Análise de agrupamentos

    Experimentos

    Planejamento experimental

    Problema Objetivo

    s

    Hipótese

    s

    Modelo qualitativo Modelo quantitativo Modelo empírico

    Medicinal Chemistry and Drug Discovery

    SAR/SPR/STR

    Data banks, Combinatorial

    chemistryNatural products

    Discovery,

    identification,

    validation

    Virtual and

    Realcollections

    In silico models(affinity/potency/ADME)Synthetic viability

    Pharmacological screening, HTS

    Cheminformatics

    DrugLigandsBiological

    Target Lead

    Discovery andDevelopment

    Identification and optimization

    Clinical phases

    Approval

    Molecular biology

    Bioinformatics

    Pre-clinical studies

    (Montanari et al. Burger's Medicinal Chemistry, Drug Discovery and Development. 7th Ed. 2010)

    Localização do modelo

    1D

    2D

    3D

    Coligativas

    Estereodinâmica

    Estereoeletrônica

    InteraçãoLigante-receptor

  • 17/04/2017

    6

    Nova entidade química (NCE)

    Mr < 500; H, C, N, O, P, S, F, Cl, Br

    = 1062-64

    Problema numeral

    Problema numeral...

    Chemical Abstract >> 80.106

    WDI > 90.103

    1448 fármacos, 131 biofármacos e 85 nutracêuticos em uso terapêutico.+ 5080 fármacos experimentais

    vs

  • 17/04/2017

    7

    Quantificação da diversidade química

    1. Responder às perguntas:

    1. (i) Quanta diversidade está perdida

    1. (ii) Quanta diversidade é necessária

    2. Respostas:

    2.(i) Calcular e medir propriedades:

    Índices topológicos

    Grupos funcionais

    Lipofilia, etc.

    2.(ii) Análise estatística multivariada

    Quantificação

    Quantificação...1. Por exemplo: Extremos de uma

    coleção de hexapeptídeos

    1.1. 64 milhões de possibilidades!

    1.1.1. Ac-Phe-Phe-Phe-Phe-Phe-Phe-NH2.

    CLOG P= 5,5

    1.1.2. Ac-Arg-Arg-Arg-Arg-Arg-Arg-NH2.

    CLOG P = -13

    Carregado: CLOG D = -37

  • 17/04/2017

    8

    Problema de representação

    1.CNS

    1.1. Pequena distribuição!

    1.2. Diversidade química redundante!

    2. Então,

    2.1. REPRESENTAÇÃO.

    Planejar série dentro do SSS

    CLOG P

    Número de Ocorrências

    0-1 1-2 2-3 3-4 4-5 5-6

    1. Quantos grupos podem/devem ser usados

    X possibilidades = X4 combinações

    2. Quais grupos?

    3. Todas as combinações são necessárias?

    “Grupos-de-construção” dentro do SSS?

    SÍNTESE COMBINATÓRIA

    2. X = 166 subs.3. Síntese de 7,6.108

    moléculas

    1. X = 13 28.561!(X2 = 5 25)

    N

    N

    R2

    OR4

    R3

    R1

    O que são elemento estrutural e descritor físico-químico?Qual é a relação com a

    propriedade e atividade?

    Propriedade Estrutura

    Atividade

    Atividade Propriedade

    Estrutura

  • 17/04/2017

    9

    Propriedade Estrutura

    Atividade

    Diagrama de Venn

    Química do nosso século!

    1. Quantos substâncias químicas existem? E, quais?

    2. Chemical Abstract

    – 11.000 substâncias/dia!

    – 2.500 documentos/dia!

    3. O problema não é somente obter informações, mas como

    organizá-las!

    Como solucionar?

    Quimiometria

    Quimiometria sem equações (ou quase nenhuma) é designado para aqueles que desejam explorar o poder das ferramentas quimiométricas, mas são desencorajados pelo alto nível da matemática encontrados em muitos livros e manuais de software.

    A ênfase da disciplina está na correta aplicação e interpretação de métodos quimiométricos para solucionar os problemas da vida real do químico.

    O objetivo é ensinar da forma mais simples possível, para que os(as) alunos(as) tornem-se bons praticantes e gerentes em quimiometria.

  • 17/04/2017

    10

    Arieh Warshel, Prêmio Nobel de Química 2013