filipe santana da silva - ufpe

FILIPE SANTANA DA SILVA

INTERPRETAÇÃO ONTOLÓGICA DE BANCOS DE DADOS BIOMÉDICOS:

MODELOS DE INTERPRETAÇÃO E ENRIQUECIMENTO AXIOMÁTICO

Tese de doutorado

Universidade Federal de [email protected]

www.cin.ufpe.br/˜posgraduacao

Recife

2016

Filipe Santana da Silva

“INTERPRETAÇÃO ONTOLÓGICA DE BANCOS DE DADOS BIOMÉDICOS: MODELOSDE INTERPRETAÇÃO E ENRIQUECIMENTO AXIOMÁTICO”

Tese apresentada ao Programa de Pós-graduaçãoem Ciência da Computação da Universidade Fe-deral de Pernambuco, como requisito parcialpara obtenção do título de Doutor em Ciênciada Computação.

Orientador: Frederico Luiz Gonçalves de FreitasCoorientador: Stefan P. Schulz

Recife

2016

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217

S586i Silva, Filipe Santana da

Interpretação ontológica de bancos de dados biomédicos: modelos de interpretação e enriquecimento axiomático / Filipe Santana da Silva. – 2016.

255 f.: il., fig., tab. Orientador: Frederico Luiz Gonçalves de Freitas. Tese (Doutorado) – Universidade Federal de Pernambuco. CIn, Ciência da

Computação, Recife, 2016. Inclui referências e apêndices.

1. Banco de dados. 2. Ontologia. I. Freitas, Frederico Luiz Gonçalves de (orientador). II. Título. 025.04 CDD (23. ed.) UFPE- MEI 2016-147

Filipe Santana da Silva

Interpretação ontológica de bancos de dados biomédicos: modelos de interpretação eenriquecimento axiomático

Tese apresentada ao Programa de Pós-graduaçãoem Ciência da Computação da Universidade Fe-deral de Pernambuco, como requisito parcialpara obtenção do título de Doutor em Ciênciada Computação.

Aprovado em: 18/07/2016.

Prof. Frederico Luiz Gonçalves de FreitasOrientador do trabalho de Tese

Profa. Bernadete Farias LóscioCentro de Informática/UFPE

Profa. Rosalie Barreto BelianDepartamento de Medicina Clínica/UFPE

Profa. Laís do Nascimento SalvadorDepartamento de Ciência da Computação/UFBA

Prof. Evandro de Barros CostaInstituto de Computação/UFAL

Profa. Renata WassermannInstituto de Matemática e Estatística/USP

Este trabalho é dedicada à família que construí e a que faço parte.

Agradecimentos

Para o desenvolvimento desta tese, houveram contribuições substanciais de pessoas einstituições. Sem eles, este trabalho não teria sido construído e, por conta disso, sempre sereigrato.

Assim, gostaria de agradecer:

• À minha esposa, Eliane Leal, pela paciência, palavras de carinho e companheirismo emtodos os momentos do doutorado;

• À minha irmã, Mariana Santana da Silva, pelo apoio;

• Ao Silvio Santana (meu pai) por ter me proporcionado a base para meus estudos;

• Aos meus orientadores, Fred Freitas e Stefan Schulz. Além de serem figuras presentes noprocesso de estudo, considero amigos além da Universidade;

• Aos parceiros de pesquisa Adriel Café, Plácido Segundo e Antonio Eudes. Os três trouxeramcontribuições para o desenvolvimento desta tese;

• Aos membros da banca de qualificação, i.e. as professoras Rosalie Belian, Lais Salvador,Renata Wassermann e (principalmente) Bernadette Farias. Por elas me foi concedido umvoto de confiança para desenvolver esta tese;

• Às agências de fomento Conselho Nacional de Desenvolvimento Científico e Tecnológico(CNPq) e ao Conselho Nacional de Aperfeiçoamento de Nível Superior (CAPES) por meconceder o fomento necessário para o desenvolvimento deste trabalho, dentro e fora dopaís;

• À a Profa. Andrea Berghold (Institut für Medzinische Informatik, Statistik und Doku-mentation da Medzinische Universität Graz), fornecendo o meio para meus estudos emGraz;

• Aos amigos Jose A. Miñarro-Giménez e a Catalina Martinez-Costa (além da pequenaAlicia), o Pablo López-Garcia (e a Gudrun), o Markus Kreuzthaler (e Carine), MarcusBloice e Vendula Švendová, Sireina Herzog (e Gernot), e (não menos) Michel Oleynik eThisby Khoury. Ajudaram consideravelmente durante minha estadia em Graz, tambémcom contribuição no desenvolvimento deste trabalho;

• E, (in Memoriam) a minha querida mãe, Lucienne Mary; e, ao pequeno Miguel. Ambosforam a luz que ajudaram a guiar durante todo o período.

“If we knew what we were doing,we wouldn’t need research.”

(John Whelan – Yearbook of Procurement Articles, 1977)

ResumoCom o crescimento em quantidade e dimensão dos bancos de dados (BDs) biomédicos, onto-logias foram incorporadas para anotá-los semanticamente, facilitando a interpretação, acesso,recuperação e processamento dos dados. Entretanto, como ontologias e BDs são criados compropósitos diferentes, não é possível interpretar registros de BDs de forma clara e definida.

Ontologias supradomínio podem ser empregadas para fornecer classes e relações, de maneira queo conteúdo de BDs anotados seja representado e interpretado adequadamente. A representaçãodas anotações evita ambiguidades, mantendo o engajamento ontológico e permitindo consultaros dados utilizando raciocínio.

Nossa hipótese é de que é possível interpretar ontologicamente o conteúdo de um ou mais BDsanotados, determinando como as entidades anotadas dos BDs se relacionam. O objetivo destetrabalho é avaliar e propor estratégias que auxiliem o usuário no processo de interpretaçãoontológica de registros de BDs biomédicos como indivíduos, classes e disposições, a partir deontologias formais. A interpretação ontológica é construída ao empregar classes e relações daBioTopLite2 (BTL2), organizando e estendendo ontologias utilizadas como anotação, e.g. GO,ChEBI, SNOMED e PRO; provenientes dos BDs UniProt, Ensembl e NCBI Taxonomy.

São investigadas quatro formas de interpretação, viz. quando as anotações são: indivíduos, sub-classes, incluem disposições, e um híbrido entre subclasses e disposições. A interpretação comosubclasses é a mais indicada ao comparar questões de desempenho, expressividade e capaci-dade de consultar, utilizando raciocínio e integração semântica. Demonstramos que esse tipo deinterpretação é aplicável na prática, apresentando bom desempenho para consultas utilizandoraciocínio.

Foi desenvolvido um protótipo integrativO CBR para automatizar a interpretação ontológicacomo subclasses. A ferramenta é responsável por reconstruir o processo de interpretação ontoló-gica, recuperando indivíduos, identificando classes e gerando uma ontologia como modelo deinterpretação.

A interpretação ontológica de anotações apresenta benefícios: verificar a consistência do BD,e.g. se existem anotações contraditórias; representação formal e ontológica da organização dosdados; a análise do engajamento ontológico dos dados anotados; e, a criação de consultas queutilizam raciocínio para explorar os dados interpretados.

Palavras-chave: Ontologia. Interpretação. Banco de Dados Biológicos. Anotação. Representa-ção.

AbstractWith the growth of data bases (DBs) in number and size, ontologies have been incorporated toannotate DBs semantically, facilitating the record interpretation, access, retrieval and methodsfor querying data. However, as ontologies and DBs are designed with different purposes, it is notpossible to interpret DB annotated DB records in a clear and defined way.

Upper-domain ontologies can be used as provider of classes and relations whether the annotatedcontent of annotated entities from DBs are adequately interpreted and represented. The represen-tation ensure that ambiguities are avoided by keeping the ontological commitment and allowingqueries supported by reasoning.

Our hypothesis is that it is possible to interpret ontologically annotated content from one or moreDBs, determining how annotated entities relate to each other. The aim of this work is to evaluateand propose strategies to assist the user in the ontological interpretation process of BiologicalDBs as individuals, classes and dispositions. The ontological interpretation of Biological DBsis created by reusing classes and relations from BTL2, organizing and extending ontologiesused to annotate data, e.g. GO, ChEBI, SNOMED and PRO; from UniProt, Ensembl and NCBITaxonomy DBs.

Four ways of interpreting annotated data are investigated, viz. as ontology individuals; subclasses;dispositions; and, a hybrid among classes and dispositions. Interpretation as subclasses wasidentified as the appropriate choice when considering: reasoning performance; expressiveness;and, querying with reasoning and ontology-based data integration approaches are taken intoaccount. It has been shown that this type of interpretation is useful in practice, with a goodperformance for (both) reasoning and querying.

A prototype called integrativO CBR was created in order to automate interpretation as subclasses.This tool is responsible for recreating the process of applying the ontological interpretation,enabling the retrieval of individuals from data, referent classes identification, and generation ofan interpretation model.

The ontological interpretation of annotations has several benefits, such as: DB consistencyevaluation for conflicting annotations; formal and ontological representation of how data isorganized; verifying the ontological commitment of annotated data; and, the ability to createqueries to explore reasoning.

Keywords:Ontology. Interpretation. Biological Database. Annotation. Representation.

Lista de ilustrações

Figura 1 – Exemplificação do funcionamento do protótipo. . . . . . . . . . . . . . . . 32Figura 2 – Organização do Trabalho relacionando as seções com os objetivos específicos

delineados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36Figura 3 – Exemplo de ontologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39Figura 4 – Interpretação formal da figura 3 a partir da leitura das relações entre os

indivíduos descritos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40Figura 5 – Hierarquia de ontologias, segundo Guarino (45). . . . . . . . . . . . . . . . 42Figura 6 – Hierarquia de Bibliotecas de Ontologias (25). . . . . . . . . . . . . . . . . 42Figura 7 – Exemplo de ontologia incluindo classes, indivíduos e axioma. . . . . . . . . 44Figura 8 – Exemplo de rede semântica. . . . . . . . . . . . . . . . . . . . . . . . . . . 45Figura 9 – Exemplo de representação em Frames. Baseado em 59. . . . . . . . . . . . 45Figura 10 – Exemplo de arquitetura de base de conhecimento para um sistema que utiliza

DL (9). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47Figura 11 – A estrutura da OWL2. Traduzido a partir de (61). . . . . . . . . . . . . . . 53Figura 12 – Hierarquia de classes da BTL2. . . . . . . . . . . . . . . . . . . . . . . . . 58Figura 13 – Relações na BTL2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59Figura 14 – Subontologias da GO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60Figura 15 – Hierarquia da SNOMED CT (7). . . . . . . . . . . . . . . . . . . . . . . . 64Figura 16 – Exemplo em que há a indefinição sobre possíveis associações entre as entida-

des registradas no BD pelo usuário. . . . . . . . . . . . . . . . . . . . . . . 76Figura 17 – Exemplo em que há a definição sobre possíveis associações entre as entidades

registradas no BD pelo usuário. . . . . . . . . . . . . . . . . . . . . . . . . 76Figura 18 – Exemplo de registro de banco de dados e a representação informal das entidades. 81Figura 19 – Exemplo de interpretação de um registro do UniProt. . . . . . . . . . . . . 84Figura 20 – Exemplo de interpretação por subclasses. . . . . . . . . . . . . . . . . . . . 87Figura 21 – Combinações de O, Pr e Bp1 para a geração de subclasses. . . . . . . . . . 88Figura 22 – Metabolismo do Homocysteine (Hcy). . . . . . . . . . . . . . . . . . . . . 91Figura 23 – Alinhamento da GO, ChEBI, SNOMED CT e PR sob a BTL2. . . . . . . . 94Figura 24 – Indefinição da relação a ser utilizada entre as classes ‘Homo sapiens’ e ‘protein

methylation’, referenciadas nos dados da tabela 24. . . . . . . . . . . . . . . 94Figura 25 – Indecisão sobre a representação de uma anotação como indivíduo ou em

termos das classes referenciadas. . . . . . . . . . . . . . . . . . . . . . . . 95Figura 26 – Exemplo de tupla de um registro com campos anotados, com classes da GO e

PRO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97Figura 27 – Interpretação sobre a associação entre indivíduos dos bancos de dados. . . . 98

Figura 28 – Interpretação de registros com processos, moléculas de baixo peso molecular,organismo e fenótipos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

Figura 29 – Relação entre proteína, processo biológico e organismo individual. . . . . . 99Figura 30 – Relação entre proteína, organismo, fenótipo e disposição individual. . . . . 100Figura 31 – Interpretação de campos dos bancos de dados como classes genéricas, e das

anotações (dados) como subclasses dos tipos definidos nos campos. . . . . . 101Figura 32 – Combinações de O, Pr e Bp1 para geração de subclasses. . . . . . . . . . . 102Figura 33 – Proteína disfuncional em organismos. . . . . . . . . . . . . . . . . . . . . . 103Figura 34 – Subespecialização de proteína disfuncional em organismo com um fenótipo

definido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104Figura 35 – Subclasse de organismo com fenótipo e proteína disfuncional. . . . . . . . . 104Figura 36 – Axiomas de subclasse sobre moléculas e as relações com organismos e proteínas.105Figura 37 – Subcategorização de processos biológicos associados a proteínas e organismos.105Figura 38 – Exemplo de tupla de um registro com campos anotados com classes da GO e

PRO representado a partir de disposições. . . . . . . . . . . . . . . . . . . 107Figura 39 – Representação esquemática do GCI descrito na tabela 39. . . . . . . . . . . 109Figura 40 – Representação gráfica do GCI da tabela 40. . . . . . . . . . . . . . . . . . . 110Figura 41 – Seleção de Dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123Figura 42 – Modelo conceitual (diagrama entidade-relacionamento) (142) das entidades

recuperadas do UniProt e Ensembl. . . . . . . . . . . . . . . . . . . . . . . 125Figura 43 – Exemplo sobre a modularização de uma ontologia qualquer A em uma onto-

logia A’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126Figura 44 – Alinhamento da GO, ChEBI, SNOMED CT e PR sob a BTL2. . . . . . . . 126Figura 45 – Processo genérico da aplicação da estratégia de interpretação ontológica de

BDs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128Figura 46 – Representação visual do axioma Bp_P_O. . . . . . . . . . . . . . . . . . . 133Figura 47 – Representação visual do axioma P_O . . . . . . . . . . . . . . . . . . . . . 134Figura 48 – Representação visual do axioma P_O_C. . . . . . . . . . . . . . . . . . . . 134Figura 49 – Representação visual dos axiomas P_O_Bp e P_O_Mf . . . . . . . . . . . 135Figura 50 – Representação visual do axioma P_O_M . . . . . . . . . . . . . . . . . . . 135Figura 51 – Representação visual do axioma P_Dysfunctional. . . . . . . . . . . . . . . 136Figura 52 – Representação visual do axioma P_Dysfunctional_O_Ph . . . . . . . . . . 136Figura 53 – Representação visual do axioma M_O . . . . . . . . . . . . . . . . . . . . 137Figura 54 – Representação visual do axioma M_O_P . . . . . . . . . . . . . . . . . . . 137Figura 55 – Representação visual do axioma O_P . . . . . . . . . . . . . . . . . . . . . 137Figura 56 – Representação visual dos axiomas O_P_Bp e O_P_Mf . . . . . . . . . . . 138Figura 57 – Representação visual do axioma O_P_M . . . . . . . . . . . . . . . . . . . 139Figura 58 – Representação visual do axioma O_P_dysfunctional . . . . . . . . . . . . . 139Figura 59 – Representação visual do axioma O_C . . . . . . . . . . . . . . . . . . . . . 139

Figura 60 – Representação visual do axioma Mf_O_P . . . . . . . . . . . . . . . . . . . 140Figura 61 – Representação visual do axioma Ph_O_P_dysfunctional . . . . . . . . . . . 140Figura 62 – Estrutura de importação dos módulos da GO, PRO, SNOMED CT, ChEBI e

a interpretação Ontológica sob a BTL2. . . . . . . . . . . . . . . . . . . . . 141Figura 63 – Processo de RBC, por AAMODT (150). . . . . . . . . . . . . . . . . . . . 153Figura 64 – Ciclo de RBC-CI do integrativO CBR. . . . . . . . . . . . . . . . . . . . . 155Figura 65 – Arquitetura do Gryphon Framework (152). . . . . . . . . . . . . . . . . . . 158Figura 66 – Componentes da arquitetura de integração semântica (152). . . . . . . . . . 159Figura 67 – Fluxo do Gryphon Framework (152). . . . . . . . . . . . . . . . . . . . . . 160Figura 68 – Etapas para realizar uma integração com o Gryphon Framework (152). . . . 161Figura 69 – Exemplo de listagem de resultados representativos para a consulta 6.2. . . . 164Figura 70 – Arquitetura do integrativO CBR . . . . . . . . . . . . . . . . . . . . . . . 166Figura 71 – Fatores que afetam a integração semântica (184). . . . . . . . . . . . . . . . 216Figura 72 – Abordagens para integração: a) GAV, b) LAV e c) GLAV (187). . . . . . . . 218Figura 73 – Representação de um alinhamento entre duas classes de ontologias distintas. 220Figura 74 – Representação de um mapeamento entre uma coluna de um banco de dados e

uma propriedade de uma ontologia. . . . . . . . . . . . . . . . . . . . . . . 220Figura 75 – Resumo esquemático de uma aplicação que utiliza uma base de problemas e

uma base de soluções para resolver problemas apresentados pelo usuário. . . 225Figura 76 – Processo de RBC, por 150. . . . . . . . . . . . . . . . . . . . . . . . . . . 226Figura 77 – Classificação de métodos de Raciocínio Baseado em Casos por natureza da

aplicação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239Figura 78 – Arquitetura JCOLIBRI2 (20, 237). . . . . . . . . . . . . . . . . . . . . . . 241Figura 79 – Parser em Java SPARQL—OWL2. . . . . . . . . . . . . . . . . . . . . . . 248Figura 80 – Configuração Gryphon para o integrativO CBR. . . . . . . . . . . . . . . . 248Figura 81 – Requisição para aplicação de consulta e disponibilização dos resultados no

formato JSON. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249Figura 82 – Interface padrão do jCOLIBRI2 para aplicações CBR. . . . . . . . . . . . . 249Figura 83 – Método de Similaridade MaxString ( ). . . . . . . . . . . . . . . . . . . . . 250Figura 84 – Avaliação da similaridade pelo método de k-NN, recuperado a partir do

Gryphon Framework. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250Figura 85 – Recuperação de resultados similares. . . . . . . . . . . . . . . . . . . . . . 251

Lista de tabelas

Tabela 1 – Extrado de algumas anotações provenientes da GO disponíveis no UniProtKB (#P01308) para a Insulina Humana. . . . . . . . . . . . . . . . . . . . 26

Tabela 2 – Axioma escrito com AL no nível de Tbox. . . . . . . . . . . . . . . . . . . 49Tabela 3 – Axioma escrito com AL no nível de Abox. . . . . . . . . . . . . . . . . . . 49Tabela 4 – Sintaxe e semântica de construtores da DL. . . . . . . . . . . . . . . . . . . 50Tabela 5 – Construtores da EL+ +. . . . . . . . . . . . . . . . . . . . . . . . . . . . 51Tabela 6 – Exemplos de axiomas em que podem ser escritos no perfil OWL2 EL. . . . 54Tabela 7 – Tipos de Construtos permitidos na OWL2 QL (74). . . . . . . . . . . . . . 55Tabela 8 – Axiomas de Exemplo escritos em OWL2 QL. . . . . . . . . . . . . . . . . 55Tabela 9 – Tipos de Construtos permitidos na OWL2 RL (74). . . . . . . . . . . . . . 55Tabela 10 – Axiomas em OWL2 RL e regras em Lógica de Primeira Ordem. . . . . . . 55Tabela 11 – Exemplo de axioma que pode ser escrito a partir da BTL2, utilizando a

estrutura de classes e relações existentes. . . . . . . . . . . . . . . . . . . . 57Tabela 12 – Processo de oogênese descrito na go-plus. . . . . . . . . . . . . . . . . . . 60Tabela 13 – Exemplo de axioma da ChEBI sobre o aminoácido fundamental cisteína. . . 61Tabela 14 – Exemplo de axioma para descrição da insulina humana na PRO. . . . . . . 62Tabela 15 – Lista de relações mais frequentes da SNOMED CT segundo 92. . . . . . . . 65Tabela 16 – Axioma de subclasse para ‘Neural tube defect (disorder)’ de acordo com a

SNOMED CT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65Tabela 17 – Sequência para a proteína canônica Methylenetetrahydrofolate reductase em

humanos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67Tabela 18 – Conteúdo típico da união dos BDs UniProt, Ensembl e NCBI Taxonomy. . . 82Tabela 19 – Exemplos de relações de classe-subclasse . . . . . . . . . . . . . . . . . . 83Tabela 20 – Entrada em um registro de BD referencia uma ou mais classes definidas. . . 85Tabela 21 – Definição da classe de exemplo ‘Sub_zinc ion binding’. . . . . . . . . . . . 86Tabela 22 – Subclasses de exemplo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88Tabela 23 – Visão sobre os dados do UniProt, NCBI Taxonomy e do Ensembl . . . . . . 92Tabela 24 – Conteúdo típico da união dos BDs UniProt, Ensembl e NCBI Taxonomy. . . 93Tabela 25 – Visão sobre os dados do UniProt, NCBI Taxonomy e do Ensembl utilizados

para exemplificação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96Tabela 26 – Consultas DL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97Tabela 27 – Proteínas individuais incluídas em componentes celulares e organismos indi-

viduais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98Tabela 28 – Axiomas entre indivíduos de identificadores para fenótipo, processo biológico,

molécula de baixo peso e organismo. . . . . . . . . . . . . . . . . . . . . . 98Tabela 29 – Proteínas participantes em processos, e incluídas em organismos. . . . . . . 98

Tabela 30 – Proteínas participantes de processos, processos com moléculas como partici-pantes e incluídos em organismos. . . . . . . . . . . . . . . . . . . . . . . 99

Tabela 31 – Fenótipos disfuncionais de organismos com determinadas proteínas. . . . . 100Tabela 32 – Subclasses de proteínas Proti. . . . . . . . . . . . . . . . . . . . . . . . . . 103Tabela 33 – Subespecialização de Proti. . . . . . . . . . . . . . . . . . . . . . . . . . . 103Tabela 34 – Classes geradas sobre Orgi1. . . . . . . . . . . . . . . . . . . . . . . . . . 104Tabela 35 – Classes geradas sobre Moli1,...,in. . . . . . . . . . . . . . . . . . . . . . . . 105Tabela 36 – Classes geradas sobre BProci1,...,ik. . . . . . . . . . . . . . . . . . . . . . . 105Tabela 37 – Classes geradas sobre Pheni1,...,ik. . . . . . . . . . . . . . . . . . . . . . . . 106Tabela 38 – Proposta de modelagem genérica sobre objetos portadores de disposições. . 107Tabela 39 – Padrão de representação em GCI de proteínas organismo-específico, com

processos biológicos e que têm como participantes moléculas de baixo pesomolecular. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Tabela 40 – GCI para descrever Organism com disposition. . . . . . . . . . . . . . . . . 109Tabela 41 – Axioma para moléculas de baixo peso molecular com disposições. . . . . . 110Tabela 42 – GCI para descrever Organism com disposition. . . . . . . . . . . . . . . . . 111Tabela 43 – Axioma de equivalência sobre organismos que incluem proteínas disfuncionais.111Tabela 44 – Organismos com proteínas disfuncionais que apresentam disposições em

realizar fenótipos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112Tabela 45 – Visão sobre os dados do UniProt, NCBI Taxonomy e do Ensembl . . . . . . 113Tabela 46 – Consultas DL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113Tabela 47 – Consulta em segundo passo. . . . . . . . . . . . . . . . . . . . . . . . . . . 113Tabela 48 – Resultado das consultas, juntamente com as características das quatro imple-

mentações ontológicas (sem importar a BTL2). . . . . . . . . . . . . . . . 114Tabela 49 – Vantagens, Desvantagens e Cenários de Uso das formas de interpretação

ontológica de BDs biológicos anotados. . . . . . . . . . . . . . . . . . . . 119Tabela 50 – Visão sobre os dados do UniProt, NCBI Taxonomy e do Ensembl . . . . . . 131Tabela 51 – Bp incluído em O com a participação de P. . . . . . . . . . . . . . . . . . . 133Tabela 52 – P incluído em O. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134Tabela 53 – P_O incluído em C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134Tabela 54 – P_O como participante de Bp e como participante de Mf. . . . . . . . . . . 134Tabela 55 – P_O participante de um processo com M . . . . . . . . . . . . . . . . . . . 135Tabela 56 – P_O participante de um processo com M . . . . . . . . . . . . . . . . . . . 136Tabela 57 – P_Dysfunctional_O_Ph como parte de O, que inclui um Ph. . . . . . . . . . 136Tabela 58 – M_O como parte de O. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136Tabela 59 – M_O_P como parte de O. . . . . . . . . . . . . . . . . . . . . . . . . . . . 137Tabela 60 – O com parte P. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137Tabela 61 – O como parte de P, participante de Bp, e participante de Mf. . . . . . . . . . 138Tabela 62 – O com parte P participante de processo com participante M. . . . . . . . . . 138

Tabela 63 – O com parte P_dysfunctional. . . . . . . . . . . . . . . . . . . . . . . . . . 138Tabela 64 – O com parte C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139Tabela 65 – Mf com participante P em O. . . . . . . . . . . . . . . . . . . . . . . . . . 139Tabela 66 – Ph em O com P_dysfunctional. . . . . . . . . . . . . . . . . . . . . . . . . 140Tabela 67 – Consulta em segundo passo. . . . . . . . . . . . . . . . . . . . . . . . . . . 142Tabela 68 – CQ1 em DL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142Tabela 69 – CQ2 em DL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142Tabela 70 – CQ3 em DL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143Tabela 71 – CQ4 em DL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143Tabela 72 – CQ 5 em DL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144Tabela 73 – CQ6 em DL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144Tabela 74 – CQ7 em DL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145Tabela 75 – Ontologias descritas segundo quantidade de classes, axiomas de subclasse e

equivalência, e expressividade DL. . . . . . . . . . . . . . . . . . . . . . . 146Tabela 76 – Desempenho do raciocínio em milissegundos (ms) nas ontologias geradas. . 146Tabela 77 – Tradução de axiomas escritos em DL para Manchester Syntax e SPARQL. . 157Tabela 78 – Exemplo de substituição realizada pelo IntegrativO CBR. . . . . . . . . . . 165Tabela 79 – Axioma 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167Tabela 80 – Axioma gerado a partir do axioma de interpretação 1. . . . . . . . . . . . . 168Tabela 81 – Axioma 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169Tabela 82 – Axioma gerado a partir do axioma de interpretação 2. . . . . . . . . . . . . 169Tabela 83 – Axioma 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169Tabela 84 – Axioma gerado a partir do axioma de interpretação 3. . . . . . . . . . . . . 170Tabela 85 – Axioma 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170Tabela 86 – Axioma gerado a partir do axioma de interpretação 3. . . . . . . . . . . . . 171Tabela 87 – Comparação entre duas ontologias para detectar problemas de heterogenei-

dade dos dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216Tabela 88 – Tipos de aplicações RBC suportados pelo JCOLIBRI2 . . . . . . . . . . . . 240Tabela 89 – Axioma A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244Tabela 90 – Axioma ∃r.B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244Tabela 91 – Axioma B u ∃r.B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244Tabela 92 – Axioma A tB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244Tabela 93 – Axioma ∃r. {a} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244Tabela 94 – Axioma ∀r.B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244Tabela 95 – Axioma {b} t {a} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245Tabela 96 – Axioma ∃r. ({b} t {a}) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245Tabela 97 – Axioma A u (∃r.self) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245Tabela 98 – Axioma ¬B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245Tabela 99 – Axioma A u ¬B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245

Tabela 100–Axioma B u (∃r (C u (∃s.A))) . . . . . . . . . . . . . . . . . . . . . . . . 245

Lista de abreviaturas e siglas

ADN Ácido desoxirribonucleico

AL Attribute language

AML AgreementMakerLight

API Application Programming Interface

ARN Ácido ribonucleico

BC Base de Conhecimento

BD Banco de Dados

BFO Basic Formal Ontology

BGP Basic Graph Pattern

BLAST Basic Local Alignment Search Tool

BTL2 BioTopLite2

CBR Case-based reasoning

ChEBI Chemical Entities of Biological Interest

C-OWL Context OWL

CQ Competency Question

CSV Comma-separated values

CYRUS Computerised Yale Retrieval and Updating System

DAML Darpa Agent Markup Language

DCO DebugIt Core Ontology

DHGNA Doença Hepática Gordurosa Não Alcoólica

DL Description Logics

DOLCE Descriptive Ontology for Linguistic and CognitiveEngineering

DTN Doenças Tropicais Negligenciadas

EBI European Bioinformatics Institute

EDOAL Expressive and Declarative Ontology Alignment Language

EMBL European Molecular Biology Laboratory

E-MOP Episodic Memory Organization Packets

ER Entity-relationship

FTP File Transfer Protocol

GAV Global-as-View

GCI General Class Inclusion

GFO-Bio General Formal Ontology - Biology

GFO General Formal Ontology

GLAV Global-Local as View

GO Gene Ontology

GRDDL Gleaning Resource Descriptions from Dialects of Languages

HGNC HUGO Gene Nomenclature Comittee

HL7 Health Level 7

HTTP Hypertext Transfer Protocol

HUGO Human Genome Organization

IA Inteligência Artificial

IHTSDO International Health Terminology Standards DevelpmentOrganization

JSON JavaScript Object Notation

KB Knowledge Base

KEGG Kyoto Encyclopedia of Genes and Genomes

KI-CBR Knowledge-intensive Case-based Reasoning

kNN k-Nearest Neighbor

LAV Local-as-View

LED Light Emitting Diode

MIREOT Minimal Information to reference an external ontology term

NCBI National Center for Biotechnology Information

NCI National Cancer Institute

NTDO Neglected Tropical Disease Ontology

OBDA Ontology-Based Data Access

OBI Ontology for Biomedical Investigations

OBO Open Biomedical Ontologies

ODP Ontology Design Pattern

OIL Ontology Inference Layer

OIS Ontology Integration System

OMIM Online Mendelian Inheritance in Man

ORA Ontology for Robotics and Automation

OWL2 Ontology Web Language v.2

OWL Ontology Web Language v.1

PEP Prontuário Eletrônico do Paciente

PIR Protein Information Resource

PRO Protein Ontology

PSI-MOD Proteomics Standards Initiative Modification Ontology

RBC-CI Raciocínio Baseado em Casos de Conhecimento Intensivo

RBC Raciocínio Baseado em Casos

RDFS Resource Description Framework Schema

RDF Resource Description Framework

RES Registros Eletrônicos em Saúde

RO Relation Ontology

RT Referent tracking

SGBD Sistemas de Gerenciamento de Bancos de Dados

SIB Swiss Institute of Bioinformatics

SNOMED CT Systematized Nomenclature of Medicine Clinical Terms

SO Sequence Ontology

SPARQL SPARQL Query Language for RDF v.1.1

SQL Structured Query Language

SIS Sistemas de Informação em Saúde

SUMO Suggested Upper Merged Ontology

TURTLE Terse RDF Triple Language

UML Unified Modeling Language

UniProt Universal Protein Resource

UPML Universal Problem Solver Language

UIQPA União Internacional de Química Pura e Aplicada

URI Universal Resource Identifier

VBA Visual Basic for Applications

W3C World Wide Web Consortium

XML eXtensible Markup Language

Sumário

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.2 Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.3 Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271.4 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281.4.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281.4.2 Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291.5 Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291.5.1 Interpretação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.5.2 Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.5.3 Protótipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311.6 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321.7 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

I REFERENCIAL TEÓRICO 37

2 REPRESENTAÇÃO E ONTOS BIOLÓGICAS . . . . . . . . . . . . . . 382.1 Ontologias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.1.1 Níveis de Abstração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.2 Representação de Ontologias . . . . . . . . . . . . . . . . . . . . . . . . 432.2.1 Description Logics - DL . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.2.1.1 Sintaxe, semântica e sublinguagens DL . . . . . . . . . . . . . . . . . . . . . 482.2.1.1.1 EL++ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.2.1.2 Raciocínio em Description Logics (DL) . . . . . . . . . . . . . . . . . . . . . 522.2.2 Ontology Web Language v.2 (OWL2) . . . . . . . . . . . . . . . . . . . . 522.2.2.1 OWL2 EL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542.2.2.2 OWL2 QL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542.2.2.3 OWL2 RL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552.3 Ontologias Biomédicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 562.3.1 BioTopLite2 - BTL2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572.3.2 Gene Ontology - GO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 582.3.3 Chemical Entities of Biological Interest - ChEBI . . . . . . . . . . . . . 602.3.4 Protein Ontology - PRO . . . . . . . . . . . . . . . . . . . . . . . . . . . 622.3.5 Systematized Nomenclature of Medicine Clinical Terms

SNOMED CT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3 BDS BIOMÉDICOS E INTERPRETAÇÃO . . . . . . . . . . . . . . . . 663.1 Bancos de Dados Biológicos . . . . . . . . . . . . . . . . . . . . . . . . . 663.1.1 UniProt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.1.2 Ensembl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.1.3 NCBI Taxonomy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 703.2 Interpretação sobre dados biomédicos e suas estratégias . . . . . . . . . 713.2.0.1 Ferramentas de análise e suporte à interpretação . . . . . . . . . . . . . . . 723.2.0.1.1 GoMiner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.2.0.2 GO-Mapper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 733.2.0.3 DAVID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743.2.1 Interpretação baseada em ontologias . . . . . . . . . . . . . . . . . . . . 74

II RESULTADOS 79

4 INTERPRETAÇÃO ONTOLÓGICA DE BDS BIOMÉDICOS . . . . . . 804.0.1 Critérios Ontológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874.0.2 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 894.0.3 Domínio de experimentação . . . . . . . . . . . . . . . . . . . . . . . . . 904.1 Materiais e Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.2 Perspectivas representacionais . . . . . . . . . . . . . . . . . . . . . . . 964.2.1 Representação como indivíduos . . . . . . . . . . . . . . . . . . . . . . . 974.2.1.1 Avaliando a representação como indivíduos . . . . . . . . . . . . . . . . . . 1004.2.2 Representação com múltiplas subclasses . . . . . . . . . . . . . . . . . . 1004.2.2.1 Avaliando a representação com múltiplas subclasses . . . . . . . . . . . . . . 1064.2.3 Representação com disposições . . . . . . . . . . . . . . . . . . . . . . . 1064.2.3.1 Avaliando a representação por disposições . . . . . . . . . . . . . . . . . . . 1104.2.4 Representação híbrida em nível de classes . . . . . . . . . . . . . . . . . 1114.2.4.1 Avaliando a representação híbrida . . . . . . . . . . . . . . . . . . . . . . . 1124.2.5 Aplicando as abordagens de interpretação . . . . . . . . . . . . . . . . . 1124.3 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1144.3.1 Cenários de Uso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

5 RE-INTERPRETAÇÃO DE BDS BIOMÉDICOS . . . . . . . . . . . . . 1205.1 Procedimentos metodológicos . . . . . . . . . . . . . . . . . . . . . . . . 1235.1.1 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1235.1.2 Representação e organização das ontologias . . . . . . . . . . . . . . . . 1255.1.3 Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1285.1.3.1 Teste de Escalabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1305.2 Validação da interpretação ontológica . . . . . . . . . . . . . . . . . . . 130

5.2.1 Representação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1325.2.1.1 Axiomas de interpretação . . . . . . . . . . . . . . . . . . . . . . . . . . . 1335.2.2 Avaliando o conteúdo gerado . . . . . . . . . . . . . . . . . . . . . . . . 1415.2.2.1 Questões de desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1455.3 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

6 APLICAÇÃO PRÁTICA E PROTÓTIPO . . . . . . . . . . . . . . . . . 1516.1 Processo de KI-CBR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1546.1.1 Recuperação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1566.1.1.1 Integração semântica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1586.1.1.1.1 Arquitetura da integração . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

6.1.1.1.2 Gryphon Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

6.1.1.1.3 Processo de Integração Otimizado . . . . . . . . . . . . . . . . . . . . . . . . . 160

6.1.2 Reuso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1626.1.2.1 Similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1626.1.3 Retenção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1646.2 Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1656.3 Experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1666.4 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

III CONSIDERAÇÕES FINAIS 174

7 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . 1757.1 Interpretação Ontológica . . . . . . . . . . . . . . . . . . . . . . . . . . 1757.1.1 Interpretação com indivíduos . . . . . . . . . . . . . . . . . . . . . . . . 1757.1.2 Interpretação como subclasses . . . . . . . . . . . . . . . . . . . . . . . . 1767.1.3 Interpretação com disposições . . . . . . . . . . . . . . . . . . . . . . . . 1777.1.4 Interpretação híbrida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1777.2 Validação do processo de interpretação . . . . . . . . . . . . . . . . . . . 1787.3 IntegrativO CBR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1807.3.1 Funcionamento do integrativO CBR . . . . . . . . . . . . . . . . . . . . 1817.4 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1817.5 Aplicabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1837.6 Limitações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1837.7 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1857.8 Resultados indiretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

IV APÊNDICES 210

A INTEGRAÇÃO DE BANCOS DE DADOS . . . . . . . . . . . . . . . . . 211A.1 Integração semântica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214A.1.1 Problemas Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . 215A.1.2 Soluções Existentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217A.1.2.1 GAV, LAV e GLAV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217A.1.2.2 OIS e OBDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218A.1.2.3 Alinhamento e Mapeamento . . . . . . . . . . . . . . . . . . . . . . . . . . 219A.1.2.4 Mediação de Consultas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221A.1.3 Aplicações de Integração Semântica . . . . . . . . . . . . . . . . . . . . 222A.1.3.1 OnTop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222A.1.3.2 OntoGrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223A.1.3.3 OntoFusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

B RBC-CI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224B.1 Raciocínio Baseado em Casos - RBC . . . . . . . . . . . . . . . . . . . . 224B.1.1 Processo de RBC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225B.1.1.1 Recuperação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228B.1.1.2 Reuso e Revisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229B.1.1.3 Retenção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231B.2 Casos e formas de representação . . . . . . . . . . . . . . . . . . . . . . 233B.2.1 Representação de Casos em RBC . . . . . . . . . . . . . . . . . . . . . . 233B.2.2 Representação de Casos em aplicações de RBC-CI . . . . . . . . . . . . 234B.3 Aplicações em RBC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236B.3.1 JCOLIBRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239B.3.1.1 Arquitetura do JCOLIBRI2 . . . . . . . . . . . . . . . . . . . . . . . . . . 241B.3.1.2 Processo de CBR do JCOLIBRI2 . . . . . . . . . . . . . . . . . . . . . . . . 242B.4 Padrão de conversão OWL2SPARQL . . . . . . . . . . . . . . . . . . . . 243B.4.1 Consultas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244

C CONFIGURAÇÃODOGRYPHONFRAMEWORKNOINTEGRATIVOCBR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246

C.1 Alinhamento e Mapeamento no IntegrativO CBR . . . . . . . . . . . . . 246C.2 Consultas no Gryphon Framework . . . . . . . . . . . . . . . . . . . . . 247

D IMPLEMENTAÇÃO DO INTEGRATIVO CBR . . . . . . . . . . . . . . 248D.1 Interface de Consulta e Recuperação . . . . . . . . . . . . . . . . . . . . 248D.1.1 Configuração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248D.2 Reuso e Seleção de Casos . . . . . . . . . . . . . . . . . . . . . . . . . . . 249D.3 Retenção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251

E CÓDIGO OWL GERADO PELO INTEGRATIVO CBR . . . . . . . . . 252E.1 Código axioma 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252E.2 Código axioma 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253E.3 Código axioma 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254E.4 Código axioma 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255

24

1 Introdução

Este capítulo apresenta a motivação, a definição do problema, os objetivos, a proposta e ascontribuições desta tese de doutorado. Por fim, é apresentado como este trabalho foi organizadoe estruturado.

1.1 Motivação

Banco de Dados (BDs) biológicos são utilizados desde a década de 1950 para guardar,desde (inicialmente) sequências de proteínas, até sequências de Ácido desoxirribonucleico (ADN)e interações moleculares (1). O crescimento e desenvolvimento de novos BDs biomédicos têmsido acompanhado pela comunidade científica, e.g. por 23 anos consecutivos a revista científicaNucleic Acids Research faz um sumário dos BDs biomédicos existentes. Atualmente, há um totalde 1685 BDs biomédicos ativos (2). Ao passo que novos BDs biomédicos foram desenvolvidos,houve a incorporação de incrementos, e.g. desde o mapeamento do conteúdo de um BD (e.g. poridentificadores) até a inclusão de anotações semânticas.

Por exemplo, o Universal Protein Resource (UniProt) (3) é um BD que inclui relações(e.g. tabelas) formadas por atributos (e.g. campos) como proteínas, genes, organismos, processosbiológicos, funções moleculares, componentes celulares, identificadores de mapeamento paraoutros BDs biológicos e assim por diante. Na prática, as tuplas do UniProt armazenam dadosrecuperados de uma ou mais publicações científicas, associando a cada um dos atributos uma oumais anotações semânticas.

Diversos campos que formam as tuplas emBDs biomédicos incluem anotações semânticasprovenientes de ontologias biomédicas, por exemplo:

• Protein Ontology (PRO) (4), para descrever proteínas e genes;

• National Center for Biotechnology Information (NCBI) Taxonomy (5), para descreverorganismos celulares;

• Gene Ontology (GO) (6), para descrever processos biológicos, funções moleculares ecomponentes celulares; e,

• Systematized Nomenclature of Medicine Clinical Terms (SNOMED CT) (7), para descreverfenótipos disfuncionais de organismos vivos. Nesse caso, o termo disfuncional é empregadopara qualificar o fenótipo visualizado como um fenômeno anormal no ciclo de vida de umorganismo celular.

Capítulo 1. Introdução 25

Ao utilizar uma ontologia como aGO, PRO ou SNOMED CT para anotar semanticamenteregistros de BDs, é disponibilizada a estrutura ontológica (i.e. hierarquia, classes, relações,axiomas, entre outros) para consultar de forma inteligente os dados existentes, e.g. utilizandométodos de consulta à bancos de dados baseado em ontologias (8) ou o uso de raciocínio porsubsunção (9).

Todavia, a utilização da estrutura ontológica para interpretar BDs anotados semantica-mente é bastante limitada. Frequentemente, são geradas listas de classes que assumem o valor docampo de uma tabela de forma a descrever as diversas funções que (por exemplo) uma determi-nada proteína assume no corpo humano. Como resultado, são geradas redundâncias que limitama leitura e a interpretação do registro pelo usuário.

Problemas derivados da ausência de interpretação adequada de BDs anotados semantica-mente com ontologias são relatado pela literatura (10, 11, 12). Há a necessidade em se desenvolveruma estratégia de interpretação mais uniforme (11) que (e.g.) permita explorar as ontologias e asestratégias existentes de raciocínio e recuperação de conteúdo em múltiplos BDs biomédicos.

1.2 Problema

Apesar de inseridas como um artefato representacional complexo e dotado de capacidadesinferenciais, as ontologias são utilizadas junto com BDs como meros vocabulários para anotaçãoou recuperação de dados (13, 8). Normalmente, ontologias e BDs são construídos e concebidoscom propósitos diferentes, e o fato de existir uma ou mais anotações em uma tupla não garantecompletamente a semântica.

Um problema identificado com o uso das anotações semânticas, principalmente nosregistros de BDs biomédicos, é a falta de clareza sobre como as classes das ontologias sãoutilizadas. Frequentemente, são utilizadas muitas classes de uma ontologia como valor de umúnico campo em uma tupla, e.g. como uma lista. Da forma como são listadas, as anotaçõesnão facilitam o entendimento do registro, pois as classes empregadas são descritas de formadesconectada.

Por exemplo, na tabela 1 há a descrição de um registro proveniente do UniProt sobre aproteína insulina. Para a tupla formada pela: insulina, processo biológico, função molecular e ocomponente celular a que estas se inserem, são listadas todas as classes da GO que são utilizadascomo anotação.

O papel das anotações (que deveria ser de trazer semântica para o registro) acaba gerandomais confusão para o usuário. A confusão acontece pelo fato de não existir uma definição clarade como utilizar as classes para interpretar o conteúdo de uma tupla. O caminho natural seriaexplorar (diretamente) as classes e relações como disponíveis nas ontologias.

Todavia, e considerando que as anotações são provenientes de ontologias de prateleira,


Tabela 1 – Extrado de algumas anotações provenientes da GO disponíveis no UniProt KB(#P01308) para a Insulina Humana.

go:biological_process go:molecular_function go:cellular_componentalpha-beta T cell activation; insulin receptor binding; endosome lumen;cell-cell signaling; protease binding; extracellular space;cellular protein metabolic process; protein binding; Golgi lumen;endocrine pancreas development; Golgi membrane;energy reserve metabolic process; secretory granule lumen;ER to Golgi vesicle-mediated transport vesicletransport;

não é possível garantir que as ontologias representem todo (ou parte) do conteúdo que estáanotado em uma tupla. Por exemplo, a GO foi concebida como uma representação para auxiliarna análise de genômica funcional. Já o UniProt é um BD que tem como propósito guardar dadossobre proteínas, recuperados a partir da literatura e de experimentos biomédicos. Não é de seesperar que o conteúdo anotado no UniProt (mesmo vindo de uma ontologia) esteja representadode forma que concorde com o que existe na GO (ou em outras ontologias).

Considerando que, do ponto de vista ontológico, BDs, relações, campos e tuplas sãoentidades de informação, o conteúdo registrado em um BD corresponde sempre a indivíduos deuma ontologia. Ao utilizar classes para anotar registros, não há definição clara sobre se esta érealmente uma classe de ontologia, ou se é um indivíduo que (quando nomeado com o mesmonome da classe) se refere à uma classe ontológica. Em outras palavras, ao utilizar a anotaçãoInsulin como valor do campo Proteína, o termo tanto pode ser interpretado diretamente comouma subclasse de proteína ou um indivíduo do tipo Insulin.

Essas limitações na utilização das ontologias na interpretação de BDs biomédicos trazemà tona outras de ordem representacional:

(i) Como determinar se as anotações em bancos de dados biológicos (por exemplo) sãoindivíduos, ou classes de ontologias?

(ii) Se interpretados como indivíduos, como representá-los?

(iii) Se interpretados como classes, como representá-los?

(iv) O conteúdo interpretado tem engajamento ontológico, i.e. correspondência com a realidade?

Sobre os pontos (i) e (ii), 14, 15 descreveram uma abordagem para identificar indivíduosem bancos de dados biomédicos, especificamente Registros Eletrônicos em Saúde (RES) edeterminar as relações ontológicas existentes. Entretanto, os autores não descreveram as entidadesreferenciadas pelos indivíduos (i.e. as classes), tampouco consideraram o contexto das anotações.Essa limitação não define as entidades anotadas, já que não são descritas apenas as relações entreindivíduos.


Em alguns trabalhos (16, 17), registros anotados de BD são representados diretamentecomo classes. Nesse caso, não há diferenciação entre classes ou indivíduos. Do ponto de vistaontológico, esse tipo de utilização, apesar de permitir a construção de consultas e recuperarconteúdo da ontologia, não é ideal.

Em outras palavras, no exemplo da Insulin, a anotação indica que existem indivíduosrecuperados de uma ou mais pesquisas científicas que se comportam de acordo com a tabela 1.Cada uma das possíveis associações entre indivíduos da classe Insulin que pertencem à tupla eàs demais anotações para processo biológico, função molecular e componente celular ocorrem(na realidade) em nível de instâncias, e não diretamente em nível de classes. Como consequência,podem ser criadas definições genéricas para todas as instâncias existentes de insulina, mas quenão ocorrem na realidade.

Outra questão que precisa ser avaliada é se o conteúdo representado (como indivíduos,ou como classes ou incluindo disposições) é factível do ponto de vista ontológico (iv), i.e. seas definições criadas apresentam engajamento ontológico e se é possível avaliá-las utilizandoraciocínio. Formas de solucionar esse questionamento foram introduzidas por 18, 16 e 17. Essestrabalhos associam ontologias a tarefas como recuperação de classes de ontologias a partir deconsultas complexas com a utilização de raciocínio, avaliando a representação ontológica criadaa partir da checagem de consistência e recuperação de conteúdo tabular.

Em suma:

• Há diversos bancos de dados biomédicos anotados com classes provenientes de ontologias;

• Há ontologias biomédicas formalizadas que representam o conteúdo descrito como anota-ções;

• O propósito dos BDs e das ontologias é diferente, mas não exclui a complementariedadeda informação entre fontes dessas naturezas;

• As anotações são utilizadas para conferir semântica aos registros de BDs;

• As relações entre classes anotadas em um registro não são claras, tampouco evidenciam oengajamento ontológico;

• É possível utilizar ontologias para consultar o conteúdo anotado a partir da descrição clarada interpretação ontológica dessas anotações.

1.3 Hipótese

Dessa forma, este trabalho foi construído em torno da seguinte hipótese:


• como é possível interpretar registros anotados com classes de forma clara e com engaja-mento ontológico, permitindo que o usuário utilize a formalização existente em ontologiasdo domínio para compreender de maneira uniforme como são as associações entre osindivíduos e as classes às quais as anotações se referem?

Responder esse questionamento é a chave para solucionar o problema existente de interpretaçãode BDs biomédicos anotados com classes de ontologias, intuito deste trabalho.

As abordagens existentes para auxiliar o usuário no processo de interpretação focam(exclusivamente) na identificação das anotações (11, 19) a partir do processamento de textos,com o posterior registro em BDs. Dessa forma, é identificado um conjunto de “classes-chave”1

que (em tese) deveriam fornecer semântica para as tuplas.

Para responder à hipótese do trabalho, é necessário:

• Determinar como anotações de bancos de dados biológicos são interpretadas de formaclara do ponto de vista ontológico, evidenciando as diferentes formas de representaçãocom indivíduos e classes, ponderando a complexidade e engajamento ontológico;

• Verificar a aplicação da estratégia de interpretação com classes em um cenário realista,utilizando consultas em DL para testar o engajamento ontológico das respostas recuperadasa partir da interpretação criada;

• E, propor uma implementação capaz de auxiliar o usuário na interpretação ontológica deforma semiautomatizada.

1.4 Objetivos

1.4.1 Objetivo Geral

Nesse sentido, o objetivo deste trabalho é avaliar e propor estratégias que auxiliem ousuário no processo de interpretação de registros bancos de dados biomédicos como indivíduose classes, a partir de ontologias formais.

São apresentados 04 (quatro) modelos de interpretação ontológica: com indivíduos,subclasses, disposições e um modelo híbrido. Entre esses, o modelo como subclasses apresentamelhor desempenho para raciocínio e construção de consultas, enquanto o modelo híbrido tem omelhor engajamento ontológico.

Para validar a escolha da interpretação adequada, o modelo como subclasses foi avaliadoa partir de consultas criadas com dados reais sobre o domínio biomédico. Por fim, é apresentadoum protótipo que utiliza um método de Raciocínio Baseado em Casos de Conhecimento Intensivo1 Uma alusão ao processo de identificação de palavras-chave


(RBC-CI) para automatizar o processo de interpretação ontológico, facilitando a utilização pelousuário final.

1.4.2 Objetivos específicos

Para alcançar o objetivo proposto para o trabalho, os seguintes objetivos específicos foramdefinidos:

1. Formular as possíveis interpretações que podem ser criadas utilizando ontologias formaise.g. representando anotações como indivíduos, classes ou a partir de disposições;

2. Determinar qual das formas de interpretação ontológica é a mais aplicável, considerandoaspectos, como engajamento ontológico, clareza, desempenho e capacidade de recuperarconteúdo utilizando consultas;

3. Validar a estratégia de interpretação ontológica sob a ótica do domínio biomédico, comdados e consultas reais que respondam às demandas do usuário;

4. Descrever uma abordagem que permita semiautomatizar o processo de interpretação,recuperando indivíduos e identificando classes de registros anotados;

5. Prototipar uma solução que implemente a abordagem semiautomática de interpretação.

1.5 Proposta

Para alcançar os objetivos delimitados para esta tese, é necessário:

• Elucidar o processo de interpretação ontológica de BDs biomédicos anotados;

• Determinar a validade ontológica do modelo mais adequado de interpretação ontológicacom dados reais do domínio biomédico; e,

• Propor uma solução capaz de automatizar o processo, ou seja, que a interpretação seja criadasem a necessidade de intervenção do usuário na manipulação dos dados e identificação declasses.

Em todos os passos deste trabalho são utilizados BDs biomédicos reais, e.g. o UniProte o Ensembl (21). Esses BDs estão presentes, tanto na pesquisa científica, como no processoprático de interpretação por um técnico de laboratório de análise genética e de proteínas, porexemplo.

Anotações no UniProt e Ensembl são provenientes das ontologias GO, ChEBI, PRO eSNOMED CT. A essas ontologias é adicionada a taxonomia de organismos NCBI Taxonomy (5).Essa é utilizada para identificar organismos e a organização taxonômica de cada um deles.


Cada uma dessas ontologias obedece uma estratégia representacional baseada na BasicFormal Ontology (BFO) (22). A BFO é uma ontologia de alto nível, que define classes genéricas.Exemplos de classes genéricas são ‘Dependent continuant’ (entidades que perduram e quesua existência depende de outras, como processos) e ‘Independent continuant’ (entidades queperduram, mas não dependem de outras para existir como entidades materiais).

Todavia, para a descrição e organização do domínio biomédico, a BFO apresenta umalto nível de abstração, tornando a especificação e a integração de ontologias de domínio maiscomplexas. Como forma de minimizar, será utilizada a ontologia BioTopLite2 (BTL2). A BTL2fornece classes e relações genéricas em consonância com o referencial ontológico utilizado pelaGO, ChEBI e PRO, a Basic Formal Ontology (BFO).

A seguir, são detalhados os passos necessários para alcançar os objetivos traçados.

1.5.1 Interpretação

Do ponto de vista prático, é necessário conhecer, descrever e ponderar como devem serinterpretados registros de BDs utilizando ontologias. Para isso, são definidas 4 formas diferentesde interpretar o conteúdo, considerando:

(i) Representação de dados anotados como indivíduos, e.g. registros de BD incluem indivíduoscomo methionine synthase e methylation que se relacionam a partir de uma relação formal‘is participant in’;

(ii) Representação de dados anotados como classes, e.g. cada anotaçãoMethylation (a classeutilizada para anotar um registro) indica a existência de uma subclasse (deMethylation)que se relaciona a uma subclasse de ‘Methionine synthase’ a partir de uma relação formal‘is participant in’;

(iii) Representação de dados anotados como classes, mas incluindo a noção de disposições e.g.para evidenciar a tendência que todo organismo de um determinado tipo Homo sapiensapresenta para desenvolver um fenótipo disfuncional, como o ataque cardíaco; e

(iv) Um modelo híbrido capaz de aglutinar tanto a simplicidade representacional de (ii), quantoa expressividade de (iii), e.g. incluindo disposições e a noção de que anotações referenciamsubclasses da que está anotada.

1.5.2 Validação

Em seguida, no capítulo 5, a estratégia de interpretação com a geração de novas subclassesé validada. A validação do conteúdo, chamada aqui de reinterpretação, é construída a partirda aplicação da estratégia de geração de subclasses, identificando axiomas de interpretação e


aplicando a um conjunto de dados anotados com classes da GO, ChEBI, PRO e SNOMED CT.Como resultado, é gerada uma nova ontologia com a interpretação ontológica criada pelo usuário.

Em seguida, a ontologia gerada a partir da interpretação é alinhada (i.e. acoplada) àsontologias utilizadas no processo de anotação juntamente com a BTL2. À estrutura ontológicaintegrada são realizados testes com consultas escritas em DL, que exploram a capacidade derecuperar conteúdo e checagem de consistência e raciocínio por subsunção disponível. Finalmente,é realizado um teste de escalabilidade da abordagem de interpretação, amplificando artificialmentea quantidade de registros existentes (entre 1 e 1000 vezes) para avaliar questões de desempenho.

1.5.3 Protótipo

Como forma de determinar que o processo é reprodutível e automatizável, é apresentadoum protótipo chamado integrativO CBR. Esse protótipo foi criado utilizando um método clássicode RBC-CI. E.g. o método de RBC-CI permite as ontologias e BDs comoBase de Conhecimento(BC) e base de casos (i.e. um tipo de BD com respostas para possíveis perguntas representadasna BC). Como parte do processo de interpretação é identificar quais classes das ontologias sãoreferenciadas pelas anotações, e buscar essas classes nas ontologias de forma correta, o métodode RBC-CI foi escolhido por permitir realizar essa tarefa de forma simplificada.

Todavia, ainda é necessário evoluir o conceito de RBC-CI. Para tal, foi criada uma estraté-gia de acesso a múltiplos BDs e múltiplas ontologias. Considerando os axiomas de interpretaçãoescritos em DL também como consultas, que são convertidas formalmente para uma linguagemde consulta a BDs utilizando ontologias, a SPARQL Query Language for RDF v.1.1 (SPARQL)(23).

O processo de conversão é incorporado de forma a permitir que o RBC-CI separe osBDs e as ontologias em duas camadas, mantendo a estrutura de ambos intacta. À evolução dométodo de RBC-CI disponível no JCOLIBRI2 chamamos de integrativO CBR (Figura 1). Assim,o protótipo incorpora uma estratégia para que o usuário crie axiomas de interpretação, os quaisdeterminam como as ontologias serão consultadas e os dados que serão recuperados.

Na prática, é definida uma arquitetura utilizando e estendendo o framework de RBC-CIJCOLIBRI2 (20) (uma ilustração do funcionamento do protótipo está descrito na Figura 1. OJCOLIBRI2 é o framework mais comum de RBC-CI e inclui grande quantidade de estratégiaspredefinidas para realizar a verificação das classes registradas em campos de BDs biomédicos,e.g. chamado de métodos de similaridade. Todavia, o JCOLIBRI2 é limitado quanto à forma deacessar múltiplos BDs e quando precisa recuperar conteúdo de BDs anotados.

A recuperação é realizada a partir do integrativO CBR, que media os acessos aos BDse às ontologias, bem como identifica as classes de ontologias a partir de anotações. Comoresultado, é entregue ao usuário um arquivo de ontologia com a interpretação recuperada deforma automática e incorporável às ontologias que compõem a Base de Conhecimento (BC)


Figura 1 – Exemplificação do funcionamento do protótipo.

do RBC-CI. O funcionamento do protótipo é atestado a partir da reconstrução do processo deinterpretação.

1.6 Contribuições

O desenvolvimento deste trabalho visa proporcionar 04 contribuições principais, sendodescritas a seguir.

Contribuição 1

A primeira contribuição deste trabalho é a identificação de que existe um problema deinterpretação em bancos de dados biomédicos anotados com classes de ontologias. Ao utilizarclasses de ontologias como anotações em BDs, não é claro como cada anotação é interpretada.Não é claro para o usuário como interpretar as anotações, e.g. se o fato de estarem incluídas emum BD determina que são indivíduos; ou, se esses registros referenciam a classes de ontologias.Em ambos os cenários, ao utilizar anotações não se define de forma clara sobre qual classe ousobre qual indivíduo é a anotação, que funciona como um subconjunto da classe utilizada comoanotação.


Ao interpretar a anotação como um indivíduo, não é possível determinar sua identidade,mas se sabe claramente como é constituído (pela classe utilizada). Ao interpretar como classe,cada anotação representa um subconjunto (ou subclasse). Essa classe (então) representa apenasos fenômenos biológicos identificados em trabalhos científicos que determinaram a criação doregistro.

Para o domínio biomédico, essa contribuição determina que a maneira com que asinterpretação são realizadas atualmente não condiz com o referencial ontológico utilizado. Paraa Ciência da Computação, determina que os métodos de análise criados precisam ser melhorestudados, visto que as análises das anotações podem ser formalmente definidas; o que nãoocorre.

Contribuição 2

A segunda contribuição é como interpretar de forma clara anotações de registros debancos de dados de uma perspectiva ontológica. Para isso, são descritas 04 formas de interpretaçãosobre o conteúdo anotado, sendo as duas primeiras:

• Interpretação como indivíduos;

• Interpretação como subclasses;

e as demais incluindo disposições:

• Interpretação com disposições; e

• Interpretação híbrida (com subclasses e disposições).

A interpretação com disposições tem como princípio o fato de que dados do domíniobiomédico são identificados a partir de tendências, e.g. a tendência de um rato em desenvolverleucemia a partir da destruição da medula óssea pela exposição à radiação ionizante.

Cada uma das formas ontológicas de interpretação descritas é avaliada a partir da ca-pacidade de incrementar o domínio com as interpretações, custo e desempenho do raciocínio,além da capacidade de utilizar a interpretação para recuperar conteúdo com base em integraçãosemântica por OBDA.

O processo de identificação e representação do conteúdo semântico contido em bancosde dados biológicos é um tópico frequente de estudo. De um lado, as comunidades de biologiade sistemas e avaliação funcional de genes e proteínas (no domínio Biológico); e do outro, ascomunidades de bancos de dados e Inteligência Artificial, especificamente representação doconhecimento.


Entretanto, ainda não foi descrita uma abordagem de interpretação sobre BDs biológicosque avalie o engajamento ontológico da utilização das anotações. Frequentemente, é assumidoque as anotações (unicamente) determinam e facilitam a compreensão pelo usuário do conteúdoregistrado, o que não é uma verdade.

Contribuição 3

A terceira contribuição desta tese é avaliar como a interpretação com classes permite arecuperação e a identificação de conhecimento implícito nas anotações utilizando raciocínio. Acontribuição referente a esse ponto vem reforçar o papel das ontologias formais no processo derepresentação, incluindo a possibilidade de realizar raciocínio. O principal intuito de validar ainterpretação é de checar se os axiomas criados são válidos do ponto de vista lógico.

Algumas abordagens já descrevem a possibilidade de aplicar ontologias e raciocínio pararecuperar conteúdo implícito a partir de bases de dados (18, 16). Entretanto, não descrevemclaramente como o procedimento de interpretação é empregado para que seja possível representare recuperar conteúdo.

A contribuição é concretizada com a determinação de que é possível interpretar umaporção de dados e aplicar raciocínio em uma abordagem dedutiva pela utilização de uma su-blinguagem EL++ (24) da DL. Para a área biomédica, a avaliação da interpretação ontológicapermite criar subsídios e estratégias de validação automática das análises criadas em laboratório.

Contribuição 4

A última e quarta contribuição desta tese reside na evolução aos modelos existentesde Raciocínio Baseado em Casos de Conhecimento Intensivo (RBC-CI) como uma propostade abordagem que auxilia o usuário no processo de interpretação e identificação de conteúdoontológico em bancos de dados. As abordagens de RBC-CI mais recentes focam no uso daontologia como um vocabulário de consulta.

O RBC-CI é utilizado para, dada uma descrição (em DL) sobre a interpretação ontológicados dados:

1. Recuperar os dados que instanciam a interpretação;

2. Identificar a quais classes os dados se referem;

3. Gerar uma representação que inclui definições formais sobre os dados interpretados;

sendo essa representação uma ontologia em DL que estende as ontologias utilizadas para criar ainterpretação. Essa ontologia é constituída pelas classes e axiomas criados a partir da interpretaçãodo usuário.


De maneira específica, a recuperação de dados existente é restrita à uma pequena quanti-dade de fontes, e.g. uma ontologia que descreve o domínio de maneira geral para um banco dedados que contém instâncias do que é representado na ontologia. Ainda, o método de RBC-CI émodificado no sentido de permitir identificar classes das ontologias a partir das anotações emregistros de BDs, ao invés de analisar o dado bruto.

Finalmente, o desenvolvimento desta abordagem (mesmo como um protótipo) abre umanova janela para o processamento e interpretação semiautomatizada de BDs. Além de auxiliaro usuário na identificação de conteúdo ontológico, auxilia e guia o processo de interpretação,sem precisar da intervenção do usuário. Aproveitando os axiomas existentes e estratégias deraciocínio, é possível avaliar a interpretação antes mesmo de ser aplicada sobre o domínio (comoum novo estudo ou método), utilizando lógica para computar implicações e avaliar a consistênciade uma afirmação criada.

1.7 Organização do trabalho

A estrutura desta tese reflete os objetivos específicos definidos na seção 1.4.2. Os capítulos2 e 3 correspondem ao referencial teórico. Já os capítulos 4, 5 e 6 correspondem às contribuiçõesdesta tese.

Por fim, são apresentadas as considerações finais sobre o trabalho (capítulo 7). Umsumário da organização desta tese é descrito na figura 2. A seguir, uma breve introdução sobre oconteúdo das seções e como cada objetivo específico será tratado.

Objetivo Específico 1

Formular as possíveis interpretações que podem ser criadas utilizando ontologias formaise.g. representando anotações como indivíduos, classes ou a partir de disposições.

Este objetivo específico é delineado no capítulo 4. Neste capítulo são apresentadas aspossíveis abordagens para a interpretação de BDs baseados em ontologias.


Determinar qual das formas de interpretação ontológica é a mais aplicável, conside-rando aspectos, como engajamento ontológico, clareza, desempenho e capacidade de recuperarconteúdo utilizando consultas.

Este objetivo específico é delineado no capítulo 4, e utiliza a mesma fundamentação doobjetivo específico 1.



Validar a estratégia de interpretação ontológica sob a ótica do domínio biológico, comdados e consultas reais que respondam às demandas do usuário.

A validação (capítulo 5) é construída a partir da interpretação como subclasses (capítulo4). São criadas consultas em DL para explorar as classes e definições criadas. Adicionalmente, éapresentada uma avaliação de escalabilidade da abordagem, de forma a evidenciar o custo doraciocínio e a capacidade em resolver consultas utilizando este tipo de interpretação.


Descrever uma abordagem baseada em Raciocínio Baseado em Casos de ConhecimentoIntensivo (RBC-CI) (20) que permita semiautomatizar o processo de interpretação, recuperandoindivíduos e identificando classes de registros anotados. O objetivo específico 4 é tratado nocapítulo B, em que é delineada a abordagem de auxílio ao usuário.


Prototipar uma solução que implemente a abordagem semiautomática de interpretaçãobaseada em RBC-CI.

O objetivo específico 5 tem como foco a implementação da abordagem de interpretaçãosemiautomatizada do objetivo específico 4. No capítulo 6 é apresentado um protótipo capazde receber axiomas de interpretação, recuperando dados e identificando classes a partir dasanotações.

Referen

cial

TeóricoR

esulta

dos

Ontologias e Representação Capítulo 2

BDs Biológicos e Interpretação Capítulo 3

Introdução Capítulo 1

Interpretação Ontológica Capítulo 4

Re-interpretação de BDsBiomédicos

Capítulo 5

Estratégia de Auxílio ao Usuário Capítulo 6

Considerações finais Capítulo 7

Figura 2 – Organização do Trabalho relacionando as seções com os objetivos específicos deline-ados.

Parte I

Referencial Teórico

38

2 Representação de Ontologias eOntologias Biológicas

Para a descrição do que é a interpretação de bancos de dados biológicos anotados comclasses de ontologias, é necessário esclarecer o que é uma ontologia, o tipo de conteúdo incluído,os níveis de abstração existentes e como representá-las de forma adequada. Neste capítulo sãoapresentados os principais conceitos sobre ontologias e representação, com foco nas ontologiasbiomédicas, objeto em estudo.

2.1 Ontologias

O que se entende por ontologia foi introduzido pelo filósofo grego Aristóteles, no século4 A.C. Aristótele, que em seu estudo de Metafísica e Categorias, já tratava os primórdios dadiscussão sobre como descrever a natureza e a estrutura da realidade. Em Organon, Aristótelestentou criar a primeira forma de lógica, apresentando categorias como uma taxonomia de objetos(25). Um dos pontos cruciais do trabalho de Aristóteles foi a utilização da lógica para descreveras coisas como elas são compreendidas pela mente humana, possibilitando o entendimento e ainterpretação do conteúdo representado da mesma forma independente da linguagem natural.Entretanto, ele frisou que a lógica por si só não seria suficiente para representar tudo.

O termo ontologia (em si) foi criado em 1606 por Jacob Lorhard, em Ogdoas Scholastica,sendo melhor descrito em 1613 por Rudolf Göckel, em Lexicon philosophicum. Apesar disso, apopularização aconteceu por volta do ano 1930, por Christian Wolff em Philosophia prima siveontologia (26). Segundo a definição, “ontologia” (para a filosofia) é utilizada para descrever umainvestigação filosófica sobre a existência, englobando os conceitos de ser e o que existe (27).

De maneira geral, as Ontologias são tratadas como um ramo da filosofia que estudacomo os objetos são interpretados e organizados levando em consideração o mundo real, osdiferentes tipos e estruturas dos objetos, propriedades, eventos, processos e as relações que ascoisas guardam entre si (28). Na prática, ontologias são descritas por meio de conceitos comuns,como composição, tempo, espaço, processos, além de vários outros (26).

Em tempos recentes, as ontologias vêm sendo estudadas pela Ciência da Computação,mais especificamente, a Inteligência Artificial, como meio simulador de teorias sobre comofunciona o conhecimento, sendo auxiliado por mecanismos de raciocínio automatizado (29). Coma padronização dos mecanismos de raciocínio por meio da lógica formal, as ontologias (por vezeschamadas Base de Conhecimento – BC), passaram a ser descritas como uma coleção de termos(classes) descritos por sentenças escritas em algum tipo de lógica na forma de axiomas, que são

Capítulo 2. Representação e Ontos Biológicas 39

postulados primitivos assumidos como verdadeiros (30). Os “termos” e “axiomas” são criadospara representar como um determinado conjunto de indivíduos é compreendido na realidade (3).

Tudo

filipe

‘Objeto Material’

Humano

Processo

‘Registrar dado’

registrar FormulárioA1

Função

‘Alimentação de Banco de dados’

alimentaçãoBDA1

‘Entidade de Informação’

‘Banco de dados’

bdA1

Ontologia

Indivíduos

‘é portador de’

‘tem realização’ ‘tem participante’

‘tem participante’

Figura 3 – Exemplo de ontologia

Por exemplo, em uma ontologia são colecionadas diversas classes que descrevem comoindivíduos (ou instâncias) são compreendidos. Por exemplo, uma classe Humano engloba todasas ocorrências individuais de seres humanos, como filipe ou eliane. Um BD individual bdA1,por exemplo, é uma ‘Entidade de informação’, da subclasse ‘Banco de Dados’; e assim sucessi-vamente. Entre os indivíduos que compõem as classes é possível determinar relações, como porexemplo para descrever que filipe é portador da função de alimentar um bdA1.

No início do século 20, o termo “ontologias formais” foi introduzido por Edmund Husserl.As ontologias formais têm como princípio a aproximação com a lógica formal para representarcomo as entidades são e como suas ocorrências (indivíduos) se relacionam. A distinção descritapor Husserl (entre ontologias formais e as não-formais) reside no fato da lógica formal estardiretamente relacionada à verdade das interconexões (sentido proposicional) (31) (figura 4). Emoutras palavras, além da ontologia ser uma descrição aproximada de uma determinada porção darealidade, deve ser representada utilizando a lógica formal.

Ontologias formais são poli-hierarquias de classes descritas segundo relações para repre-sentar uma porção da realidade (32). Ao utilizar uma lógica formal, a estrutura e a linguagemganham padronização, clareza e capacidade de ser processado por máquinas. Por exemplo, arepresentação esquemática da figura 4 pode ser descrita tanto em linguagem natural quanto utili-zando uma construção padronizada, em que indivíduos são relacionados por relações declaradas(figura 3) e traduzidos em axiomas (simplificado para o entendimento).


filipe é um tipo deHumanoque é portador da função ‘alimentaçãode bdA1’ (‘Alimentação de Bancos de Dados’), cuja realizaçãodecorre o processo do tipo ‘alimentar bdA1’ (Processo) que temcomo participante o própriofilipe e obdA1 (‘Banco de dados’).

filipe ‘é portador de’ pelo menos uma ‘alimentação de bdA1’ ‘alimentação de bdA1 ‘tem realização’ pelo menos uma‘alimentar bdA1’ ‘alimentar bdA1’ ‘tem participante’ pelo menos um filipe ‘alimentar bdA1’ ‘tem participante’ pelo menos um bdA1

Lógi

ca f

orm

alFigura 4 – Interpretação formal da figura 3 a partir da leitura das relações entre os indivíduos

descritos.

Sob uma ótica estritamente computacional, ontologias são compreendidas como umaespecificação explícita e formal de uma conceitualização compartilhada (33). Uma “conceituali-zação” se refere a um modelo abstrato de algum fenômeno, evidenciando as principais entidadesdesse fenômeno. “Explícita” se refere às classes e as restrições impostas serem explicitamentedefinidas, geralmente por meio de axiomas.

Ainda, o termo “formal” é utilizado para descrever que tais artefatos devem apresentarsemântica explícita, sendo amplamente reconhecidos e utilizados com o sentido que foi criadoe excluindo a ambiguidade inerente à linguagem natural. Para isso, deve ser utilizada umalinguagem de representação formal, como a DL (9). Por fim, “compartilhada” significa que aentidade representada e as relações descritas devem demonstrar uma determinada porção deconhecimento aceito por uma comunidade (33).

Entre as ontologias criadas para sistemas computacionais e as ontologias formais resideuma diferença importante: as ontologias formais são criadas para descrever (estritamente) fatosreais e naturais, em detrimento do que pode ser representado apenas com lógica (nas ontologiascomputacionais) (34). As ontologias formais, assim, tem como princípio aproximar as ontologiasfilosóficas das ontologias computacionais, com o foco na representação do conteúdo respeitandoum engajamento ontológico (32, 22, 35, 36).

Em uma ontologia computacional, é possível (logicamente) descrever o que é um unicór-nio. Todavia, do ponto de vista ontológico (filosófico, real, natural), unicórnios nunca seriaminstanciados como uma entidade real (34) (até que alguém consiga provar a existência desse tipode animal fictício). Exemplos de ontologias computacionais são as criadas para servir como basede conhecimento de um agente inteligente (37, 38) ou para descrever o ambiente para aplicaçõesubiquas (39, 40). Exemplos de ontologias formais são a Basic Formal Ontology (BFO) (22), a


General Formal Ontology (GFO) (35), BioTopLite2 (BTL2) (32), entre muitas outras1.

Na prática, ontologias (não restritas apenas ao contexto fomal) são aplicadas em diversasáreas como:

• Informática biomédica. 18, 41 descreveram uma ontologia para a representação do processoinfeccioso relacionado às Doenças Tropicais Negligenciadas;

• e-learning. 42 descreve um sistema em que utiliza ontologias para indexar uma coleção dedocumentos no domínio de e-learning.

• Recuperação em bancos de dados integrados. 8 e 13 descrevem abordagens em que ontolo-gias são utilizadas como vocabulário de consulta em tarefas de integração semântica;

• Raciocínio Baseado em Casos de Conhecimento Intensivo (RBC-CI). 43, 44, 20 descrevema aplicação de ontologias como parte da base de conhecimento utilizada para recuperaçãode problemas em sistemas de RBC-CI.

entre várias outras aplicações.

2.1.1 Níveis de Abstração

Considerando que ontologias podem apresentar diversos tipos de abstrações e glanurali-dade, é possível organizá-las como uma biblioteca, e.g. seguindo os níveis de abstração utilizadosna representação. Esse detalhamento é relacionado ao escopo de utilização definido para umaontologia. Alguns autores sugerem formas de organizar ontologias de acordo com o nível deabstração e a forma como o conteúdo é representado.

Guarino (45), por exemplo, descreveu um modelo organizado em quatro níveis (Figura 5)intercomunicáveis. Esses são:

• Topo, indicando ontologias com classes mais genéricas, como espaço, tempo, processos,entre outros, independente do domínio. Exemplos são a BFO, Descriptive Ontology forLinguistic and Cognitive Engineering (DOLCE) (46) e GFO;

• Domínio, com as classes específicas de um domínio de conhecimento, como seres vivos,metabolismo, genética, entre outros. Exemplos são a GO, ChEBI e PRO;

• Tarefa, com classes e relações destinadas a realizar uma tarefa ou atividade, como: gestãode configuração (47) e busca por serviços de informação geográfica para gestão em desastres(48);

1 Neste trabalho, adotamos a ideia das ontologias formais para a representação de conteúdo ontológico. Dessaforma, deste ponto em diante utilizaremos o tempo ontologia com o sentido de ontologia formal para tornar aleitura mais simples.


• E, Aplicação, com entidades dependentes do domínio e de tarefa que exercem papelexclusivo na execução de uma aplicação. Exemplos são o uso de ontologias para recuperarautomaticamente dados sobre o ciclo celular em bancos de dados biológicos (49) e paraauxiliar na gestão de imagens médicas radiológicas (50).

Figura 5 – Hierarquia de ontologias, segundo Guarino (45).

Ontologia de Topo

Ontologia de Aplicação

Ontologia de Domínio

Ontologia de Tarefa

Outra abordagem, apresentada por Freitas 25, introduziu uma visão hierarquizada para aorganização de ontologias. Nesta abordagem, a granularidade e complexidade define o nível deabstração de cada ontologia (Figura 6).

Topo

Supra-domínio

Domínio

Aplicação/Tarefa

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

Figura 6 – Biblioteca de ontologias organizada em quatro níveis hierarquizados: topo, supra-domínio, domínio e tarefa/aplicação.

A abordagem apresentada por 25 engloba os níveis de Topo, Domínio e Aplicação.Entretanto, a organização dos níveis é hierarquizada e evidencia as possíveis interconexões


possíveis dentro e entre os níveis. Por exemplo, ontologias de topo como a BFO (22) apresentaclasses genéricas que servem para especificar uma grande área (supra-domínio), como as ciênciasbiológicas.

Ontologias supra-domínio são construídas de forma a englobar uma grande área doconhecimento, como a biologia ou a computação. Exemplos de ontologia supra-domínio são aBTL2 (32) e a General Formal Ontology - Biology (GFO-Bio) (51), as quais apresentam classese relações genéricas para organizar ontologias do domínio biomédico. A partir das ontologiassupra-domínio, então, são construídas e organizadas ontologias de domínio, como a GO ou aPRO.

2.2 Representação de Ontologias

Após conceitualizar e definir o nível de abstração de uma ontologia, é necessário empregaruma linguagem de representação de maneira que o conteúdo representado seja compreendido eutilizado com clareza. A representação formal de ontologias é realizada a partir de componentesbásicos (52):

• Classes (ou conceitos);

• Relações (ou propriedades);

• Indivíduos (ou instâncias).

As classes são o principal componente da ontologia e são criadas com o intuito dedescrever um determinado conceito. Classes são utilizadas para agrupar um conjunto amplo deocorrências de um tipo único, como os animais ungulados, felinos e bovinos.

As relações utilizadas em uma ontologia são acessórios para descrever como uma classeé definida em relação às outras classes existentes em uma mesma ontologia; ou, como indivíduosse relacionam. Por exemplo, a relação ’is bearer of’ pode ser utilizada entre Mamífero e Sanguequente, descrevendo-os como (Mamífero ’is bearer of’ SangueQuente).

Esse tipo de construção, em que é definida uma classe de ‘Mamífero de sangue quente’é conhecida como axioma. Os axiomas em uma ontologia são utilizados para descrever umaclasse, relações entre indivíduos ou propriedades. Por fim, os indivíduos da ontologia descrevemocorrências específicas de uma classe. Por exemplo, a classe Cão pode ter indivíduos como fluke,rex e totó para indicar cães específicos.

A figura 7 apresenta um exemplo de ontologia em que há classes de organismos Cão,Gado e Gato e a qualidade Sangue-quente. Indivíduos dessas classes são fluke, bandido, mimi ew1, respectivamente. O axioma descreve que fluke é portador de uma qualidade w1.


Figura 7 – Exemplo de ontologia incluindo classes, indivíduos e axioma.

Considerando a estruturação básica de uma ontologia, é necessária a identificação eutilização de uma linguagem de representação, que é responsável por transcrever as afirmaçõesconstruídas pelo criador da ontologia (e.g. o engenheiro de ontologias) em uma linguagem queseja processável por computadores. No domínio biomédico, a Description Logics (DL) (9) é alinguagem de representação mais utilizada. Algumas contribuições na criação de ontologias emDL são descritas nos trabalhos de 18, 41, 53, 54, 55, 4, 6, 16, 32 entre muitos outros.

É justamente esse o motivo pelo qual a DL é utilizada como a linguagem de representaçãoneste trabalho. Com diversas ontologias em DL disponíveis no domínio biomédico, é maissimples compreender as bases formais empregadas na representação. A DL é uma linguagemformal e apresenta extensões decidíveis, permitindo a aplicação de estratégias automatizadas deraciocínio.

2.2.1 Description Logics - DL

A Description Logics é um conjunto de linguagens de representação de conhecimentodescendente das “redes de herança estruturada” (56). É uma evolução às Redes Semânticas (57)e aos Frames (58).

As Redes Semânticas (57) são baseadas na ideia de “massa de nós interconectados”. Nósrepresentam objetos e arcos, propriedades. Assim, a descrição de um conceito é determinadapor todas as conexões dele, e.g. relações binárias e nomeadas, que um determinado nó apresenta.


Na figura 8 há um exemplo de rede semântica em que é descrita “minha-mochila”, com 4compartimentos e a coloração space-gray.

mochila58nico temDono

4

temCompartimento

space-graytemCor

mochila

éUm

deuter

temFabricante

cinza

éUm

humano

éUm

Figura 8 – Exemplo de rede semântica.

Os frames permitem a representação do conhecimento, determinação de relevância departes do conteúdo, raciocínio monotônico, controle procedural sobre o raciocínio, tratamentode problemas combinatoriais, consistência e completude (58). Frames foram considerados comouma estrutura de dados para representar situações estereotipadas (58), e.g. situações do dia-a-diacomo ir à padaria ou ao supermercado. Um exemplo de representação em frames está descrito nafigura 9.

IS_A

DIÂMETRO

FORMA

CONTEM_SANGUE

Vaso Sanguíneo

2,5 cm

Tubular

True

Frame de Vaso Sanguíneo

IS_A

DIÂMETRO

PAREDE

Vaso Sanguíneo

Default: 0,4 cm

Muscular

Frame de Artéria

IS_A

PAREDE

VASO SANGUÍNEO

Fibrosa

Frame de Veia

IS_A

DIÂMETRO

Artéria

2,5 cm

Frame de Aorta

Vaso Sanguíneo

VeiaArtéria

Aorta

Figura 9 – Exemplo de representação em Frames. Baseado em 59.

Na figura 9, são apresentados 4 frames simples, hierarquizados sobre vasos sanguíneos.Nessa representação, são descritos estereótipos para listar características dos vasos, como o tipo,


diâmetro, forma, parede do vaso, entre outras.

Entretanto, tanto as redes semânticas quanto os frames apresentavam uma ambiguidadena representação. Ambos eram formalizados de maneira que motivou o surgimento de uma outralinguagem. Nesse caso, a DL. Três eixos norteadores foram responsáveis pelo desenvolvimentoda DL (9):

• Do ponto de vista sintático, os componentes básicos são os conceitos atômicos (predicadosunários), papéis atômicos (predicados binários) e constantes (indivíduos) 2;

• O poder de representação da linguagem é restringido pelos construtores utilizados paradescrever conceitos e papéis complexos;

• Conhecimento implícito pode ser inferido automaticamente pelo auxílio de procedimentosde inferência (subsunção).

A DL apresenta a semântica baseada em lógica, com uma sintaxe construída sobre umconjunto de construtores booleanos, como:

• Conjunção (u);

• Disjunção (t);

• Negação (¬);

Além de outros construtores, como:

• Quantificador existencial (∃)

• Quantificador universal (∀)

As possíveis e diferentes combinações de construtores determinam a sublinguagem DL utilizada(mais detalhes sobre as sub-linguagens da DL a seguir).

Considerando a diferença de abstração existente entre classes e indivíduos, um sistemaque utiliza uma BC em DL é caracterizada como uma arquitetura sustentada em dois pilares:Tbox e Abox. Para representar o conteúdo em DL, é necessária uma linguagem de descriçãoe procedimentos de raciocínio para manipular todo o conteúdo. Num sistema dessa natureza,regras são utilizadas para acessar a BC que, por sua vez, distribui conteúdo para aplicações eprogramas.2 Com o intuito de não gerar confusão com as diferentes vertentes de estudo sobre a DL e a forma como este

conteúdo será descrito no decorrer do texto, utilizaremos predicados unários como classes, binários comorelações e instâncias chamaremos de indivíduos.


Tbox

Abox

Linguagem de

DescriçãoRaciocínio

RegrasAplicaçõesProgramas

KB

Figura 10 – Exemplo de arquitetura de base de conhecimento para um sistema que utiliza DL(9).

Exemplos de sistemas que utilizam bases de conhecimento (e.g. ontologias) e o conheci-mento representado em DL são os sistemas baseados em métodos de RBC-CI. Em sistemas deRBC-CI, ontologias escritas em DL são utilizadas para fornecer classes e relações que determi-nam como será recuperado conteúdo em banco de dados para um problema apresentado pelousuário. Exemplos serão descritos no capítulo B.

Especificamente sobre o conteúdo que é representado pela linguagem de descrição, aTbox (com o T indicando terminológico) engloba o vocabulário de um dado domínio. A Tbox écomposta de:

• Classes, como um conjunto de indivíduos. Por exemplo as classes Humano, Carro ouAvião que incluem ocorrências de indivíduos, como uma pessoa chamada ludwig, um fuscaespecífico vw_beatle_4 ou um tipo de avião ‘boeing777_7’;

• Relações, como por exemplo a relação ’has part’ para descrever que um Humano temPerna como parte do corpo;

• Axiomas, para representar como uma classe é definida. Por exemplo, (Humano ∃.’haspart’ Rim) é um axioma que determina que classes de humanos apresentam pelo menosum rim.

A Tbox é chamada de ‘terminológica’ pelo fato de as definições de classes serem baseadasem extensões de classes primitivas e utilização de relações (60). Classes como Humano, Gato,


‘Banco de dados’; relações como ‘is bearer of’ ou ‘has part’; e, axiomas como Cão ‘is bearerof’ some ‘Sangue-quente’ compõem a Tbox.

A Abox (A de assertiva) é utilizada para representar (ou incluir) indivíduos e os relacio-namentos entre eles. Indivíduos são ocorrências específicas das classes descritas na Tbox (60).Exemplos de axiomas escritos em nível de Abox são apresentados após a descrição da semânticae da sintaxe básica da DL (Seção 2.2.1.1).

Como forma de permitir o processamento da BC emDL, os trabalhos citados no parágrafoanterior empregam o uso da Ontology Web Language v.2 (OWL2) (61). A DL escrita em OWL2se tornou, assim, um padrão para a criação e representação de ontologias.

Entretanto, ambas apresentam limites representacionais que impactam diretamente nosmecanismos de raciocínio. E, para que o conteúdo de uma BC seja processável por computadorese aplicáveis em tarefas de raciocínio, é necessária a utilização de um formalismo específico.Nesse sentido, as duas próximas subseções descrevem a sintaxe, semântica, sublinguagens DL eo formalismo OWL2.

2.2.1.1 Sintaxe, semântica e sublinguagens DL

Como descrito, a DL é composta de um conjunto de linguagens definidas em associaçãocom um conjunto de construtores permitidos. Do ponto de vista prático, a linguagem mínima deinteresse é a Attribute language (AL) (62). Considerando duas classes arbitrárias C e D, a AL éformada a partir dos seguintes construtos:

C,D → A | (conceito atômico)> | (conceito universal)⊥ | (conceito inferior)¬A | (negação atômica)

C uD | (interseção)∀R.C | (restrição de valor)∃R.> | (quantificação existencial)

Com AL, é possível descrever, sendo Pessoa e Feminino classes, (Pessoa u Feminino) e(Pessoa u ¬ Feminino) como axiomas. Pode-se (intuitivamente) interpretar a primeira afirmaçãocomo “as pessoas que são do sexo feminino” e a segunda como “as pessoas que não são do sexofeminino’ (9).

Formalmente, a semântica da AL é descrita como segue: são consideradas as interpreta-ções I que consistem em um conjunto não vazio ∆I (domínio de interpretação) e uma função deinterpretação, e que afirma que para todo conceito atômico A um conjunto AI ⊆ ∆I , e para todopapel atômico R uma relação binária RI ⊆ ∆I ×∆I (9). A função interpretação é extensívelpara descrições de conceitos pela seguinte fórmula indutiva:

Ainda, para descrever que duas classes são equivalentes (C é equivalente a D), é escrito


>I = ∆I

⊥I = ∅(¬AI) = ∆I \ AI

(C uD)I = CI ∩ DI

(∀R.C)I ={a ∈ ∆I | ∀b.(a, b) ∈ RI → b ∈ CI

}(∃R.>)I =

{a ∈ ∆I | ∃b.(a, b) ∈ RI

}

C ≡ D, se CI = DI para todas as interpretações I . A partir da AL, é possível escrever axiomaspara a Tbox (tabela 2) e para a Abox (tabela 3).

Tabela 2 – Axioma escrito com AL no nível de Tbox.Aminoácido sulfurado′ ≡ ′Aminoácido′ u ∃hasPart.EnxofreHomocisteína v ′Aminoácido sulfurado′′Metabolismo da homocisteína em organismo′ ≡

′Processo metabólico′ u∃hasParticipant.Homocisteína u∃isLocatedIn.Organismo

A tabela 2 descreve (de forma exemplificada) que um ‘Aminoácido sulfurado’ é um‘Aminoácido’ composto de (pelo menos) uma molécula de enxofre. Ainda, que a Homocisteína éuma subclasse de ‘Aminoácido sulfurado’; e que ‘Metabolismo da homocisteína em organismo’é um ‘Processo metabólico’ que tem participante uma molécula de Homocisteína e é localizadoem um Organismo.

Tabela 3 – Axioma escrito com AL no nível de Abox.Homocisteína(h1), Homocisteína(h2)Enxofre(e346)hasPart(h1, e346)′Metabolismo da homocisteína em organismo′(met61)hasParticipant(met61,h2)

A tabela 3 descreve vários tipos de indivíduos das classes Homocisteína, Enxofre e‘Metabolismo da homocisteína’. A partir dos axiomas definidos na Tbox (tabela 2), é possívelaplicar a relação (por exemplo) hasPart entre indivíduos das classes Homocisteína e Enxofre.

Incrementos de expressividade podem ser obtidos se outros construtores forem adiciona-dos à Attribute language. Para identificar cada um, são adicionadas letras para as quais refletemo tipo de construtor utilizado. A título de exemplo:

• U indica para a união, como em Gato u Cão;

• E para restrição existencial, como em Pessoa u (∃temParte.Perna)

entre outros. Uma lista pode ser encontrada na tabela 4 (9).


Tabela 4 – Sintaxe e semântica de construtores da DL.Nome Sintaxe Semântica DLSuperior > ∆I ALInferior ⊥ ∅ ALInterseção C uD CI ∩ DI ALUnião C tD CI ∪ DI UNegação ¬C ∆I \ CI C

Restrição de valor ∀R.C{a ∈ ∆I | ∀b.(a, b) ∈ RI → b ∈ CI

}AL

Quantificação ∃R.C{a ∈ ∆I | ∃b.(a, b) ∈ RI ∧ b ∈ CI

}E

existencialRestrição > nR

{a ∈ ∆I |

∣∣∣{b ∈ ∆I | (a, b) ∈ RI}∣∣∣ > n

}numérica 6 nR

{a ∈ ∆I |

∣∣∣{b ∈ ∆I | (a, b) ∈ RI}∣∣∣ 6 n

}N

não-qualificada = nR{a ∈ ∆I |

∣∣∣{b ∈ ∆I | (a, b) ∈ RI}∣∣∣ = n

}Restrição > nR.C

{a ∈ ∆I |

∣∣∣{b ∈ ∆I | (a, b) ∈ RI ∧ b ∈ CI}∣∣∣ > n

}numérica 6 nR.C

{a ∈ ∆I |

∣∣∣{b ∈ ∆I | (a, b) ∈ RI ∧ b ∈ CI}∣∣∣ 6 n

}Q

qualificada = nR.C{a ∈ ∆I |

∣∣∣{b ∈ ∆I | (a, b) ∈ RI ∧ b ∈ CI}∣∣∣ = n

}Mapeamento R v S

{a ∈ ∆I | ∀b.(a, b) ∈ RI → (a, b) ∈ SI

}–

papel-valor R ≡ S{a ∈ ∆I | ∀b.(a, b) ∈ RI ↔ (a, b) ∈ SI

}Concordância u1

.= u2{a ∈ ∆I |∃b ∈ ∆I · uI

1(a) = b = uI2(a)

}F

e desconcordância u1 6.= u2

{a ∈ ∆I |∃b ∈ ∆I · uI

1(a) = b1 6= b2 = uI2(a)

}Nominal {a} {aI} O

Para a representação de ontologias no domínio biológico, são utilizadas frequentemente assublinguagens EL+ + (24) eALC3 (62). Neste trabalho, a EL+ + é utilizada (particularmente)por permitir a criação de axiomas de Tbox com expressividade, mas com uma linguagem restritao suficiente para manter o raciocínio em tempo polinomial (PTime) (60).

2.2.1.1.1 EL++

A EL+ + é uma sublinguagem DL composta de um conjunto restrito de construtores eque tem como princípio ser eficiente em tarefas de raciocínio como subsunção, classificação esatisfatibilidade (24). A vantagem daEL++ é que permite tratar essas tarefas de raciocínio, bemcomo oferecer expressividade suficiente para a criação de ontologias, e.g. no domínio biomédico,como a SNOMED CT (7). A SNOMED CT, por exemplo, é uma ontologia escrita em EL+ +que inclui milhares de classes e axiomas, mas ainda assim é processada por raciocinadores DLcom bom desempenho, mesmo com hardware limitado.

A linguagemEL++ é derivada daEL. AEL é composta de alguns construtores básicos,e.g. Superior (>), interseção (u) e a quantificação existencial (∃r.C) (24). Na EL+ +, conceitos3 AL adicionada de negação.


(ou classes) são definidos indutivamente a partir de um conjunto de conceitos NC , um conjuntode papéis (ou relações) NR e um conjunto de indivíduos NI .

Para referir às classes, utilizaremos os símbolos C e D; r para relação; e, a e b paraindivíduos. A semântica da EL + + é definida em termos da interpretação I = (∆I , ·I), emque ∆I é o domínio de interpretação e ·I uma função de interpretação que mapeia cada nome deconceito A ∈ NC para um subconjunto AI de ∆I ; cada relação r ∈ NR para uma relação bináriarI em ∆I ; e, cada nome de indivíduo a ∈ NI para um indivíduo a ∈ ∆I (24). A lista de todos osconstrutores, bem como as respectivas interpretações (semântica) estão descritas na tabela 5.

Uma adição da EL+ + são os domínios concretosD1, . . . , Dn em queD corresponde atipos de dados representados na OWL2 (detalhes mais a seguir), permitindo referências a dadoscomo texto, booleanos, entre outros. Formalmente, um domínio concreto é um par (∆D, PD)com ∆D um conjunto e PD um conjunto de nomes de predicados. Para cada p ∈ P há umaaridade associada n > 0 e a extensão pD ⊆ (∆D)n.

Para determinar uma associação entre domínios concretos e a DL, é introduzido umconjunto de nomes de características NF . É utilizado p para denotar um predicado de um domínioconcreto e f1, . . . , fk para denotar nomes de características. Uma função de interpretação érequerida para mapear uma característica f para uma função parcial de ∆I para ⋃1≤i≤n ∆i.

Tabela 5 – Construtores da EL+ +.Nome Sintaxe SemânticaSuperior > ∆I

Inferior ⊥ ∅Nominal {a} {aI}Interseção C uD CI ∩ DI

Quantificação existencial ∃r.C{a ∈ ∆I | ∃b.(a, b) ∈ rI ∧ b ∈ CI

}Domínio concreto p(f1, . . . , fk) para {x ∈ ∆i | ∃y1, . . . , yk ∈ ∆Dj : f I

i (x) = yi

p ∈ PDj para 1 ≤ i ≤ k ∧ (y1, . . . , yk) ∈ pDj}GCI C v D CI ⊆ DI

Inclusão de relações r1 ◦ . . . ◦ rk v r rI1 ◦ . . . ◦ rI

k ⊆ rRestrição de domínio dom(r) v C rI ⊆ CI ×∆I

Restrição de imagem ran(r) v C rI ⊆ ∆I × CI

Definição de indivíduo C(a) aI ∈ CI

Relações entre indivíduos r(a, b) (aI , bI) ∈ rI

Com a EL + + é possível construir axiomas para descrever que (por exemplo) umprocesso biológico Methylation tem como participante pelo menos um organismo Mus musculus:

Methylation ≡ ‘Biological process′ u ∃hasParticipant.‘Mus musculus′

ou que determinados organismos do tipo Homo sapiens incluem em sua estrutura proteína dotipo Myosin:


‘Homo sapiens′ v ‘Cellular organism′ u ∃includes.Myosin

A sublinguagem da DL EL + + é uma linguagem frequentemente empregada pararepresentação de conteúdo no domínio biológico. Ontologias como a SNOMED CT e a GO, eo tesauro do National Cancer Institute (NCI) (63) são escritos utilizando a EL + +. Nessasublinguagem, o raciocínio (sem o uso de GCIs) em DL tem complexidade PSpace-hard (24).Considerando a expressividade da EL+ + e o desempenho satisfatório do raciocínio de grandesbases de conhecimento (64), essa é a linguagem que será utilizada nesta tese.

2.2.1.2 Raciocínio em Description Logics (DL)

Levando em consideração apenas a Tbox, o raciocínio pode ser utilizado para verificaçãode (9):

• Satisfatibilidade, por exemplo se uma classe descrita na ontologia a partir de um determi-nado axioma é coerente em relação à definição de outras classes. Em outras palavras, se adefinição entre ou não em contradição com outros axiomas definidos na ontologia;

• Subsunção para determinar que uma classe denota ser subclasse de outra, por exemplopara classificar que uma classe de Humano é também subclasse de Mamífero;

• Equivalência, determinando que duas classes representam a mesma coisa, por exemploquando duas classes A e B são definidas por axiomas equivalentes ou iguais;

• E, disjunção para definir que duas classes não compartilham indivíduos, e.g. não háindivíduos da classe Felino que também seja da classe Cão e vice-versa.

O raciocínio na Abox é relacionado, basicamente, à checagem de consistência entre osindivíduos a partir das descrições presentes na Tbox. A capacidade de raciocínio oferecida pelaDL torna possível a análise formal de e.g. indivíduos recuperados de uma base de dados, ao passoque a ausência de dados representa uma informação negativa (inexistente, “mundo fechado”)para um banco de dados, em uma representação que utiliza DL (como uma ontologia), nãoter indivíduos indica ausência de conhecimento (“mundo aberto”) (9), permitindo ainda assimrealizar raciocínio.

2.2.2 Ontology Web Language v.2 (OWL2)

A Ontology Web Language v.2 (OWL2) (61) é uma linguagem para representação deontologias DL. Com DL, a OWL2 apresenta a expressividade SROIQ (65) e inclui: disjunção,negação, restrição existencial, restrição universal, enumeração de indivíduos, inclusão de concei-tos, relações inversas, relações reflexivas, hierarquia de relações, encadeamento de relações (roleinclusion), entre vários outros construtos.


A OWL2 é uma evolução da Ontology Web Language v.1 (OWL) (66), cujas referênciasremontam à Ontology Inference Layer (OIL) (67) e a Darpa Agent Markup Language (DAML)(68). Assim como aOWL, aOWL2 foi criada para facilitar o desenvolvimento e compartilhamentode ontologias através da web, mantendo o objetivo de fazer o conteúdo estar mais acessível àsmáquinas (61).

A estrutura da OWL2 pode ser entendida como descrito na figura 11.

Figura 11 – A estrutura da OWL2. Traduzido a partir de (61).

Uma ontologia em OWL2 é descrita estruturalmente como um grafo em Resource Des-cription Framework (RDF) (69), sendo permitido que uma ontologia seja capaz de importaroutra ontologia. Do ponto de vista sintático, um documento OWL2 pode ser construído e anali-sado emManchester Syntax que auxilia numa leitura mais amigável, e.g. próximo à linguagemfalada4. Também pode ser descrito e analisado em uma sintaxe funcional, como uma sequênciade caracteres Unicode.

Uma ontologia OWL2 pode ser descrita e analisada como um documento eXtensibleMarkup Language (XML) (71), ou Terse RDF Triple Language (TURTLE) (72). Entretanto, aconstrução e análise de ontologias como um documento RDF/XML é mandatório (61). Ainda,4 Com a Manchester syntax, a leitura por engenheiros de ontologias não estudiosos da lógica é facilitado pela

troca de construtos por expressões, como por exemplo ∀ por only; ∃ por some; t por or; entre outros. Uma listacompleta pode ser encontrada em 70. Nos demais capítulos desta tese, será adotada a Manchester Syntax parafacilitar a leitura e compreensão de axiomas. Classes são escritas em itálico e relações em negrito. Classes erelações com palavras compostas serão escritas entre aspas simples.


é possível utilizar o mecanismo Gleaning Resource Descriptions from Dialects of Languages(GRDDL) (73) para recuperar e gerar dados compatíveis com RDF.

A OWL2 é subdividida em 3 perfis básicos: OWL2 EL, OWL2 QL e OWL2 RL.

2.2.2.1 OWL2 EL

A OWL2 EL é um perfil da OWL2 similar à DL EL+ +. Esse perfil permite a criaçãode axiomas com conjunções (u) e restrições existenciais (∃r.C) (74). Exemplos desses tipos deaxioma são escritos na tabela 6.

Tabela 6 – Exemplos de axiomas em que podem ser escritos no perfil OWL2 EL.

Aluno ≡ Humano u (∃estudaEm.Universidade)Professor ≡ Humano u (∃leciona.Universidade)

A aplicação mais comum tanto da EL + + quanto do perfil OWL2 EL é nas grandesontologias biomédicas (74), como a SNOMED CT. Conforme a utilização daEL++ como basedeste trabalho, também será utilizada a OWL EL, já que implementa a EL+ + a ser utilizada.Nesse caso, a escolha pela OWL2 EL reside no fato da OWL2 ser uma linguagem amplamenteutilizada para a representação de ontologias, não restrito apenas ao domínio biológico.

2.2.2.2 OWL2 QL

A motivação por trás do uso do perfil OWL2 QL é relacionado a criação de consultas.Em abordagens de integração semântica (a ser descrita mais a frente) uma ontologia é utilizadapara recuperar fatos em bancos de dados. Além de recuperar dados, esta linguagem permite aaplicação de raciocínio para a recuperação de fatos de uma ontologia (74).

O perfil OWL2 QL é mais restrito do que o perfil OWL2 EL. No OWL2 QL, é definidoum perfil para cada um dos lados do axioma, i.e. esquerdo e direito. Nesse caso, classes queocorrem do lado esquerdo não ocorrem do lado direito. Assim, sendoA,A′,B eB′ quatro classesarbitrárias, r uma relação arbitrária, em OWL2 QL classes do lado esquerdo (A e A′) não podemser usadas do lado direito, enquanto classes do lado direito (B e B′) não podem ser utilizadas dolado esquerdo. Dessa forma, são definidos dois tipos de axiomas que podem ser empregados, osexclusivos do lado direito e os exclusivos do lado esquerdo (tabela 7).

Alguns axiomas de exemplo estão descritos na tabela 8.

Os axiomas da tabela 8 afirmam que existe pelo menos algo que põe ovo e que é do tipo animal,e que aves são subclasses de animais.

Uma aplicação envolvendo OWL2 QL foi descrita por 75, em que foi desenvolvidauma plataforma web, chamada de Living Semantic Platform (LSP), para o desenvolvimentocolaborativo de ontologias OWL2 QL.


Tabela 7 – Tipos de Construtos permitidos na OWL2 QL (74).

Tipo de Axioma Esquerda Direita RelaçãoA v B A B rB ⊥ ⊥ r−r > >

∃r.> ¬AB uB′∃r.B

Tabela 8 – Axiomas de Exemplo escritos em OWL2 QL.

∃poeOvo.> v AnimalAve v Animal

2.2.2.3 OWL2 RL

O perfil OWL2 RL é voltado para o desenvolvimento de aplicações que permitem o usode raciocínio escalável sem limitar a expressividade disponível (72). Do ponto de vista sintático,a linguagem RL é menos complexa para implementação em sistemas baseados em regras, porapresentar semântica na forma de implicações escritas em lógica de primeira ordem (72).

Do ponto de vista lógico, axiomas escritos em OWL2 RL apresentam uma peculiaridade:construtos utilizados no lado direito do axioma não podem ser utilizados do lado esquerdo. SendoA, A′, B e B′ quatro classes arbitrárias, r uma relação arbitrária, em OWL2 RL classes do ladoesquerdo (A e A′) não podem ser usadas do lado direito, enquanto classes do lado direito (B eB′) não podem ser utilizadas do lado esquerdo. A partir desse pressuposto básico, são descritosos tipos de axiomas em OWL2 RL na tabela 9 (74).

Tabela 9 – Tipos de Construtos permitidos na OWL2 RL (74).

Tipo de Axioma Esquerda Direita RelaçãoA v B A B rB ⊥ ⊥ r−r A v A′ B v B′

A t A′ ¬A∃r.A ∀r.B

No perfil OWL2 RL é possível construir axiomas e convertê-los para regras em lógica deprimeira ordem (tabela 10).

Tabela 10 – Axiomas em OWL2 RL e regras em Lógica de Primeira Ordem.

Tipo AxiomaOWL2 RL Animal u ∃poeOvo.Oviparo v Ave tOrnitorrinco

Pato v AveRegra Animal(x) ∧ ∃x∃y poeOvo(x, y)→ Ave(y) ∨Ornitorrinco(y)

Pato(x)→ Ave(x)


76 descreveram uma ontologia no perfil OWL2 RL para a descrição de metadados sobreobjetos de aprendizagem disponíveis no padrão IEEE Learning Object Metadata (LOM).

2.3 Ontologias Biomédicas

A crescente disponibilidade de dados provenientes da pesquisa científica na biologia e namedicina requer esforços para gerenciar uma enorme quantidade de conteúdo (25). Para permitira interpretação dos dados mais próxima da realidade dos usuários, são empregadas anotações abancos de dados biomédicos. O uso das anotações em bancos de dados biomédicos é tido comoo principal responsável pela proliferação das ontologias biomédicas.

As ontologias biomédicas representam um campo emergente e que ganhou repercussãocom o desenvolvimento e utilização da GO, frequentemente usada para auxiliar na análise dedados provenientes de pesquisas científicas em genômica funcional (77). Outras ontologias demesma natureza utilizadas em BDs biológicos são a ChEBI e a PRO, utilizadas no UniProt.

BODENREIDER et al. (77) comentaram que as ontologias biomédicas exercem um papelcentral para a integração de informação sobre diferentes modelos de organismos. O propósito dasontologias biomédicas é relacionado ao “estudo das entidades da realidade, as quais apresentamsignificância biomédica” (77).

Em passado recente, as ontologias biomédicas eram desenvolvidas independentementeuma da outra, mesmo quando o conteúdo era semelhante ou complementar (78). Atualmente,há uma aderência ao uso de outras ontologias formais como referência, como a Basic FormalOntology (BFO) (22), Relation Ontology (RO) (79) e a BioTopLite2 (BTL2) (32).

O desenvolvimento de ontologias biomédicas acompanha o desenvolvimento de bancosde dados biomédicos. Repositórios como o Open Biomedical Ontologies (OBO) Foundry (80),BioPortal (81) e AberOWL (82) colecionam diversas ontologias sobre o domínio biológico. Parase ter uma ideia, o AberOWL coleciona 510 ontologias e inclui mais de 7 milhões de classes,com mais de 77 milhões de axiomas definidos.

A literatura descreve diversos usos para as ontologias biomédicas. Abaixo são listadosalguns exemplos:

• Sistema para integração e recuperação de casos de morbidade e mortalidade por DoençasTropicais Negligenciadas (83). O trabalho de 83 descreve a capacidade de utilizar ontologiasbiomédicas para integrar bancos de dados heterogêneos sobre mortalidade e morbidadepor DTNs (leishmaniose, dengue, febre amarela) e recuperar casos de indivíduos quecontraíram doenças e que vieram a falecer. Este trabalho utiliza uma ontologia chamadaNeglected Tropical Disease Ontology (NTDO) (18, 41).

• Avaliação em tempo real sobre resistência bacteriana em unidades hospitalares (53, 54),


a fim de identificar semanticamente e geograficamente padrões de resistência bacterianapara a definição de protocolos de tratamento. Neste trabalho, é utilizada uma ontologiachamada DebugIt Core Ontology (DCO).

• Utilização da GO para auxiliar na identificação de marcadores genéticos e genes principaisque contribuem para o início e progressão no câncer de bexiga, a partir de dados recuperadosde experimentos biológicos (84).

• Utilização da ontologia ChEBI para identificar moléculas de baixo peso molecular emtextos produzidos, a partir da realização de testes bioquímicos.

No contexto desta tese, a seguir são descritas as ontologias biomédicas que serão utilizadas(BTL2, GO, ChEBI, SNOMED CT e PRO).

2.3.1 BioTopLite2 - BTL2

BioTopLite2 (BTL2)5 (32) é uma versão reduzida, redefinida e atualizada da BioTop (85).A BioTop foi criada em 2006 como um nível ontológico supra-domínio para possibilitar a repre-sentação de aspectos gerais do domínio biomédico, sem levar em consideração especificidadesde qualquer subdomínio, como a genética ou bioquímica.

A BTL2 oferece classes ricamente axiomatizadas e relações que possibilitam a repre-sentação de qualquer subdomínio da biologia. Por exemplo, é possível representar e organizaro conteúdo da GO, PRO, SNOMED CT e ChEBI, seguindo a organização formal e classesdisponibilizadas pela BTL2 (figura 12).

A hierarquia de classes descrita na figura 12 conta com classes genéricas para representarprocessos (Process), objetos materiais (‘Material object’), disposições (Disposition), entre outras.Para descrever classes a partir dessa estrutura taxonômica, a BTL2 conta com um conjuntohierarquizado de relações formais (figura 13).

Com as classes descritas na figura 12 e as relações da figura 13, é possível criar axiomasdo tipo conforme a tabela 11.

Tabela 11 – Exemplo de axioma que pode ser escrito a partir da BTL2, utilizando a estrutura declasses e relações existentes.

Human equivalentTo Organism and(‘is bearer of’ some (Disposition and

(‘has realization’ only ‘Heart stroke’)))

A tabela 11 descreve um axioma em que um humano é um organismo que apresenta umahabilidade de exibir um ataque cardíaco.5 http://purl.org/biotop/


Figura 12 – Hierarquia de classes da BTL2.

A partir da BTL2, é possível criar ou alinhar outras ontologias em uma estratégia chamadade middle-out, i.e. a partir dos nós folha da BTL2 são definidos os nós mais genéricos daontologia de domínio. Outro benefício da BTL2 é com relação à fundamentação. Por seguir basesontológicas semelhantes à BFO e RO, qualquer ontologia de domínio biológico que utilize essasmesmas bases formais pode ser alinhada diretamente à BTL2.

2.3.2 Gene Ontology - GO

A Gene Ontology (GO) 6 (86, 6) foi criada em 1998, a partir de um projeto que tinhacomo propósito oferecer uma solução para três problemas principais do domínio biológico:

• Integração de informação;

• Disponibilização de termos consistentes para genes e respectivos produtos para anotação;6 http://geneontology.org/


Figura 13 – Relações na BTL2.

• E, padronizar taxonomicamente sequências de ADN e as respectivas caracerísticas funcio-nais.

A GO atualmente é voltada para a compreensão da genômica funcional7 como umesforço colaborativo para produzir um vocabulário controlado sobre entidades biológicas pormeio da classificação disponível para as ontologias (6). A GO é composta de 3 sub-ontologiasque lista e descreve molecular_function (e.g. atividades moleculares de partículas proteicas),biological_process (e.g. para a descrição de processos biológicos) e cellular_component (e.g.para descrição de componentes e compartimentos celulares) (figura 14). As classes e estruturasda GO são construídas e baseadas na BFO e RO.7 Campo de estudo da biologia molecular relacionado ao estudo das funções e interações entre genes e as respectivas

proteínas.


biological_process

Thing

molecular_function cellular_component

Figura 14 – Subontologias da GO.

A GO apresenta uma versão altamente axiomatizada, chamada de go-plus. Nela, háaxiomas que descrevem, por exemplo, o processo de geração da célula germinativa feminina(oogênese). Na tabela 12, há um axioma da go-plus que descreve o processo de Oogenesiscomo sendo uma geração de gameta feminino e que resulta no desenvolvimento de uma célulagerminativa. Ainda, o processo de oogênese é subclasse de ‘female gamete generation’ e ‘germcell development’, e é presente apenas em organismos do taxon Metazoa.

Tabela 12 – Processo de oogênese descrito na go-plus.

Oogenesis equivalentTo ‘female gamete generation’ and(‘results in development of’ ‘egg cell’)

subClassOf‘female gamete generation’‘germ cell development’‘only in taxon’ some Metazoa

O escopo da GO é restrito a produtos gênicos, processos, atividades ou componentesrelacionados exclusivamente a fenótipos mutantes ou doenças, domínios de proteínas e interaçõesentre elas, ambiente, evolução, expressão gênica, tipos celulares, anatomia celular e histologia.A GO é disponibilizada tanto como uma ontologia quanto um BD. O primeiro é relacionadoapenas com o aspecto representacional da GO. O segundo inclui anotações para o conteúdo daontologia. Todo o conteúdo da GO é disponível e mantido a partir da colaboração de diversasinstituições e membros de diferentes países (6).

2.3.3 Chemical Entities of Biological Interest - ChEBI

A Chemical Entities of Biological Interest (ChEBI) 8 (87, 55) é uma ontologia derivadade um projeto do European Bioinformatics Institute (EBI), de 2002. Esse projeto tinha como8 https://www.ebi.ac.uk/chebi/


objetivo criar e definir um dicionário livre de entidades químicas de interesse biológico. A criaçãoda ChEBI foi motivada pela falta de uma fonte de alta qualidade anotada para possibilizar autilização correta de termos bioquímicos em BDs biomédicos.

A ChEBI inclui a descrição de entidades químicas de baixo peso molecular para acompreensão e intervenção no funcionamento biológico (87). O conteúdo principal da ChEBI éconstruído sobre um identificador único, unido a um nome, à estrutura química e à respectivaclassificação ontológica.

Dessa forma, a ChEBI é disponibilizada como uma ontologia e como um banco de dados.Cada registro do BD ChEBI é revisado manualmente por especialistas do domínio, e todas asentidades derivadas desse processo são classificadas por meio de raciocínio utilizando a ontologia.Todo o conteúdo da ChEBI é recuperado de BDs biomédicos que contêm alguma molécula debaixo peso molecular.

Na ontologia ChEBI, o foco é na representação de entidades moleculares, que são subdi-vididas em três partes principais:

• ‘chemical entity’, com as estruturas das moléculas e as respectivas subpartes;

• role, com a descrição do papel que as moléculas exercem no contexto biológico;

• E, ‘subatomic particle’, para a descrição de partículas menores que um átomo.

Na ChEBI há axiomas que descrevem, por exemplo, o aminoácido cisteína (tabela 13).

Tabela 13 – Exemplo de axioma da ChEBI sobre o aminoácido fundamental cisteína.

cisteine subClassOf ‘Alpha-amino acid’ and ‘sulfur-containing amino acid’ and(‘has part’ some ‘sulfanylmethyl group’) and(‘has role’ some ‘fundamental metabolite’) and(‘is conjugate acid of’ some ‘cysteinate(1-)’) and(‘is conjugate base of’ some cysteinium) and(‘is tautomer of’ some ‘cysteine zwitterion’) and

O axioma da tabela 13 decreve que a classe de moléculas cisteine é subclasse de alfa-aminoácidos e aminoácidos sulfurados9. Além disso, tem como parte um grupo sulfanylmethyl10

e papel de metabólito fundamental. Do ponto de vista químico, é um ácido conjugado decysteinate(1-) e cysteinium. Por fim, a cisteine apresenta um tautômero11 chamado cysteinezwitterion.9 Aminoácidos que contêm uma molécula de enxofre como ligante.10 Grupo básico presente em proteínas, formado por átomo de carbono, 3 de hidrogênio e um de enxofre

(—CH2—SH).11 Substância que apresenta mesma configuração química, mas estrutura organizacional diferente. A mudança na

configuração estrutural ocorre pela modificação das ligações químicas e modificação da posição de um átomo dehidrogênio na molécula.


2.3.4 Protein Ontology - PRO

AProtein Ontology (PRO)12 (88) é uma ontologia que foi criada para representar proteínase produtos gênicos. A PRO émantida pelo Protein Information Resource (PIR), uma fonte públicade proteínas para fins bioinformacionais. A PRO é responsável por integrar bancos de dadosbiológicos sobre proteínas e é responsável pela estrutura atual do UniProt.

A PRO apresenta classes para a descrição de formas modificadas, isoformas e comple-xos proteicos de diversos organismos vivos. A estrutura taxonômica é dividida em três partesprincipais:

• ProEvo, para descrição de proteínas a partir de relacionamentos evolucionários;

• ProForm, para proteínas geradas de acordo com locais gênicos específicos;

• E, ProComp para a descrição de complexos moleculares que inclui proteínas.

ProEvo, ProForm e ProComp são distribuídas e consolidadas em uma estrutura únicaorganizada em três classes principais:

• ‘material entity’, para descrições de objetos, como proteínas, partes de cadeias de aminoá-cido, componentes celulares, proteínas e organismos relacionados;

• quality, para a qualificação da codificação de proteínas a partir de genes;

• E, sequence_feature, para a descrição propriamente dita dos genes que codificam o conjuntode proteínas disponíveis.

Da perspectiva ontológica, a PRO inclui todas as classes de proteínas que ocorremnaturalmente, além das descrições delas. A PRO é utilizada, por exemplo, para representarprodutos da tradução de genes específicos, como proteínas e Ácido ribonucleico. PRO reutilizaoutras ontologias, como a Sequence Ontology (SO) (89) e Proteomics Standards InitiativeModification Ontology (PSI-MOD) (90).

Um exemplo de axioma para descrição da insulina humana está descrito na tabela 14.

Tabela 14 – Exemplo de axioma para descrição da insulina humana na PRO.

‘insulin (human)’ equivalentTo insulin and(‘only in taxon’ some ‘Homo sapiens’) subClassOf‘has gene template’ some ‘INS (human)’

O axioma da tabela 14 descreve a insulina humana como sendo uma insulina que ocorreem pelo menos um humano e que tem o gene INS humano como sequência.12 http://pir.georgetown.edu/pro/


2.3.5 Systematized Nomenclature of Medicine Clinical TermsSNOMED CT

A Systematized Nomenclature of Medicine Clinical Terms (SNOMED CT) é uma ter-minologia direcionada para informações e dados clínicos de escopo global, e.g. com dados einformações de diversas especialidades, disciplinas e requisitos (91). O desenvolvimento e amanutenção da SNOMED CT são realizados pela organização sem fins lucrativos para o de-senvolvimento de padrões de SIS, a International Health Terminology Standards DevelpmentOrganization (IHTSDO). Pela amplitude da SNOMED CT, é possível compartilhar e reutilizarinformação clínica estruturada, e.g. utilizando padrões de Sistemas de Informação em Saúde comoo OpenEHR13 (arquitetura e arquétipos) ou os do Health Level 7 (HL7)14 (troca de informaçõesentre SIS).

Ao utilizar a SNOMED CT como terminologia para representação de termos utilizadosem um SIS, a troca de informações e a interoperabilidade é facilitada (7). Isso é facilitadoe.g. quando a terminologia entre dois ou mais sistemas é a mesma; e a forma como os dadossão armazenados e compartilhados é padronizada de maneira semelhante. A SNOMED CT éconstruída de forma a permitir a representação consistente da informação clínica.

Para a representação de informação clínica (especificamente) a SNOMED CT apresentavantagens que variam desde a descrição de termos clínicos a partir de classes definidas utilizandoa linguagem DL EL+ + (OWL2 EL) (92), até a possibilidade de criar análises a partir de datawarehouses com dados padronizados para a análise automatizada de informações clínicas. Comisso, é possível tanto representar o conteúdo incluído em um SIS, quanto recuperá-lo e identificar(por exemplo) quais os tipos de doenças são a maior causa de admissão em uma unidade hospitalar(7).

A distribuição e o acesso à SNOMED CT é realizada a partir de um navegador determinologia15 ou a partir de um servidor de terminologia acessado programaticamente com oauxílio de uma API. Outra forma de acessar a SNOMED CT é descarregando os arquivos deversão (i.e. releases, RF2) e convertendo-os para OWL2 utilizando um script em Perl disponívelno repositório do IHTSDO16.

Estruturalmente, a SNOMED CT é constituída de uma hierarquia de classes, um conjuntode relações e axiomas que descrevem cada uma das classes. A hierarquia de classe é constituída de18 classes genéricas, utilizadas para organizar os principais conceitos incluídos na SNOMED CT(Figura 15).

Classes gerais como Organism, ‘Body structure’ e ‘Clinical finding’ são utilizadas paraorganizar taxonomicamente:13 http://www.openehr.org14 http://www.hl7.org15 http://browser.ihtsdotools.org/16 https://github.com/IHTSDO/snomed2owl


Figura 15 – Hierarquia da SNOMED CT (7).

• seres vivos como o Homo sapiens ou o Mus musculus;

• estruturas corporais como o coração (Heart) ou um componente celular Nucleolus;

• ou um fenótipo disfuncional como a ‘Hyperhomocysteinemia (disorder)’;

respectivamente.

Ao todo, a SNOMED CT inclui cerca de 77 relações utilizadas para representar mais de300 mil classes. De acordo com 92, as relações descritas na Tabela 15 são as relações com maiorfrequência.

Com algumas dessas relações, são criadas descrições de classes, como por exemplo aclasse ‘Neural tube defect (disorder)’ é descrita como uma subclasse de anomalia do sistemanervoso, que é uma anomalia do desenvolvimento (morfológico); ocorre de forma congênita e éidentificado no tubo neural (tabela 16). Além desse, a SNOMED CT conta com mais de 300 milaxiomas.


Tabela 15 – Lista de relações mais frequentes da SNOMED CT segundo 92.

Role group Direct device Finding siteDirect substance Method Using substance

Associated morphology After Procedure deviceHas specimen Has active ingredient Has focusCausative agent Finding context Has dose form

Associated finding Interprets Has intentProcedure site - Indirect Procedure site Direct morphologyUsing access device Component Procedure contextHas interpretation Associated procedure Occurrence

Access Using device Specimen source topographyTemporal context Laterality Subject relationship contextAssociated with

Tabela 16 – Axioma de subclasse para ‘Neural tube defect (disorder)’ de acordo com aSNOMED CT.

‘Neural tube defect (disorder)’ subClassOf‘Congenital anomaly of nervous system (disorder)’ and

(‘Role group (attribute)’((‘Associated morphology (attribute)’ some‘Developmental anomaly (morphologic abnormality)’) and

(‘Occurrence (attribute)’ some ‘Congenital (qualifier)’) and(‘Finding site (attribute)’ some ‘Neural tube structure (body structure)’)))

66

3 Bancos de Dados Biomédicos e asEstratégias de Interpretação

Bancos de dados biomédicos exercem um papel fundamental na pesquisa científica,e.g. são utilizados para consolidar resultados e disponibilizar, para a comunidade, dados sobresequências de genes, sequências de proteínas, organismos, fenótipos anormais, entre outros.Para identificar e facilitar a leitura dessas fontes, frequentemente são empregadas ontologiasbiomédicas para auxiliar o usuário na interpretação dos bancos de dados. Neste capítulo, serãodiscutidos aspectos sobre bancos de dados biológicos, ontologias biológicas e as estratégias deinterpretação existentes.

3.1 Bancos de Dados Biológicos

A utilização de bancos de dados na biologia e na medicina surgiu como um requisito daanálise de sequências, principalmente após as primeiras descrições de sequências de proteínasna década de 1950 (1). No início, esse tipo de dado era utilizado como uma fonte de estudosem biologia evolucionária, onde regiões conservadas de sequências de proteínas permitiam aidentificação de resíduos conservados entre organismos de diferentes espécies (1).

Em uma sequência de proteína (por exemplo) para a proteína Methylenetetrahydrofolatereductase (Tabela 17) em humano,s há uma sequência de letras em que cada uma representaum aminoácido específico. Por exemplo, o trechoMVNEARGNSS indica que há uma sequên-cia de aminoácidos Metionina-Valina-Asparagina-Ácido Glutâmico-Alanina-Arginina-Glicina-Asparagina-Serina-Serina, respectivamente. A tradução entre letras e proteínas é definida pelaUnião Internacional de Química Pura e Aplicada (UIQPA)1.

Com o aumento no número de pesquisas sobre proteínas e aminoácidos para a comparaçãoentre organismos, Eck (93) sugeriu a tabulação dos dados para facilitar a análise e leitura. Esseprocedimento teve como finalidade facilitar a avaliação e comparação de dados, além de auxiliarna identificação de padrões de repetições entre sequências (1) para proteínas semelhantes emorganismos diferentes, por exemplo. Essa ideia foi o principal motivo para a utilização decomputadores, para guardar, tabular e imprimir conteúdo biomédico. Esse processo data de 1965(94), em que foi criado o primeiro BD de sequências de proteínas, posteriormente publicado noAtlas of protein sequence and structure (1).

O acúmulo de dados sobre sequências provenientes de organismos, junto com os avançosda Ciência da Computação e o aumento no interesse sobre a automação do processo de análise de1 do inglês, International Union of Pure and Applied Chemistry - IUPAC.

Capítulo 3. BDs biomédicos e Interpretação 67

Tabela 17 – Sequência para a proteína canônica Methylenetetrahydrofolate reductase em huma-nos.

10 20 30 40 50MVNEARGNSS LNPCLEGSAS SGSESSKDSS RCSTPGLDPE RHERLREKMR

60 70 80 80 100RRLESGDKWF SLEFFPPRTA EGAVNLISRF DRMAAGGPLY IDVTWHPAGD

110 120 130 140 150PGSDKETSSM MIASTAVNYC GLETILHMTC CRQRLEEITG HLHKAKQLGL

160 170 180 190 200KNIMALRGDP IGDQWEEEEG GFNYAVDLVK HIRSEFGDYF DICVAGYPKG

210 220 230 240 250HPEAGSFEAD LKHLKEKVSA GADFIITQLF FEADTFFRFV KACTDMGITC

260 270 280 290 300PIVPGIFPIQ GYHSLRQLVK LSKLEVPQEI KDVIEPIKDN DAAIRNYGIE

310 320 330 340 350LAVSLCQELL ASGLVPGLHF YTLNREMATT EVLKRLGMWT EDPRRPLPWA

360 370 380 390 400LSAHPKRREE DVRPIFWASR PKSYIYRTQE WDEFPNGRWG NSSSPAFGEL

410 420 430 440 450KDYYLFYLKS KSPKEELLKM WGEELTSEES VFEVFVLYLS GEPNRNGHKV

460 470 480 490 500TCLPWNDEPL AAETSLLKEE LLRVNRQGIL TINSQPNING KPSSDPIVGW

510 520 530 540 550GPSGGYVFQK AYLEFFTSRE TAEALLQVLK KYELRVNYHL VNVKGENITN

560 570 580 590 600APELQPNAVT WGIFPGREII QPTVVDPVSF MFWKDEAFAL WIERWGKLYE

610 620 630 640 650EESPSRTIIQ YIHDNYFLVN LVDNDFPLDN CLWQVVEDTL ELLNRPTQNA

RETEAP

BDs biomédicos resultou na crescente disponibilidade de fontes. Para se ter uma ideia, no iníciodo ano de 2016 foram contabilizados 1685 bancos de dados biológicos ativos (2). O conteúdodessas fontes varia desde data warehouses conhecidos, como o GenBank (95) e ArrayExpress(96), até taxonomias e descrições de doenças. Um tipo de dado frequentemente incluído é adescrição de propriedades funcionais de moléculas, genes, proteínas, fenótipos, entre outros (97).Exemplos desses bancos de dados são o UniProt (subseção 3.1.1), Ensembl (subseção 3.1.2) eNCBI Taxonomy (subseção 3.1.3, descritos com mais detalhes nas próximas subseções).

Uma característica importante dos bancos de dados biomédicos é o uso frequente deanotações semânticas, que são (basicamente) classes de ontologias utilizadas como valores emcampos de BDs biomédicos, para substituir a nomenclatura especializada e dar semântica aosdados (98). Por exemplo, o UniProt utiliza classes provenientes da GO para descrever proteínasem termos de processos biológicos, funções moleculares e componentes celulares. No UniProt,os registros são anotados automaticamente e (posteriormente) são revisados manualmente para


eventuais correções. No caso específico do UniProt, as anotações foram adicionadas a partir dainiciativa UniProt-GO Annotations (UniProt-GOA) (99).

Nesse âmbito, a anotação de dados biomédicos é uma importante aplicação para ontologiasbiomédicas, mesmo apenas disponibilizando termos desconectados de ontologias. O objetivopor trás do uso das anotações é permitir uma interpretação simplificada dos dados utilizandoconceitos ontologicamente fundamentados. Na seção 3.2 serão apresentadas as abordagens maisutilizadas para interpretar dados biomédicos, além de contextualizar o papel das ontologias.

3.1.1 UniProt

O UniProt é um acrônimo para Universal Protein Resource (UniProt) (em tradução livre,Referência Universal de Proteínas) e foi criado para que pesquisadores possam compreender, deuma forma rápida, o domínio biomédico da proteômica (e.g. que estuda a estrutura e a função deproteínas). Essa iniciativa é mantida pelo European Molecular Biology Laboratory (EMBL)-European Bioinformatics Institute (EBI), Swiss Institute of Bioinformatics (SIB) e pelo ProteinInformation Resource (PIR).

Em termos de BD, o UniProt é dividido em 05 bases:

• UniProt Knowledge Base (UniProtKB) é uma base de dados mantida por especialistassobre o domínio e é subdividida em duas partes:

– UniProtKB/SwissProt: dados mantidos, revisados e anotados por especialistas manu-almente;

– UniProtKB/TrEMBL: dados mantidos de forma não revisada por especialistas.

• UniProt Archive (UniParc) tem como principal objetivo guardar dados sobre sequênciasde proteínas, como uma série história;

• UniProt Reference Clusters (UniRef) dedicado a unir sequências proteicas similares, deforma a otimizar a busca por tais tipos;

• Proteomes, criada para aglutinar proteínas de organismos os quais já apresentam seu códigogenético completamente sequenciado; e

• UniProt Metagenomic and Enviromental Sequence (UniMES) criada para dar suporte àárea da metagenômica.

Cada um desses bancos é descrito em arquivos de texto e organizados em tabelas.

Especificamente no UniProtKB, há dados relacionados a informações do tipo:

• Proteína, Gene, nome genérico;


• Anotações (classes) da GO para descrever processos biológicos, funções moleculares ecomponentes celulares;

• Mapeamentos a partir de identificadores para outros bancos de dados para descrever rotasmetabólicas envolvidas, sequências, substâncias químicas, entre outros, como o Ensembl,por exemplo;

• Taxonomia de seres vivos, a partir do NCBI Taxonomy;

entre diversas outras informações.

De forma a facilitar o desenvolvimento de aplicações as quais se utilizam do conheci-mento sobre as proteínas descritas no UniProtKB, tanto os dados em si, quanto o resultado deconsultas podem ser recuperados diretamente pela interface de consulta, como uma planilha,programaticamente via requisições HTTP (REST), através de uma API Java (UniProtJAPI) ou deuma interface para consultas (endpoint) SPARQL.

Neste trabalho, será utilizado apenas o UniProtKB para exemplificação. A UniProtKBaglutina dados de diversas fontes, como o Ensembl e o NCBI Taxonomy, além de empregaramplamente a utilização de anotações semânticas provenientes de ontologias como a PRO e aGO. No domínio da proteômica, é uma das fontes de proteínas mais conhecidas.

3.1.2 Ensembl

O projeto Ensembl2 (21) foi iniciado em 1999. O objetivo inicial era anotar genomas eintegrar esses dados com outros bancos de dados biomédicos, com o propósito de distribuí-losna web gratuitamente.

O Ensembl processa e sumariza dados genômicos de larga escala para cordados3 eorganismos modelo4. O conteúdo é relacionado à anotação de genes e locais de transcrição,evolução de sequências de genes, evolução de genomas, sequências e variantes estruturais alémde elementos regulatórios.

Dados do Ensembl são acessíveis diretamente pelo website como arquivos de texto ouplanilhas, por meio de um banco de dados público, via Application Programming Interface (API)ou File Transfer Protocol (FTP). O conteúdo é mantido por uma equipe composta de 40-50pessoas, divididas em grupos de trabalho que variam desde a criação de conjuntos de genes parauma dada espécie de organismo, ao time que prepara o conteúdo para disseminação online.

Do ponto de vista prático, o Ensembl inclui dados sobre:2 http://www.ensembl.org/3 Animais caracterizados pela presença de simetria bilateral, notocorda, tubo nervoso dorsal e cauda pós-anal em

pelo menos uma fase da vida. São incluídos nesse grupo os vertebrados, anfioxos e tunicados.4 Organismos comumente utilizados na pesquisa científica como objeto de experimentação e descrição de fatos de

interesse biológico, como fenótipos e processos.


• Descrição, com nome, sinônimo e localização;

• Mapeamentos como identificadores de outros bancos de dados, como o UniProt;

• Sequências de Genes;

• Anotações para a GO;

• Genômica comparativa;

• Fenótipos;

entre outras.

Neste trabalho, o Ensembl é utilizado como um complemento ao UniProt, principalmentereferente à descrição de fenótipos. No Ensembl, os fenótipos são listados em função das caracte-rísticas exibidas pelo organismo, a partir da proteína traduzida de uma determinada sequênciade ADN. A listagem de fenótipos é manualmente revisada, o que fornece confiabilidade nosdados registrados. Além disso, há uma ligação direta entre os dados disponíveis no Ensembl comos dados do UniProtKB, e.g. proteínas do UniProt apresentam relações com os genes descritosno Ensembl. Na prática, essa associação é realizada a partir do mapeamento entre registros doUniProt e do Ensembl com o registro (em ambos os BDs) dos respectivos identificadores paracada par proteína-gene.

3.1.3 NCBI Taxonomy

O NCBI Taxonomy (5) tem como objetivo a disponibilização de descrições sobre osníveis taxonômicos (no sentido biológico) de diversos organismos vivos, desde os níveis maisabstratos como super-reinos até os mais específicos (subespécies). Do ponto de vista prático, oNCBI Taxonomy é organizado de forma que todas as entradas do BD são um TAXON (tambémconhecido nós); e, o caminho realizado na hierarquia até um determinado TAXON é chamado delineage (linhagem, em tradução livre). Cada TAXON apresenta um identificador unívoco (taxid)e sequencial com políticas definidas sobre as instituições (ou grupos) que definem as formas denomeação de organismos.

Por exemplo, o organismo Mus musculus (rato branco de laboratório) apresenta todaa linhagem taxonômica, desde o nível de Reino até o gênero. Além disso, há mapeamentospara o genoma do organismo e o respectivo identificador. Neste trabalho, a NCBI Taxonomyserá utilizada pelo fato de ser incluída nos registros do UniProt e do Ensembl, como formade identificar a qual organismo se refere um dado registro sobre uma proteína ou um gene,respectivamente.


3.2 Interpretação sobre dados biomédicos e suas estratégias

O processo de interpretação de dados, sobretudo do domínio biomédico, é baseado nomecanismo de leitura e avaliação por especialistas de domínio. Um trabalho frequentementerealizado de forma manual, é atualmente suportado por abordagens, e.g. ferramentas e bancosde dados que auxiliam na avaliação automatizada e padronização da análise dos dados (11). Asabordagens de anotação automatizada mais comuns, por exemplo, realizam a identificação depalavras-chave em texto, em que a fonte de termos chaves são ontologias. O fato de utilizar, dessaforma, classes de ontologias para anotar dados é que fornece a conotação de anotação semânticada tarefa.

HUANG et al. (19), por exemplo, fizeram um apanhado das abordagens existentes paraanotação semântica e identificou (inclusive) que grande parte delas foca na utilização da GO comofonte de anotações. Para realizar a comparação de sequências de genes, por exemplo, existemalgoritmos otimizados que realizam a comparação de uma lista de caracteres que descrevem umgene, como o Basic Local Alignment Search Tool (BLAST) (100) e o FASTA (101). Atualmente,e como citado por (102), há variações desses algoritmos clássicos para comparar sequênciasde proteínas, nucleotídeos e proteínas, incluindo consultas diretas a BDs biomédicos, como oUniProt e Ensembl.

Uma limitação quanto ao uso das anotações é que (frequentemente) a análise realizadatoma como base uma hipótese ou questão de pesquisa, i.e. a análise é voltada para uma variávelespecífica. Essa prática é frequentemente identificada na análise de proteínas (11) e de genes(103). Tipicamente, a análise realizada pela pesquisa na biologia e medicina procura verificaruns ou alguns poucos genes simultaneamente. Por exemplo, em SIQUEIRA et al. (104) e em DECARVALHO et al.(105) são investigadas variações no gene MTHFR para a proteínaMethylenete-trahydrofolate reductase, em humanos e a relação com o desenvolvimento de doenças hepáticas.Esses trabalhos são comparados com outros de mesma natureza, focando na hipótese da pesquisa,que é a investigação sobre variações dos genes.

Com a inclusão de novos métodos de análise, como o microarray em que é estudada aexpressão de diversos genes em um organismo (por exemplo), foi verificada tanto a necessidadequanto a existência de ferramentas que permitissem a análise de diversas características gênicasde forma simultânea (106). Em outras palavras, uma ferramenta que ofereça suporte ao usuário noprocesso de interpretação em um cenário ampliado. Uma das primeiras iniciativas relacionadas aesse tipo de tarefa foi a ferramenta OntoExpress (106).

No OntoExpress, a partir de uma lista de genes especificada pelo usuário, bancos dedados biológicos eram minerados a fim de identificar classes provenientes da GO (106). Em2005, 107 listou as ferramentas existentes (de 1 para 14, em um período de cerca de 2 anos), alémde suas capacidades em explorar testes estatísticos para identificar classes a partir da GO. Comoo processo estatístico dessas abordagens não garante a qualidade das anotações, o UniProt-GOA


(98, 99) foi criado para melhorar e refinar manualmente as classes recuperadas.

Entretanto o processo é custoso e demorado, sendo definidos temas específicos pararevisar manualmente o conteúdo minerado, como por exemplo o desenvolvimento do rim ouproteínas localizadas no exossomo5. Por conta do custo em revisar esse conteúdo e, na aindapresente, inabilidade em correlacionar as diversas anotações de diversos registros diferentes,alguns autores como 11, 10 e 12 descreveram a possibilidade de explorar ontologias para auxiliaro usuário no processo de interpretação. A seguir, uma breve descrição sobre o processo deinterpretação baseado em ontologias.

3.2.0.1 Ferramentas de análise e suporte à interpretação

De acordo com 19, existem 3 classes de ferramentas de análise e suporte à interpretaçãono domínio biológico:

• Análise de Enriquecimento Único, em que testes estatísticos são aplicados a uma lista degenes para determinar os termos que serão utilizados para identificar as características deum gene (por exemplo). Exemplos de ferramentas são o OntoExpress (108) e o GoMiner(103);

• Análise de Enriquecimento por Conjuntos, como uma expansão do modelo de enri-quecimento único. Nessas técnicas, sequencias inteiras de genes e dados experimentaisassociados são incluídos na análise, sem a necessidade de listar todos os genes. Exemplosde ferramentas são o GO-Mapper (109) e o GOdist (110).

• Análise de EnriquecimentoModular, como uma expansão do modelo de enriquecimentoúnico. Além da aplicação de testes estatísticos em listas de genes, por exemplo, também sãoincluídas na análise interações entre os termos e entre os genes. Exemplos são o Ontologizer(111) e o DAVID (112).

Apesar de existir uma variedade de ferramentas para auxiliar na análise e interpretação degenes e proteínas, as ferramentas existentes são limitadas à recuperação e descrição de variáveisúnicas (11, 10, 12), e.g. a sequência para uma proteína como a insulina é comparada comsequências de proteínas em diversos outros animais. Para que a análise possa ser expandida, érecomendado o uso de ontologias, de forma a explorar as descrições formais existentes. Com isso,seria possível analisar dados biomédicos em uma perspectiva funcional e com maior proximidadeda realidade. Esse argumento é embasado no fato de que as ontologias formais incluem descriçõespara descrever o entendimento de um determinado processo de (por exemplo) methylation comoocorre de maneira geral nos organismos vivos.

De fato, essa capacidade foi introduzida por HOEHNDORF et al. (16) e JUPP et al.(17) quando da utilização de ontologias para consultar bancos de dados biomédicos e para5 Uma estrutura celular em forma de vesícula (pequena bolsa).


empregar raciocínio sobre o conteúdo de bancos de dados (respectivamente). Para ilustrar, serãoapresentadas 3 abordagens tradicionais de análise e, em seguida, como a abordagem baseada emontologias é constituída.

3.2.0.1.1 GoMiner

O GoMiner nasceu diante da necessidade em realizar o perfil de expressão de genes (103).A expressão de genes é identificada através da aplicação de métodos moleculares de análise,como o microarray. Entretanto, e como descrito por 103, o processo de interpretação do perfildos genes é custoso e propenso a erros. Dessa forma, o GoMiner tem como proposta incorporara GO para automatizar o processo de anotação e interpretação de listas de genes de qualquertamanho.

O processo de análise é resumido como segue: partindo de duas listas, uma com diversosgenes e outra de interesse do usuário que é comparada com registros de BDs biomédicos afim de identificar termos associados às classes da GO. A partir dessa comparação as classesprovenientes da GO são identificadas por um valor que indica a pertinência se a classe é aplicávelà interpretação dos genes ou não. Essa pertinência é verificada a partir da aplicação de métodosestatísticos, que comparam os dados recuperados e as classes existentes na GO.

3.2.0.2 GO-Mapper

SMID et al. (109) descreveram que a análise funcional de genes proveem uma dimensãoextra de análise sobre dados biomédicos. Para isso, foi construída uma categorização funcionalde genes baseada na GO. O GO-Mapper toma como princípio que outras abordagens (e.g. oOntoTools) e necessita de uma predefinição de ponto de corte estatístico para selecionar classesda GO a partir dos genes.

Na prática, o GO-Mapper recebe como entrada termos provenientes da GO e os índicesde expressão gênica proveniente de experimentos científicos, e.g. microarray. Para cada classe daGO são avaliadas (estatisticamente) características identificadas a partir de estudos científicossobre os genes disponibilizados pelo usuário. Para as diferentes combinações de genes, sãocalculados os termos que se aplicam de forma mais expressiva (e.g. com um maior coeficientede similaridade entre os genes e os termos). Ao definir um termo GO para cada conjunto decombinações de genes, a expressão gênica é assim interpretada (manualmente) pelo usuário, apartir das classes GO identificadas.

Em suma, o GO-Mapper utiliza as predefinições existentes relacionadas à expressãogênica proveniente de estudos científicos, ponderando (estatisticamente) classes provenientes daGO descrevem características funcionais de genes. O ponto principal é a elucidação da possívelrelação de um ou mais genes com processos biológicos e na descrição de possíveis funções


moleculares. No final, o conjunto de termos da GO identificados determina o perfil funcional deum experimento científico.

3.2.0.3 DAVID

ODAVID (112) foi desenvolvido com o propósito de suplementar a fraqueza demonstradapor outras ferramentas (como oGO-Mapper) emminerar comparações de vários-para-vários genesanotados em bancos de dados biomédicos, excluindo (principalmente) anotações redundantes.Como proposta, HUANG et al. (112) descreveram a necessidade em criar uma ferramenta capazde minerar bancos de dados biomédicos, identificando relações entre diversos genes a partir dedados anotados com termos provenientes de ontologias biomédicas, em específico, a GO.

A principal tarefa do DAVID é o agrupamento de termos que apresentam diversosgenes em comum, de forma a reduzir resultados redundantes, facilitar a visualização de genesrelacionados, entre outras vantagens. O procedimento de avaliação dos termos em relação aosgenes é realizado com base em cálculos de similaridade e é iniciado a partir da recuperação deanotações relacionadas a genes específicos (informados pelo usuário), com o auxílio de BDsbiomédicos. Após o cálculo de similaridade entre os termos GO e as anotações existentes paraos genes, é construída uma matriz gene-termo.

Cada posição damatriz indica a similaridade de um termo em relação ao gene. Em seguida,são aplicados cálculos estatísticos para explorar a matriz de forma a medir a relação entre ostermos e entre os genes. Finalmente, são aplicadas heurísticas baseadas em lógica nebulosa paraagrupar genes e termos. A relação entre termos e genes é apresentada como gráficos ou mapasde calor de forma a evidenciar os aglomerados definidos por similaridade.

3.2.1 Interpretação baseada em ontologias

Um ponto comum das abordagens existentes é a exploração, quase que única, da GO e aaplicação de métodos unicamente estatísticos para a análise e interpretação das característicasfuncionais de genes e proteínas. Essa restrição nos métodos determina, inclusive, uma limitaçãono processo de interpretação que se torna muito dependente de cálculos estatísticos e que nãoexploram como esses termos são organizados dentro do domínio, e.g. como descrito nas própriasontologias.

Como solução, alguns estudos, como os de SANTANA et al. (18) e HOEHNDORF et al.(16), demonstram a capacidade inferencial do uso de ontologias para avaliar dados provenientesde publicações científicas e BDs biomédicos. Em SANTANA et al. (18) (por exemplo), foiavaliado como o conteúdo tabular proveniente de publicações científicas pode ser explorado apartir do uso de raciocínio e ontologias formais, no sentido de interpretar o conteúdo a partir deontologias. Em HOEHNDORF et al. (16), foram utilizadas ontologias (suportadas por raciocínio)para validar o conteúdo anotado de fenômenos biomédicos.


Como citado, a necessidade em explorar o papel das ontologias no contexto dos dadosbiológicos foi evidenciada por 11, 10 e 12. BOBED e MENA(12) apresentaram uma ferramentachamada de QueryGen, capaz de analisar as palavras-chave fornecidas durante uma consulta dousuário para (com auxílio de ontologias e de raciocinadores) definir outras possíveis palavras-chave que estejam faltando na consulta. O processo depende do usuário para validar as consultasde forma que o conjunto de palavras-chave final é utilizado para recuperar dados em bancos dedados biológicos utilizando abordagens de integração semântica.

Apesar do trabalho desenvolvido por HOEHNDORF et al. (16) explorar o raciocínio paraauxiliar na interpretação, e do trabalho de BOBED e MENA (12) ser capaz de (com a interaçãodo usuário) identificar componentes de ontologias que podem ser aplicados ao problema dousuário, essas abordagens apresentam limitações. Por exemplo, o trabalho de BOBED e MENA(12) tem como foco a extração de palavras-chave, não capturando a semântica dos dados.

Já em 16, há uma conversão direta do conteúdo do BD BioModels Database (113) emum arquivo OWL, sem fazer menção à constituição ontológica do conteúdo gerado a partir daconversão. Apesar de esclarecer a semântica do banco de dados em uma ontologia construídaapenas para o BD em questão, não há uma descrição clara sobre como o processo é realizado,além das implicações que o modelo convertido representa no contexto das ontologias.

Nesse sentido, as abordagens existentes sobre a utilização de ontologias em BDs bio-médicos não deixam claro o contexto de interpretação dos dados numa perspectiva ontológica.Para exemplificar, consideramos que em uma tupla de BD biomédico anotado, os valores de cadacampo são anotações provenientes de ontologias biomédicas, como a GO, PRO e SNOMED CT.Todavia, cada uma dessas ontologias é construída de forma independente, ainda que sendo criadasegundo uma mesma fundamentação ontológica (e.g. a BFO).

O usuário pesquisador ou analista de laboratório, durante uma tarefa de comparação entreregistros do UniProt e Ensembl, pode não saber determinar (claramente) como as anotações sãoassociadas entre si (figura 16). Todavia, ao empregar uma ontologia biomédica supradomíniocomo a BTL2, as possíveis associações entre as anotações podem se tornar evidentes. Por exemplo,uma proteína MS é parte de um organismo (‘is part of’) (figura 17). Essas relações não existemnas ontologias GO, PRO, ChEBI ou SNOMED CT de maneira isoladamente. Dessa forma, cabeunicamente ao usuário determinar a interpretação de cada um dos registros.

Já a interpretação ontológica prevê a utilização das ontologias para auxiliar o usuárionesse processo de identificação das relações existentes entre os valores dos campos em uma tuplade BD biomédico. Na figura 17 são utilizadas relações da BTL2 para criar mapeamentos entre asanotações provenientes (especificamente) da PRO (Proteína) e NCBI Taxonomy (Organismo).

Todavia, a representação do conteúdo de um BD em uma ontologia formal revela diferen-ças entre ambos os paradigmas. Por exemplo, em um BD descrito a partir de relações definidasem um esquema, definindo campos e tuplas que serão formadas e valoradas, cada um desses


Figura 16 – Exemplo em que há a indefinição sobre possíveis associações entre as entidadesregistradas no BD pelo usuário.

Figura 17 – Exemplo em que há a definição sobre possíveis associações entre as entidades regis-tradas no BD pelo usuário.

componentes é classificado (ontologicamente) como entidades de informação. Dessa forma, umBD é uma entidade de informação derivada de um esquema e composto de relações, campos,tuplas e valores (i.e. o dado). Em uma ontologia, o dado representará sempre uma instância.

Ao utilizar anotações, são gerados problemas de ordem ontológica e representacional,que resultam diretamente em como o usuário, que interpretará dados anotados, precisa decidir.Por exemplo:

(i) O que um determinado registro significa dentro de uma ontologia, se as anotações repre-sentam classes ou indivíduos?


(ii) Como é realizada a extração direta da semântica e como tornar o processo reprodutível?

Do ponto de vista ontológico, a não consideração desses fatores impacta diretamente nacapacidade de interpretação sobre os dados estudados. Esses problemas impactam diretamentena estratégia de representação. Se o conteúdo de um BD é interpretado como indivíduos de umaontologia, é necessário que eles sejam importados e os referentes (i.e. as classes) representadosrefletindo o conteúdo do BD.

Por exemplo, supondo que um dado os23 é anotado com a subclasse de organismoMousee incluída como parte do registro, essa anotação tanto pode ser considerada uma referência a umaclasse, quanto um indivíduo isolado. O discernimento entre a compreensão de uma anotação(como classe ou como indivíduo) implica em utilizar (ontologicamente) o dado a partir deindivíduos (os23), ou utilizar os referentes (Mouse) para representar o registro.

Representar como indivíduos ou como classes pode resultar em diferentes abordagensrepresentacionais, e.g. como a população de ontologias (114), na qual há a importação dosregistros como indivíduos de uma ontologia, sem fazer discernimento sobre o contexto ontológicodas classes populadas. Ou, interpretar o conteúdo a partir dos referentes, permitindo que sejamidentificadas relações ainda não descritas na ontologia.

Por exemplo, considerando os23 e px9786 dois indivíduos que são anotados como classesdeMouse e Insulin em um BD qualquer. Do ponto de vista computacional, não apresenta nenhumsentido. Para um especialista de domínio, significa que existe um organismo do tipo Mouseque inclui uma proteína do tipo Insulin. Ao realizar esse tipo de interpretação com ontologiasaxiomatizadas, como a GO, ChEBI, BTL2 ou PRO, a interpretação do usuário pode ser avaliada,e.g. sobre a consistência das afirmações e até que ponto o fenômeno descrito é condizente como domínio. Esse tipo de tarefa é suportado por raciocinadores utilizados juntamente com asontologias formais.

Além disso, (ii) o formato do processo de extração determina tanto as escolhas representa-cionais realizadas, quanto como o conteúdo dos bancos de dados é interpretado. Se as anotaçõessão consideradas indivíduos, significa que na prática as anotações são utilizadas apenas comovocabulário de consulta e recuperação, e.g. sem a identificação das classes referentes. Isso indicaque a interpretação de como os dados se comportam ontologicamente é deixada de lado. Um dosmotivos pode ser a falta de garantia de que existam axiomas nas ontologias que suportem como ousuário interpreta os dados

Entretanto, se a interpretação é construída sobre os referentes (i.e. as classes), é possívelrepresentar e tornar mais claro o contexto ontológico dos dados, como no exemplo entreMouse eInsulin. Ao tornar o processo de interpretação mais claro, consequentemente, podem ser definidasestratégias para que torne o processo reprodutível. Por exemplo, verificação de como se deveidentificar adequadamente os referentes das anotações como classes nas ontologias, a partir derelações identificadas pelo usuário. Esse é um dos pontos considerados neste trabalho e que será


tratado no capítulo 4. Como um banco de dados inteiro é definido segundo um esquema único, oprocesso de interpretação (assim) pode ser propagado e reproduzido de forma semelhante paratodos os dados disponíveis.

Portanto, sem uma interpretação formalizada, a reprodutibilidade de todos os dadosexistentes em um ou mais BDs é comprometida. Por exemplo, sem um processo de interpretaçãodefinido, o usuário pode recair em erros de interpretação como, por exemplo, interpretar funçõesmoleculares incluídas na GO como um tipo de processo. Na GO, classes como a que referenciauma função molecular de ligação de proteínas (protein binding), ou que descreve a atividadede oxirredução6 por uma proteína (oxireductase activity) são interpretadas como funções 7.Entretanto, do ponto de vista ontológico, funções não apresentam processos como partes, gerandoum erro de interpretação. Esse tipo de erro de interpretação, que só é passível de identificaçãoa partir do uso de raciocínio sobre a formalização da interpretação, como identificado porHOEHNDORF et al. (16).

É justamente para tentar resolver essas limitações, de origem ontológica e representacional,que esta tese foi construída.

6 Quando elétrons são perdidos de uma molécula para outra.7 Entidades realizáveis inerentes em objetos materiais que determinam sua finalidade. Por exemplo, a função de

um automóvel é de transporte.

Parte II

Resultados

80

4 Interpretação ontológica debancos de dados biomédicos

Bancos de dados biomédicos, como descrito, são repositórios de resultados sumarizados,recuperados a partir de investigações científicas. Além de dados numéricos e desestruturados, osBDs biomédicos também incluem anotações semânticas. Ontologias como a GO, PRO e ChEBIsão frequentemente utilizadas para esse propósito. Mesmo que essas ontologias de domínio –isoladamente – obedeçam a princípios formais e a boas práticas de representação (80, 115), poucofoi formalizado sobre o sentido das anotações. A interpretação do que as anotações em um BDsignificam, mesmo diante da existência de um dicionário ou um esquema de BD, é deixada parao usuário.

Por exemplo, em uma tupla do UniProt, a proteína Methionine synthase é ligada a umprocesso de methylation descrito na GO, indicando apenas uma relação entre as duas anotações,sem especificação ou sentido. Com anotações construídas e apresentadas de forma clara parao usuário, e.g. sem ambiguidades, comparações e hipóteses científicas podem ser estudadas eavaliadas com maior precisão.

Um exemplo é descrito na figura 18, na qual há organismos relacionados a processosbiológicos. O fato de existirem registros associados em colunas dos bancos de dados permitedescrever que existe algum tipo de associação entre organismos e entre processos. Do ponto devista ontológico, associações entre objetos (organismos) e processos (processo biológico) são deinclusão ou participação.

Na figura 18 não é possível determinar qual relação pode ser aplicada de forma simplessem definir claramente como é a interpretação. Indo além, o especialista do domínio, ao verificarque Homo sapiens e Mus musculus são mamíferos, pode criar outras interpretações do tipo:

• Se os três processos biológicos (respiração celular, metabolismo de aminoácidos e ometabolismo da glicose) são frequentemente relacionados à proteína insulina, será que háalguma associação entre o metabolismo da E. coli e o dos demais organismos?

Em outras palavras, se os três organismos incluem a insulina e podem participar dos mesmosprocessos biológicos, seria natural pensar que há alguma associação entre o metabolismo daE.coli com o do H. sapiens e o do M. musculus.

Para o especialista do domínio, criar esses tipos de associações pressupõe a compreensãosobre o que está apresentado na forma de dados (i.e. o BD), e o que pode ser interpretado a partirdisso. A interpretação do conteúdo é baseada na expertise do usuário. Além disso, e mesmoque exista uma descrição informal, como um dicionário de dados, as associações existentes na

Capítulo 4. Interpretação ontológica de BDs biomédicos 81

Organismo Processo Biológico

Homo sapiens respiração celular

Mus musculus metabolismo de aminoácido

Escherichia coli metabolismo da glicose

OrganismoProcesso Biológico

Dados

Representação

Escherichia coli metabolismo da glicose

‘has participant’

includes

Mus musculus metabolismo de aminoácidos

includes


Homo sapiens respiração celular


includes

Figura 18 – Exemplo de registro de banco de dados e a representação informal das entidades.

figura 18 podem ser interpretadas de formas diferentes. Por exemplo, um usuário com menosexperiência pode não ir além da relação registrada entre Homo sapiens e respiração celular enão considerar outras possíveis relações de Homo sapiens com metabolismo de aminoácido oumetabolismo da glicose.

Em um cenário real com BDs biomédicos (viz. UniProt e Ensembl), a grande quantidadede dados existente tanto pode ser um benefício, quanto um problema. De um lado, há muitomais dados para construir análises. Do outro, a grande quantidade de dados pode fazer com queo usuário se perca no processo de interpretação. Esse problema pode ser ampliado pelo fatode existirem mapeamentos entre BDs biomédicos, viz. identificadores do Ensembl e do NCBITaxonomy, incluídos no UniProt. Esses mapeamentos são utilizados para expandir a análise eincluir mais dados de estudos científicos (116, 117).

Especificamente, um extrato de registro do UniProt anotado com IDs das ontologias GO,PRO ou ChEBI, e mapeados com BDs, como o Ensembl e o NCBI Taxonomy, é descrito natabela 18.

Registros, como o da tabela 18 são capturados a partir do processamento de textos cientí-ficos, passando (posteriormente) pela revisão manual por um ou mais profissionais especialistas.Essas mesmas anotações podem ser coletadas por profissionais de laboratórios, especializados


Tabela 18 – Conteúdo típico da união dos BDs UniProt, Ensembl e NCBI Taxonomy.

Entidade Fonte ConteúdoProtein PRO Betaine–homocysteine S-methyltransferase 1Organism NCBI Homo sapiens (Humano)Biological GO reg. of homocysteine metabolic process;process amino-acid betaine catabolic process;

L-methionine salvage;protein methylation;choline catabolic process; . . .

Molecular GO BHMT activity;function zinc ion binding; . . .Cell components GO cytoplasm; cytosol; extracellular exosomeSmall molecules ChEBI Homocysteine; . . .Phenotypes SNOMED intestine, decreased size;

increased lean body mass; . . .

em análise de genes e proteínas (e.g. utilizando técnicas de sequenciamento).

Normalmente, os especialistas acessam os BDs em busca de identificar semelhançasentre os seus experimentos e outros já realizados. Ao mesmo tempo, são identificadas pesqui-sas científicas que tanto servem para documentar um exame, quanto para comparar trabalhoscientíficos. Na prática, as anotações auxiliam na revisão de um experimento e na interpretaçãodos resultados. Por exemplo, o registro #Q93088, ao qual se refere a tabela 18, inclui resultadoscientíficos de vários artigos, como por exemplo os trabalhos de 118 e 119.

Mesmo empregando classes de ontologias, a interpretação do conteúdo dos bancos dedados não é transparente, e.g. não é claro como as entidades de um único registro se relaci-onam. Por exemplo, na tabela 18 não é possível definir se a proteína Betaine–homocysteineS-methyltransferase 1, em humanos, participa de processos biológicos do tipo protein methyla-tion e choline catabolic process no cytoplasm ou em um extracellular exosome. Isso corroboracom o fato de BDs biológicos anotados incluírem observações sobre instâncias provenientes depublicações científicas. Dessa forma, não é possível definir axiomas generalizáveis do tipo “paratodo A... há um B”.

Resumindo, o cenário é o seguinte:

• De um lado, temos BDs ricos e revisados, com uma estrutura tabular, mas que não apresen-tam uma semântica clara e definida. E.g. um BD, com campos para Protein, Organism, ePhenotype, preenchidos com símbolos Prot1, Org1, e Phen1, é aberto a interpretações, viz.que organismos do tipo Org1, em que Prot1 é disfuncional, apresentam uma disposição dedesenvolver um fenótipo patológico Phen1.

• Do outro lado, há ontologias em que axiomas construídos em lógica permitem realizarraciocínio, mas classes utilizadas como anotações em BDs não apresentam descrições que


as suportem na interpretação. Por exemplo, é possível recuperar a Doença de Parkinsonquando buscando por doenças que afetam o sistema extrapiramidal:

‘Doença de Parkinson’ subClassOfSituation and (‘is included in’ some ‘Sistema extra-piramidal (Estrutura)’)

dada que a definição lógica da ‘Doença de Parkinson’ é uma desordem localizada nogânglio basal do cérebro

‘Doença de Parkinson’ subClassOfSituation and (‘is included in’ some ‘Gânglio Basal do Cérebro (Estrutura)’)

e que estruturas do gânglio basal são do sistema extrapiramidal.

‘Gânglio Basal do Cérebro (Estrutura)’ subClassOf‘Sistema extra-piramidal (Estrutura)’

Da mesma forma que nesse exemplo, recuperar conteúdo utilizando raciocínio em DLrequer que as classes sejam descritas de forma clara e definida.

Uma maneira de facilitar o processo de interpretação dos dados, tanto explorando asanotações, quanto as ontologias utilizadas para anotar os dados, é a partir da criação de descriçõesde classe. Classes como pro:methionine synthase ou go:zinc ion binding apresentam relaçõesclasse-subclasse (tabela 19).

Tabela 19 – Exemplos de relações de classe-subclasse

go:‘zinc ion binding’ subClassOf go:‘transition metal ion binding’pro:‘methionine synthase’ subClassOf pro:‘Protein’

Esse tipo de relação hierárquica pode ser utilizada no processo de raciocínio, e.g. pararecuperar as subclasses de ‘transition metal ion binding’. Entretanto, as descrições de classesexistentes nas ontologias utilizadas para anotação podem não ser suficientes para o usuáriointerpretar o conteúdo (figura 19).

Na figura 19, o registro #Q99707, do UniProt, inclui anotações para diversas classes,entre elas, ‘Methionine synthase’, ‘Homo sapiens’ e assim por diante.

Capítulo4.

Interpretaçãoontológica

deBD

sbiomédicos

84

Figura 19 – Exemplo de interpretação de um registro do UniProt.


Cada uma dessas classes é organizada a partir de hierarquias de subclasses, nas respectivasontologias e terminologias. Adicionalmente, há descrições de classes, como segue.

‘methionine synthase’ subClassOf and ‘is part of’ some ‘Homo sapiens’

Isoladamente, não existe nenhum tipo de relação entre pro:‘methionine synthase’ encbi:‘Homo sapiens’. Entretanto, isso não impede o usuário de interpretar relações a partir doregistro da UniProt. No exemplo da figura 19, as relações ‘has participant’ e ‘is included in’podem ser interpretadas pelo usuário para indicar que, pelo menos, uma instância do processobiológico ‘cobalamin metabolic process’ tem ao menos um participante ‘methionine synthase’.Outra interpretação possível seria afirmar que todas as instâncias da classe ‘Homo sapiens’apresentam a capacidade de realizar um processo de ‘cobalamin metabolic process’.

É possível criar essa interpretação formal a partir do uso de ontologias supradomínio. Nocaso da figura 19, foi empregada a BTL2. Na BTL2, objetos materiais (‘methionine synthase’participam (‘has participant’) de processos (‘cobalamin metabolic process’). Ao aplicar ontolo-gias supradomínio, a interpretação do usuário tanto pode ser compreendida numa perspectivaontológica (por fundamentar a interpretação com ontologias), quanto lógica (pelo uso de umalinguagem de representação formal, como a DL).

O conteúdo de um banco de dados anotado pode ser interpretado em mais de umaperspectiva. Os dados podem ser compreendidos como:

(i) Dados de um registro anotado são indivíduos de uma ontologia;

(ii) Dados de um registro anotado referenciam classes de uma ontologia.

Por exemplo, ao incluir uma anotação “Methionine synthase” em um BD, ela é tanto umindivíduo (de uma ontologia) (i), quanto a referência a uma classe pro:‘methionine synthase’,uma subclasse de Protein (ii). Isso ocorre pelo fato de um BD e seu conteúdo representarementidades de informação, com relações, campos, valorações e tuplas. Nesse cenário, ao utilizaranotações para classes reais, temos que essas anotações representam indivíduos em uma onto-logia, classificados como um tipo de objeto de informação (tabela 20). Em última instância, ainterpretação pode ser considerada uma referência a uma classe da ontologia.

Tabela 20 – Entrada em um registro de BD referencia uma ou mais classes definidas.

DatabaseEntryx type represents only(DefinedClass1 or DefinedClass2 or . . . or DefinedClassN )

A tabela 20 descreve que cada entrada em um registro de BD é uma instância (type) querepresenta uma ou mais classes.

Para exemplificar como as anotações fazem parte de um registro de BD, no cenário (i) elassão interpretadas como indivíduos (da ontologia). Por exemplo, no UniProt cada tupla apresenta


diversas anotações para proteínas (PRO), para funções moleculares (GO) e organismos (NationalCenter for Biotechnology Information (NCBI) Taxonomy). Cada valor de campo (i.e. anotação)é um indivíduo da classe btl2:‘Information object’. Cada indivíduo, nesse cenário, referenciauma classe nomeada pela anotação na ontologia.

Entretanto, referenciar uma classe não significa determinar (por exemplo) que umaanotação A é o mesmo que a classe A. Isso significa que existe uma subclasse de A (à qual aanotação se refere); e que cada classe é definida em função das associações com outras classesreferenciadas num mesmo registro (figura 19).

Nessa perspectiva, um registro do UniProt que inclui uma anotação “zinc ion binding”referencia uma subclasse ‘Sub_zinc ion binding’ (figura 19). Essa mesma classe, então, é definidade acordo com as demais subclasses referenciadas pelo mesmo registro (tabela 21).

Tabela 21 – Definição da classe de exemplo ‘Sub_zinc ion binding’.

‘Sub_zinc ion binding’ subClassOf ‘zinc ion binding’ and(‘has participant’ some ‘Sub_methionine synthase’) and(‘is included in’ some ‘Sub_Bos taurus’)

A tabela 21 indica que ‘Sub_zinc ion binding’ tem como participantes subclasses de‘methionine synthase’ e incluídos em organismos ‘Bos taurus’. A interpretação de um registroanotado, assim, não permite que sejam criadas afirmações universais sobre as classes diretamentereferenciadas, mas apenas para uma determinada subclasse daquela referida pela anotação. Aoutilizar uma classe O como anotação em vários registros de um banco significa que a anotação ésobre uma subclasse de O (O’, O” ou O”’) (figura 20).

Para capturar essas associações, é possível utilizar um artifício: representar cada registroe suas relações a partir da criação de subclasses. Por exemplo, no registro da tabela 22 (figura21), as associações entre O, Pr, Bp1, Bp2 e Bpn são interpretadas como combinações dessasclasses. Dessa forma, a interpretação de O é criada a partir de todas as combinações com Pr,Bp1, Bp2 e Bpn e assim sucessivamente.

Na prática, a interpretação ontológica sobre dados anotados apresenta algumas aplicaçõesespecíficas:

• Aplicação para suportar estratégias de recuperação baseada em OBDA, e.g. se a represen-tação pode ser utilizada para recuperar conteúdo de bancos de dados biológicos conformedefinido pela estratégia de integração semântica OBDA 1;

• Enriquecimento axiomático, e.g. há novos axiomas de classe em nível de Tbox; e

• Utilização de raciocínio, e.g. checar consistência, classificar e recuperar conteúdo a partirde inferências lógicas.

1 para mais detalhes sobre OBDA: apêndice A.1.2.2, página A.1.2.2


ID Organismo Proteína Processo Biológico

1 O Pr Bp1, Bp2, Bpn...

O

Pr

Bp1

Bpn

Bp2

O’

Bp1’

��

��

��

��

��

��

��

��

��

��

O’’

O’’’

Bp1’’Bp1’’’

Bp2’’’

Bp2’’

Bp2’

Bpn’

Bpn’’

Bpn’’’Pr’

Pr’’’Pr’’

Figura 20 – Exemplo de interpretação por subclasses.

Esta última é dependente da linguagem de representação. Neste trabalho, será utilizada a DLpara auxiliar na demonstração dessas capacidades.

Nesse sentido, o processo de interpretação foi criado a partir da identificação das formase da extensão em que é possível interpretar uma tupla derivada de um registro de BD biomédicocom base em ontologias formais de domínio. Identificar os valores de uma tupla, como referênciasa classes ou indivíduos, traz implicações representacionais que precisam ser elucidadas.

Este capítulo trata desse processo de elucidação ontológica, que chamamos de interpreta-ção ontológica. A seguir, descrevemos as considerações ontológicas necessárias para o processode interpretação, o domínio de experimentação utilizado e os materiais e métodos utilizados paraexemplificar as possíveis formas de se interpretar uma tupla proveniente de um BD biomédico, e.g.se como indivíduos, subclasses, incorporando disposições ou de forma híbrida entre subclasses edisposições.

4.0.1 Critérios Ontológicos

Uma peculiaridade sobre as entidades biomédicas é que elas são (frequentemente) descri-tas em termos de processos, que são a realização de disposições. Uma disposição é conceituadacomo uma propriedade causal associada à uma realização (120). Por exemplo, dizer que todosos humanos são animais é uma afirmação categórica; dizer que todos os humanos apresentam acapacidade de desenvolver doença arterial coronariana é uma afirmação disposicional.

Ou seja, um objeto apresentar uma disposição é o mesmo que ter a tendência em realizar


Tabela 22 – Subclasses de exemplo.

O’_Pr’ subClassOf O’ and (‘has part’ some Pr’)O’_Bp1’ subClassOf O’ and (includes some Bp1’)O’_Pr’_Bp1’ subClassOf O’and (‘has part’ some Pr’) and

(includes some Bp1’)Pr’_O’ subClassOf Pr’ and (‘is part of’ some O’)Pr’_Bp1’ subClassOf Pr’ and (‘is participant in’ some Bp1’)Pr’_O’_Bp1’ subClassOf Pr’ and (‘is part of’ some O’) and

(‘is participant in’ some Bp1’)Bp1’_O’ subClassOf Bp1’ and (‘is included in’ some O’)Bp1’_Pr’ subClassOf Bp1’and (‘has participant’ some Pr’)Bp1’_O’_Pr’subClassOf Bp1’ and (‘is included in’ some O’) and

(‘has participant’ some Pr’)

Figura 21 – Combinações de O, Pr e Bp1 para a geração de subclasses.

sub

Cla

ssO

f

sub

Cla

ssO

f

sub

Cla

ssO

f

O Pr Bp1

O’ Pr’ Bp1’includes

includes


O’_Pr’ O’_Bp1’ O’_Pr’_Bp1’subClassOf O’:

Pr’_O’ Pr’_Bp1’ Pr’_O’_Bp1’subClassOf Pr’:

Bp1’_O’ Bp1’_Pr’ Bp1’_O’_Pr’subClassOf Bp1’:

uma manifestação que não necessariamente ocorrerá, mas que há a capacidade para tal. Emoutras palavras, todos os seres humanos que consumirem uma grande quantidade de gordurassaturadas apresentam a disposição em desenvolver uma doença arterial coronariana.

Todavia, nem todos os seres humanos irão desenvolver algum tipo de manifestação. Váriostrabalhos (121, 120, 122) sugerem a inclusão de disposições em ontologias biomédicas. Nessesentido, interpretar dados anotados em termos de disposição implica em incluir axiomas queenriquecem a base de conhecimento, e.g. adicionam conhecimentos que não fazem parte do


próprio BD.

A representação por disposições pode incluir descrições em nível de classes em que nãoexistem indivíduos (nos dados) para instanciá-las. Esse fato pode ocorrer porque bancos de dadosbiológicos não incluem uma tabela com disposições. Ao criar uma consulta com OBDA, porexemplo, não será possível recuperar conteúdo que utilizem o conceito de disposições, pois nãohá indivíduos dessa natureza para serem recuperados.

Após descrever as contribuições acerca da elucidação do mecanismo de interpretação,serão descritas 4 formas de interpretação baseadas em ontologias, como elas são criadas e comqual propósito podem ser aplicadas. Finalmente, será abordada de forma breve, a capacidade derecuperar conteúdo utilizando consultas em DL das 4 maneiras de interpretação.

4.0.2 Contribuições

Neste capítulo, duas são as contribuições: (i) a identificação do problema de interpretaçãoontológica com classes anotadas; e (ii) descrição de 04 perspectivas representacionais, descritascomo diferentes abordagens para representar o conteúdo anotado de BDs biomédicos. Os quatromodelos de representação são:

1. Representação como indivíduos (seção 4.2.1);

2. Representação como subclasses definidas, de granularidade máxima assumidas comopopuladas por indivíduos (seção 4.2.2);

3. Representação com características disposicionais (seção 4.2.3);

4. Representação híbrida, como a mesclagem dos modelos 2 e 3 (seção 4.2.4).

Como resultado, são disponibilizados princípios de engenharia de ontologias, em que oconteúdo deve ser representado da forma mais realista o possível. Dessa maneira, são reafirmadosos princípios do Open Biomedical Ontologies (OBO) Foundry (80), como a aderência ao uso derelações formais e definidas (79); e, que uma ontologia deve ser ortogonal a outras existentes,com conteúdo especificado e delineado de forma clara2.

Neste trabalho, a utilização de relações formais e a ortogonalidade são garantidas pelaadoção da BioTopLite2 (BTL2) (32), que inclui classes e relações definidas como Process,‘Material object’, e Quality, facilitando o alinhamento das ontologias utilizadas para anotar osBDs, como a GO, ChEBI e PRO.2 Outros princípios podem ser encontrados na página http://obofoundry.org/


4.0.3 Domínio de experimentação

O caso de uso deste trabalho será construído em torno de rotas metabólicas3 e fenótiposrelacionados aometabolismo do aminoácido homocysteine.Homocysteine (Hcy) é um aminoácido,incluído em diversos processos biológicos, como:

• Metabolismo de vitaminas e co-fatores;

• Metabolismo neuronal;

• Oxidação de enzimas, entre outros.

Diversos organismos apresentam a capacidade em abrigar processos metabólicos mediados pelaHcy, como por exemplo o humano, o cão, o frango, o pombo, o arroz, entre muitos outros.

O Hcy está envolvido em dois processos metabólicos em animais: remetilação e transsul-furação (figura 22). De forma sumarizada, o processo de remetilação acontece para que sejamreaproveitados radicais methyl (–CH3). O Hcy recebe um radical methyl, doado por moléculasde 5-methyl-tetrahydrofolate (methyl-THF), formandoMethionine (MET). Esta reação é mediadapela enzimaMethionine synthase (MS) na presença de vitamina B12. No fígado, a formação deMET é mediada pela enzima Bethaine-homocysteine methyltransferase (BHMT) juntamente commoléculas de Hcy.

A partir das moléculas de MET formadas, na presença de moléculas de Adenosinetriphosphate (ATP)4, são geradas moléculas de S-adenosyl methionine (SAM), um doador deradicais methyl em diversos processos celulares. Ao doar um radical methyl, SAM é convertidoem S-adenosyl-homocysteine (SAH) e, por sua vez, é novamente convertido em Hcy a partir deuma reação de hidrólise (adição de uma molécula de H2O) (figura 22).

Para que a conversão de Hcy em MET possa ocorrer, há a doação de um radical methyl(do methyl-THF) para o MET. Nessa reação, é formado THF que é convertido emMethylene-THFna presença de vitamina B6. Finalmente, a formação de Methyl-THF ocorre a partir da conversãodo Methylene-THF, reação mediada pela enzimaMethylene-tetrahydrofolate reductase (MTHFR)(figura 22).

O Hcy participa, ainda, de reações de transsulfuração. Essas reações envolvem a produçãode aminoácidos Cysteine (Cys) a partir do Hcy e da Serine (Ser). Essa reação específica é mediadapela enzima Cysthationine β-synthase e forma Cysthationine que, por sua vez, é convertida emCys pela γ-cysthationinase (CSE) (figura 22).

A literatura descreve diversos fenótipos (patogênicos) que são exibidos por organismosque apresentam quantidades elevadas de Hcy em decorrência das proteínas MTHFR e MS3 Rotas metabólicas são um conjunto de reações que ocorrem em nível subcelular em que há reações químicas

entre moléculas biológicas. Um exemplo clássico de rota metabólica é a respiração celular aeróbia, em quemoléculas como proteínas, gorduras ou carboidratos são quebradas para a produção de energia.

4 Molécula de transferência de energia em reações celulares.


Figura 22 – Metabolismo do Homocysteine (Hcy).

Reação no Fígado

Reação nas demais áreas

Homocysteine

Methionine THF

Methyl-THF

+B12

+Methyl

S-adenosyl-homocysteine

S-adenosyl-methionine

ATP

Methylene-THF

Serine

Cystathionine

+B6

MS

MTHFR

CBS

CysteineCSE

Betaine

BHMT

Remetilação

Transsulfuração

- Methyl

+H2O

(por exemplo) estarem disfuncionais. Nesses casos, MS e a MTHFR apresentam disfunçõesque limitam a doação e a inclusão de radicais methyl para as reações de remetilação. Comoconsequência, há uma elevação na quantidade de Hcy disponível.

Fenótipos patogênicos relacionados com o Hcy foram descritos na literatura (123, 104,105). MUNIZ et al. (123) descrevem a relação dos altos níveis do Hcy com o desenvolvimentoda doença arterial coronariana. Já SIQUEIRA et al.(104) descreveram a relação com complica-ções hepáticas em indivíduos portadores do vírus da Hepatite C. DE CARVALHO et al. (105)correlacionaram o Hcy ao desenvolvimento da Doença Hepática Gordurosa Não Alcoólica.

4.1 Materiais e Métodos

Para a análise descrita nesta seção, foi selecionado um exemplo típico de um BD biomé-dico (tabela 23), gerado pela junção de dados do UniProt (3), Ensembl (21) e NCBI Taxonomy(5). Os dados foram recuperados a partir de uma consulta padrão, contendo apenas o termo“homocysteine”, sobre a interface de cada um dos respectivos websites.

Processos biológicos, funções moleculares (ontologicamente, “atividades”, i.e. um tipode processo (124)), componentes celulares, organismos, moléculas de baixo peso molecular,proteínas, genes e fenótipos são anotações. Especificamente sobre processos biológicos e funçõesmoleculares (atividades), como ambos são processos de natureza similar (por simplificação),são descritos apenas processos biológicos provenientes da GO. Para anotações sobre moléculasde baixo peso molecular, anotações provenientes da ChEBI são utilizadas. Anotações sobrefenótipos são recuperadas do Ensembl como texto. Os fenótipos identificados são representadoscomo classes da ontologia clínica SNOMED CT, pois os termos são idênticos (Albuminuria no

Capítulo4.


deBD

sbiomédicos

92

Tabela 23 – Visão sobre os dados do UniProt, NCBI Taxonomy e do Ensembl

ID Proteína Gene Organismo GO (bp) GO (mf) GO (cc) Ensembl ID Fenótipo EnsemblF1MEW4 CBS CBS Bos taurus blood vessel re-

modeling; . . .cystathionineβ-synthaseactivity . . .

cytoplasm. . .

ENSBTAT00000000184;. . .

No phenotype asso-ciated

Q99707 MS MS Homo sa-piens

cobalamin me-tabolic process;. . .

cobalamin bin-ding; . . .

cytoplasm. . .

ENST00000366577;ENST00000535889

Neural tube defect;Megaloblastic ane-mia; . . .

Q9EQS4 CSE CSE Rattus nor-vegicus

hydrogensulfide bi-osyntheticprocess; . . .

pyridoxalphosphatebinding; . . .

nucleus;. . .

ENSRNOT00000067843 Cataract; AminoAcid Metabolismerrors; . . .

F1RF82 MTHFR MTHFR Sus scrofa homocysteinemetabolicprocess; . . .

modifiedamino acidbinding; . . .

cytosol ENSSSCT00000003805 No phenotype asso-ciated

Q93088 BHMT BHMT Homo sa-piens

amino-acid be-taine catabolicprocess; . . .

zinc ion bin-ding; . . .

proteincomplex;. . .

ENST00000274353 Liver tumour; Co-ronary Artery Dise-ase; . . .

As 6 colunas da esquerda contém entradas do UniProt; as duas colunas da direita o conteúdo do Ensembl. GO (bp), GO(mf) e GO(cc)representam as anotações sobre os registros do UniProt para as classes da GO biological_process, molecular_function e cellular_component.Os IDs do UniProt e Ensembl são utilizados para mapear os bancos.


Ensembl, e Albuminuria na SNOMED CT) em quase todos os casos.

Ao todo, foram recuperados 21.868 registros do UniProt, e (exatos) 1000 registros doEnsembl. Todos os dados foram recuperados em 22 de janeiro de 2015. Os dados do NCBITaxonomy são identificados ao final, a partir dos mapeamentos existentes, pois colecionam aclassificação taxonômica dos organismos referenciados nos dados da amostra final. Uma descriçãomais detalhada sobre a amostragem é feita no capítulo 5 (página 123).

A partir dos registros identificados, foi analisado como o conteúdo incluído nos registrosé representado tanto nas ontologias (a que se referem as anotações) quanto nos bancos de dados.Esses BDs foram escolhidos pela grande quantidade de anotações com ontologias conhecidase axiomatizadas. Ontologias como a GO (principalmente), PRO e ChEBI são empregadas pararepresentar componentes do domínio biológico.

A análise de interpretação tem como objetivo identificar como as anotações se referema indivíduos ou a classes de ontologias. Além disso, é levado em consideração como cadaclasse/indivíduo identificado é descrito de forma a capturar a semântica das associações em nívelde registro de BD, e.g. como anotações para a GO são associadas a anotações para a PRO oupara a ChEBI, quando os bancos de dados são analisados de forma conjunta.

A base para a análise são descrições formais disponíveis nas ontologias sob consideração,e o que pode ser interpretado com o auxílio da ontologia supradomínio biológico BTL2. Ainterpretação ontológica é construída a partir da identificação de classes que representam oconteúdo do cabeçalho de uma coluna (da tabela), e.g. Process, ‘Material object’ etc.) de acordocom a BTL2 (referido na tabela 24 como Campo).

Tabela 24 – Conteúdo típico da união dos BDs UniProt, Ensembl e NCBI Taxonomy.

Campo Fonte ConteúdoProtein PRO Betaine–homocysteine S-methyltransferase 1Organism NCBI Homo sapiens (Humano)Biological GO reg. of homocysteine metabolic process;process amino-acid betaine catabolic process;

L-methionine salvage;protein methylation;choline catabolic process; . . .

Molecular GO BHMT activity;function zinc ion binding; . . .Cell components GO cytoplasm; cytosol; extracellular exosomeSmall molecules ChEBI Homocysteine; . . .Phenotypes SNOMED intestine, decreased size;

increased lean body mass; . . .

As classes mais básicas da GO, ChEBI e PRO são alinhados entre as ontologias GO,PRO e ChEBI utilizando a hierarquia e relações formais da BTL2. O processo de alinhamento foiconstruído de forma manual, com base nas definições de classes existentes e na organização das


GO, ChEBI e PRO a partir das restrições incluídas na BTL2. Em seguida, foram identificadasquais classes das ontologias alinhadas são utilizadas para mapear campos dos registros do UniProte Ensembl. Uma visão esquemática do alinhamento de ontologias e do mapeamento é apresentadona figura 23.

Figura 23 – Alinhamento da GO, ChEBI, SNOMED CT e PR sob a BTL2.

Considerando que cada registro de um BD biomédico anotado referencia classes da GO,ChEBI, PRO, SNOMED CT e BTL2, alguns questionamentos acerca de como essas anotaçõesse relacionam precisam ser respondidas:

• Se eu tenho um registro de BD (ou uma coleção deles) como na tabela 24, em que os dadossão anotações, como as entidades descritas no registro se relacionam (considerando asontologias utilizadas)? Por exemplo, definir com qual relação Homo sapiens é associado àprotein methylation e vice-versa (figura 24).

Figura 24 – Indefinição da relação a ser utilizada entre as classes ‘Homo sapiens’ e ‘proteinmethylation’, referenciadas nos dados da tabela 24.

‘Homo sapiens’ ‘protein methylation’

?? ‘is participant in’ ??

?? ‘has participant’ ??


• Desde que dados são registrados num BD, eles são indivíduos da classe btl2:’informationobject’. Entretanto, no presente cenário são utilizadas anotações, as quais, conforme ainterpretação, denotam (representam) classes ou indivíduos no domínio. Por exemplo, umdado “GO:0006479” (“protein methylation”) dentro de UniProt pode ser interpretado comoa classe de todos os processos protein methylation’, ou uma instância dessa classe (figura25).

Figura 25 – Indecisão sobre a representação de uma anotação como indivíduo ou em termos dasclasses referenciadas.

• Nessa linha, se a interpretação for realizada a partir dos indivíduos, é necessário incluí-losna representação?

• O contexto de construção dos registros não é definido, mas do ponto de vista ontológico, ainclusão de disposições pode ser justificada, e.g. como a disposição de um ‘Homo sapiens’em exibir um fenótipo disfuncional do tipo ‘intestine decreased size’. Quais entidadesadicionais necessitam ser incluídas na ontologia?

• Ao identificar dados construídos sobre disposições, é necessário discernir claramentecomo representá-las e defini-las: quais proposições são disposicionais? Por exemplo, cada


proteína ‘Betaine–homocysteine S-methyltransferase 1’ pode ser interpretada a partir dadisposição realizada pelo processo ‘protein methylation’. Ou pode ser interpretada como asubclasse de uma proteína ‘Betaine–homocysteine S-methyltransferase 1’ que participa deum processo ‘protein methylation’.

Para resolver essas questões, quatro ontologias de exemplo foram criadas em OWL2,utilizando o editor de ontologias Protégé v.5, com o auxílio do classificador HermiT (125)v.1.8.4.3. As ontologias criadas são derivadas dos dados descritos na tabela 23.

Tabela 25 – Visão sobre os dados do UniProt, NCBI Taxonomy e do Ensembl utilizados paraexemplificação.

Proteína Organismo GO (bp) GO (cc) Fenótipo MoléculaProt1 Org1 BProc1; CComp1; Phen1; Mol1;

Bproc2; CComp2; Phen2; Mol2;Bproc3 CComp3 Phen3 Mol3

No caso da interpretação por indivíduos (a ser descrito na próxima seção), foram criados indiví-duos arbitrários no formato bpxxxx, ccxxxx, pxxxx e assim por diante, para simular indivíduos delaboratório (tabela 25). Esses dados simplificados são utilizados para gerar uma representaçãosemelhante à estrutura dos dados, sumarizado na tabela 24 .

Nas tabelas 23 e 24, não estão descritos genes e funções moleculares. Isso ocorre apenascomo uma simplificação da abordagem, visto que genes são sequências especificadas na PROe representadas como subclasses, conforme um dos tipos de interpretação descritos a seguir(interpretação por subclasses, página 100). Na PRO, genes são descritos como subclasses, e.g.MS_‘Homo sapiens’ para nomear uma subclasse do gene MS em um ‘Homo sapiens’. Já asfunções moleculares, por serem processos, se comportam tal qual processos biológicos.

De forma simplificada e para demonstrar demaneira breve que osmodelos de interpretaçãosão factíveis, não apenas do ponto de vista lógico, mas também do ontológico, foram criadasquatro consultas simples em DL (tabela 26, adicionada da leitura em linguagem natural dasconsultas). Tais consultas são aplicadas de forma semelhante às ontologias derivadas do processode avaliação, de maneira a verificar a capacidade de recuperar conteúdo com e sem o auxílio diretode raciocínio. O intuito é, basicamente, demonstrar que cada interpretação tem uma aplicaçãoespecífica durante a utilização prática.

Todos os arquivos, códigos, dados e material complementar estão disponíveis no site doprojeto integrativO (http://www.cin.ufpe.br/˜integrativo).

4.2 Perspectivas representacionais

A seguir, são apresentadas as formas de representação possíveis do conteúdo derivadodos BDs em questão. Apesar de ser uma abordagem construída sob bancos de dados biológicos


Tabela 26 – Consultas DL.Q1 – Quais processos biológicos tem proteínas do tipo Prot1 como participantes?— BProc and (‘has participant’ some Prot1)Q2 – Em quais componentes celulares Prot1 está ativo em organismos do tipo Org1?— ‘Cellular component’ and (‘is included in’ some Org1) and (includes some Proti)Q3 – Quais proteínas estão envolvidas em processos do tipo ProcBp1,

em organismos do tipo Org1?— Protein and (is participant in some BProc1) and (is included in some Org1)Q4 – Quais organismos são capazes de exibir um fenótipo específico do tipo Phen1?— Organism and (‘is bearer of’ some (Disposition and (‘has realization’ only Phen1)))

específicos, a racionalização é inalterada quando aplicados a outros, como o Reactome (126)(que inclui dados e anotações sobre rotas metabólicas) ou o GenBank (95) (que inclui dadossobre genes e sequências).

4.2.1 Representação como indivíduos

A primeira representação tem como princípio o fato do conteúdo de BDs ser derivado apartir de sumários (e.g. como relatórios) sobre experimentos. Por exemplo, uma tupla contendouma proteína Methionine synthase, um organismo Homo sapiens e um processo “cobalaminmetabolic process” referencia classes de mesmos nomes e que são compostas por indivíduos dasrespectivas naturezas.

Entre indivíduos de organismo e proteína, aplica-se a relação ‘has part’; e, entre umprocesso individual e uma proteína, a relação ‘has participant’. A primeira determina que umorganismo tem uma proteína como parte; e, a segundo que um processo tem como participanteuma proteína.

Figura 26 – Exemplo de tupla de um registro com campos anotados, com classes da GO e PRO.

Proteína Organismo Processo

Methionine synthase Homo sapiens Cobalamin metabolic process

Methionine synthase Homo sapiens Cobalamin metabolic Process

referencia referencia referencia

BD

Ontologia

‘has part’


Nessa perspectiva, e de acordo com os dados anotados (tabelas 18, e 23) é possível


identificar proteínas individuais {p1001, p1002, . . . } do tipo Prot1 existindo em, pelo menos,um componente celular em particular {cc1001, cc2001, . . . } dos tipos CC1...n de pelo menos umorganismo do tipo Org1 (tabela 27, figura 27).

Tabela 27 – Proteínas individuais incluídas em componentes celulares e organismos individuais.

p1001 ‘is included in’ cc1001cc1001 ‘is included in’ o1001

Figura 27 – Interpretação sobre a associação entre indivíduos dos bancos de dados.

Prot1

p1001

p1002

CC1,...,n

cc1001

cc1002Org1

on

‘ is included in’




Processos biomoleculares individuais, {bp1001, bp2001, . . . } que são membros das classesBProc1...n, ocorrem juntamente com moléculas {m1001,m2001, . . . } do tipoMol1...n (específicopara Org1). Isso indica que proteínas causam um ou mais fenótipos {ph1001, ph2001, . . . } do tipoPhen1...n (tabela 28, figura 28).

Tabela 28 – Axiomas entre indivíduos de identificadores para fenótipo, processo biológico, mo-lécula de baixo peso e organismo.

bp1001 ‘is included in’ o1001bp1001 ‘has participant’ m1001ph1001 ‘has participant’ o1001m1001 ‘is included in’ o1001

Há moléculas de proteínas que participam em instâncias de processos em um organismo,e.g. instâncias da classe BProc1 (tabela 29, figura 29).

Tabela 29 – Proteínas participantes em processos, e incluídas em organismos.

p1004 ‘is participant in’ bp1001p1004 ‘is included in’ o1004

Moléculas de proteínas participam, em um organismo particular, em instâncias de pro-cessos5 (aqui ps001 e ps002) que sintetizam moléculas específicas (m1001 e m2001) (tabela 30.)5 Toda vez que um campo do BD sobre processos, moléculas ou componentes celulares apresenta mais do que


Figura 28 – Interpretação de registros com processos, moléculas de baixo peso molecular, orga-nismo e fenótipos.

BProc1,...,n

bp1001

bp2001

Mol1,...,n

m1001

m2001

Phen1,...,n

ph1001

ph2001

Org1

ox









p1001 bp1001

o1001

‘ is participant in’


Figura 29 – Relação entre proteína, processo biológico e organismo individual.

Tabela 30 – Proteínas participantes de processos, processos com moléculas como participantes eincluídos em organismos.

p1010 ‘is participant in’ ps001. . .ps001 ‘has participant’ m1001p1010 ‘is included in’ o1010p1011 ‘is participant in’ ps002. . .ps002 ‘has participant’ m2001p1011 ‘is included in’ o1011

Há organismos com fenótipos específicos nos quais existe uma proteína de um determi-nado tipo que se apresenta como disfuncional. Disfuncionalidade é uma qualidade, aqui expressapor indivíduos do tipo d1001 e d1002 (tabela 31, figura 30).

A interpretação com indivíduos resulta, assim, em várias relações entre indivíduos.

uma entrada, o BD não define sobre quais processos envolvem quais moléculas e onde estão localizados. Deforma ideal, essa informação deve ser recuperada de outras ontologias.


Tabela 31 – Fenótipos disfuncionais de organismos com determinadas proteínas.

p1013 ‘is included in’ o1013o1013 ‘includes’ ph1001p1013 ‘is bearer of’ d1001. . .p1014 ‘is included in’ o1014o1014 ‘includes’ ph2001p1014 ‘is bearer of’ d1002

p1013 o1013

d1001‘ is bearer of’

ph1001includes‘ is included in’

Figura 30 – Relação entre proteína, organismo, fenótipo e disposição individual.

4.2.1.1 Avaliando a representação como indivíduos

Nesse cenário, entidades da Abox (descritas acima) devem ser entendidas como indivíduosprototípicos. Em outras palavras, os indivíduos são prototípicos porque existem em laboratório esão registrados a partir de uma ou mais publicações científicas. Isso significa dizer que o fatode uma anotação ser um dado e sumarizar um ou mais resultados de pesquisas científicas nãoauxilia na definição precisa sobre a que indivíduo (na realidade) a entidade Abox se refere, e.g. acélula ou proteína utilizada no experimento de laboratório.

Do ponto de vista prático, nenhuma classe é criada sobre as classes a que se referem asanotações. Consequentemente, as instâncias de relações criadas não refletem diretamente comoestas entidades são compreendidas ontologicamente, i.e. como tipos de ‘Homo sapiens’ includespelo menos uma proteína ‘Methionine synthase’. A representação com indivíduos indica (apenas)que existe um h relacionado a um m a partir de uma instância da relação includes.

Dessa forma, dois indivíduos de um mesmo tipo podem referenciar uma mesma classe, ouainda serem o mesmo indivíduo, já que não é claro o contexto de criação deles. Para simplificar,para cada interpretação que pode ser derivada do banco de dados, novos indivíduos são criados.

4.2.2 Representação com múltiplas subclasses

A segunda abordagem descreve o conteúdo dos BDs como subclasses. A ideia emmodelaros dados dessa forma reside na intenção de descrever as anotações a partir das classes referenciadase que podem ser alvo de consultas. Por exemplo, o BD UniProt liga uma classe de proteína Prot1com de organismo Org1, e uma classe de processo biológico BProc1 (figura 31).

Esse tipo de associação indica que o ID da anotação representa (nesse contexto) umaclasse mais específica. Por exemplo, o registro da UniProt #F1MEW4 indica que existe uma


Figura 31 – Interpretação de campos dos bancos de dados como classes genéricas, e das anotações(dados) como subclasses dos tipos definidos nos campos.

Protein Organism Biological process

Prot1 Org1 BProc1... ... ...

Protein OrganismBiological

process

Prot1 Org1 BProc1

DadosClasses


‘ is participant in’


proteína CBS em um organismo ‘Bos taurus’ associado a um processo do tipo ‘Blood vesselremodeling’ (tabela 23, página 92).

Ao incluir um sumário de pesquisas científicas em um registro, associando a um conjuntode indivíduos coletados dessas publicações, uma anotação do tipo ID “Blood vessel remodeling”de uma ontologia indica que a classe descrita no registro é, na verdade, uma subclasse de‘Blood vessel remodeling’. Para isso, foram criadas classes do tipo Prot1_in_Org1_in_BProc1,Org1_with_Prot1_and_BProc1, e BProc1_in_Org1_with_Prot1 (figura 32) para representar oconjunto de interpretações que podem ser criadas em nível de Tbox.

A criação dessas classes, definidas em conformidade com o supradomínio, pode nãorevelar o contexto ontológico, mas apenas o que pode ser compreendido a partir dos dados. Porexemplo, a figura 31 inclui relações para definir subclasses de Protein, Organism e ‘Biologicalprocess’.

Ao combinar várias classes na representação por subclasses, poderão vir a ser geradasclasses vazias, i.e. sem indivíduos reais para instanciá-las (restrito ao conhecimento científico).Isso ocorre pelo fato de cada combinação de subclasses gerar uma combinação admissível nainterpretação, mas que pode não ter sido verificado no experimento.

Por exemplo, pode não existir um estudo que associa Mus musculus com um fenótipo‘Hepatic steatosis’ em decorrência de um processo biológico ‘protein methylation’, mas queas anotações permitem inferir esse tipo de relação. Entretanto, isso não exclui a capacidade deocorrer essa associação na realidade, indicando apenas que ainda não foi investigado.

Ao interpretar os registros como subclasses (assumidas aqui como não vazias), as relações


Figura 32 – Combinações de O, Pr e Bp1 para geração de subclasses.

sub

Cla

ssO

f

sub

Cla

ssO

f

sub

Cla

ssO

f

O Pr Bp1

O’ Pr’ Bp1’includes

includes


O’_Pr’ O’_Bp1’ O’_Pr’_Bp1’subClassOf O’:

Pr’_O’ Pr’_Bp1’ Pr’_O’_Bp1’subClassOf Pr’:

Bp1’_O’ Bp1’_Pr’ Bp1’_O’_Pr’subClassOf Bp1’:

entre os componentes de um registro anotado tornam-se não ambíguas, e.g. todas as subclassessão definidas. Outro ganho desse formato de interpretação é para construir consultas. Ao invésde popular uma ontologia com indivíduos ou utilizar integração semântica, a interpretação porsubclasses permite a criação de consultas fora do padrão, e.g. que exploram a classificaçãotaxonômica das classes. Por exemplo, é possível criar uma consulta para recuperar os tiposde proteínas que fazem parte dos hominídeos mamíferos e recuperar classes de humano, rato,chimpanzé, entre outros.

Na interpretação por subclasses, são criadas subclasses para as anotações presentes emcada uma das tuplas de um BD. Esse processo de modelagem gera muitas combinações comosubclasses, mas mantém a expressividade DL dentro da EL + +. Há um perfil específico daOWL2 para ontologias escritas em EL+ + o OWL2-EL (seção 2.2.2.1, página 54).

A seguir, os padrões de modelagem são apresentados para proteínas, organismos, molé-culas de baixo peso molecular, processos biológicos e fenótipos.

Proteínas

São introduzidas classes para proteínas associadas a fenótipos (aqui chamadas de disfun-cionais); e, também para proteínas organismo-específicas, além de suas combinações6 (tabela6 O índice de variável i denota o registro, em que o campo para a proteína é preenchido exatamente um por

registro; assim temos a notação Proti. De forma similar, a notação para organismos é Orgi1, por haver apenas


32). Uma proteína qualificada como disfuncional é aquela que ocorre naturalmente em umorganismo; e, que o fato de ser disfuncional resulta na alteração de uma característica de um orga-nismo. De uma proteína disfuncional (e.g. ‘Methionine synthase’) decorrem fenótipos específicos,geralmente descritos como patológicos (e.g. ‘Neural tube defect’).

Tabela 32 – Subclasses de proteínas Proti.

‘Proti Dysf ’ equivalentTo Proti and ‘is bearer of’ some Dysfunctional‘Proti in Orgi1’ equivalentTo Proti and ‘is part of’ some Orgi1‘Proti Dysf in Orgi1’ equivalentTo ‘Proti Dysf ’ and ‘Proti in Orgi1’

Uma proteína disfuncional é uma proteína que apresenta a qualidade de ser disfuncional. O par‘Proti in Orgi1’ indica a interpretação da associação existente nos registros entre proteínas eorganismos. Esta associação é definida como sendo um tipo de proteína Proti que é parte de umorganismo Orgi1. A proteína disfuncional de um organismo específico implica na existência deuma proteína disfuncional ‘Proti Dysf ’ como parte de um organismo Orgi1 (figura 33).

Proti ‘Prot i Dysfunctional’

‘Dysfunctional Quality’

‘ is bearer of’ some

equivalentTo

Figura 33 – Proteína disfuncional em organismos.

Em outras palavras, uma proteína A tem a qualidade disfuncional. Além disso, há proteínasdo tipo A em organismo do tipo B; e, há proteínas disfuncionais que ocorrem em B. Neste caso,subespecializações são criadas para fenótipos, processos, componentes celulares e moléculas.Axiomas são criados para descrever que uma proteína disfuncional em um determinado organismocom fenótipo é descrita como parte desse organismo, incluindo um fenótipo (tabela 33, figura34).

Tabela 33 – Subespecialização de Proti.

‘Proti Dysf in Orgi1 with Phen i1,...,im’ equivalentTo‘Proti Dysf in Orgi1 and ‘is part of’ some (Orgi1 and includes some Pheni1,...,im)

‘Proti in Orgi1 in BProc i1,...,il’ equivalentTo ‘Proti in Orgi1’ and‘is participant in’ some BProci1,...,il

‘Proti in Orgi1 in CComp i1,...,ik’ equivalentTo ‘Proti in Orgi1 and‘is included in’ some CCompi1,...,ik

‘Proti in Orgi1 with Mol i1,...,in’ equivalentTo‘Proti in Orgi1’ and ‘is participant in’ some (Process and

(‘has participant’ some Moli1,...,in))

um organismo por registro. Os outros campos são preenchidos com a notação BProci1,...,im, pois apresentammultiplicidade de entradas.


Figura 34 – Subespecialização de proteína disfuncional em organismo com um fenótipo definido.

‘Prot i Dysfunctionalin Orgi1’

‘Prot i Dysfunctionalin Orgi1 with Pheni1,...,m’

‘Org i1’

‘ is part of’ some

‘Pheni1,...,m’

equivalentTo

includes some

Organismos

Classes são criadas para organismos com proteínas (em geral), e organismos com proteínasorganismo-específico em particular, também especializado por fenótipos, processos e moléculas(tabela 34, exemplo na figura 35).

Tabela 34 – Classes geradas sobre Orgi1.

‘Orgi1 with Proti’ equivalentTo Orgi1 and ‘has part’ some Proti‘Orgi1 with Proti Dysf ’ equivalentTo Orgi1 and ‘has part’ some ‘Proti Dysf ’‘Orgi1 with Proti and BProci1,...,im’ equivalentTo

Orgi1 and ‘has part’ some (Proti and ‘is participant in’ some BProci1,...,il )‘Orgi1 with Proti and Moli1,...,im’ equivalentTo Orgi1 and ‘has part’ some

(Proti and ‘is participant in’ some (Process and ‘has participant’ some Moli1,...,il)‘Orgi1 with Pheni1,...,im and Proti Dysf ’ equivalentTo

‘Orgi1 with Proti Dysf ’ and includes some Pheni1,...,il

Figura 35 – Subclasse de organismo com fenótipo e proteína disfuncional.

‘Org i1 with Proti Dysfunctional’

Pheni1,...,m

includes some

equivalentTo

‘Org i1 with Pheni1,...,mProti Dysfunctional’

Moléculas de baixo peso molecular

Classes são criadas para moléculas de baixo peso molecular em organismos, e posterior-mente especializadas por proteínas (tabela 35, figura 36).


Tabela 35 – Classes geradas sobre Moli1,...,in.

‘Moli1,...,in in Orgi1’ equivalentTo Moli1,...,in and ‘is part of’ some Orgi1‘Moli1,...,in in Orgi1 with Proti’ equivalentTo ‘Moli1,...,in in Orgi1’ and ‘is participant in’ some

(Process and ‘has participant’ some ‘Proti)’

Figura 36 – Axiomas de subclasse sobre moléculas e as relações com organismos e proteínas.

‘Mol i1,...,n in Orgi1 with Proti’

Process

‘ is participant in’ some

‘has participant’some

Proti

‘Mol i1,...,n in Orgi1’equivalentTo

‘Mol i1,...,n’ ‘Mol i1,...,n in Orgi1’equivalentTo

Orgi1

‘ is part of’ some

Processos

A subcategorização é realizada a partir de proteínas e organismos (tabela 36, figura 37).

Tabela 36 – Classes geradas sobre BProci1,...,ik.

‘BProci1,...,ik in Orgi1 with Proti’ equivalentTo BProci1,...,ik and(‘has participant’ some Proti) and (‘is included in’ some Orgi1)

Figura 37 – Subcategorização de processos biológicos associados a proteínas e organismos.

‘BProci1,...,k in Orgi1 with Proti’

Proti

‘has participant’ some

‘is included in’some

Orgi1

BProci1,...,kequivalentTo

Fenótipos

Subcategorização é realizada a partir de proteínas disfuncionais e organismos (tabela 37).


Tabela 37 – Classes geradas sobre Pheni1,...,ik.

‘Pheni1,...,ik in Orgi1 with Proti Dysf ’ equivalentToPheni1,...,ik and ‘is included in’ some ‘Orgi1 with Proti Dysf ’

4.2.2.1 Avaliando a representação com múltiplas subclasses

A estratégia de interpretação com múltiplas subclasses traz algumas vantagens, emcomparação com à interpretação como indivíduos:

• Raciocínio em tempo finito, e.g. axiomas criados na interpretação por subclasses estãodentro da linguagem DL EL+ +, conhecida pelo bom desempenho de raciocínio;

• Consultas em DL, e.g. a geração de classes definidas permite a criação de consultas emDL utilizando uma interface de consulta do tipo DL Query, disponível no Protégé;

• Importar indivíduos ( i.e. popular) na ontologia é desnecessário, e.g. pois todos os registrossão representados como subclasses, e as relações da tabela como definição de classe.

Entretanto, há uma limitação: podem ser geradas muitas subclasses quanto maior for aquantidade de anotações disponíveis. Quanto maior a quantidade de classes, maior a quantidadede axiomas. Como consequência, o raciocinador levará mais tempo para computar consistência echecar a organização taxonômica das classes.

4.2.3 Representação com disposições

Até aqui, tentamos representar a informação de BDs biológicos ontologicamente, sendoa maior parte do conteúdo expressa como axiomas Tbox. A razão para isso é óbvia — as entradasdos BDs são baseadas em observações sobre indivíduos e não se qualificam como axiomasgeneralizáveis do tipo “para todo A . . . há um B”.

As representações por meio de indivíduos ou com subclasses se abstêm em formularverdades universais sobre as entidades referidas nos BDs. Isso se dá pelo fato de a informaçãocontida nos BDs biológicos não ser verdades universais, e.g. são resultados recuperados dapesquisa científica e por estarem descritos de forma sumarizada com anotações. Até agora,apenas a interpretação com subclasses inclui afirmações do tipo “há pelo menos um A . . . que érestrito pelas propriedades P1,2,...n”, a partir da criação de subclasses definidas de A utilizandoP1,2,...n para diferenciação.

Neste trabalho, assumimos que esse tipo de conhecimento apresenta partes ontológicas epartes não-ontológicas. Por exemplo, as partes não-ontológicas são, por exemplo, associaçõesprobabilísticas puras entre conjuntos de indivíduos. BDs biológicos são criados para dar umaideia sobre regularidades de fenômenos biológicos semelhantes, no sentido em que todos osmembros de uma classe têm a tendência em se comportarem de determinada forma. Nesse


contexto, essas entidades seguem uma lei natural, sendo possível empregar a ideia de propriedadedisposicional (ou simplesmente disposições).

Disposições são utilizadas para descrever entidades que existem de maneira independente(e.g. objetos) e que exibem tendências. Por exemplo, água tem a disposição de ser um solventepara várias moléculas, mas apenas sob condição de estar no estado líquido (afirmação).

Na prática, uma tupla contendo anotações para proteína, organismo e processo (como jádefinido) faz referencia a classes das ontologias. Assim como no modelo com novas subclasses,é possível criar definições para cada uma das classes. Proteínas, organismos e componentescelulares são representados em função de disposições (figura 38). Na modelagem com disposições,esse conceito é implícito e faz parte (apenas) da interpretação do usuário.

Figura 38 – Exemplo de tupla de um registro com campos anotados com classes da GO e PROrepresentado a partir de disposições.

Methionine synthase Homo sapiens

��

��

Cobalamin metabolic Process

‘ is part of’‘has realization’

��

��

Methylation

‘has realization’‘ is bearer of’

Disposition

Proteína Organismo Processo

Methionine synthase Homo sapiens Cobalamin metabolic process, Methylation

referencia

BD

Ontologia referencia referencia

Nesse âmbito, é proposta a modelagem, baseada em 127, que inclui disposições (tabela38).

Tabela 38 – Proposta de modelagem genérica sobre objetos portadores de disposições.

‘Object1 and R1 and R2 and . . . and Rn subclassOf‘is bearer of’ some (Disposition and ‘has realization’ only Process1)‘

A modelagem incluída na tabela 38 determina que todo objeto é portador da disposição realizadapor processos. Por exemplo, um cão apresenta a disposição de ser colonizado por artrópodes dotipo carrapato.


Apenas continuantes independentes7 podem ser portadores de disposições (121, 120).No âmbito da interpretação com disposições, apenas organismos, proteínas, moléculas de baixopeso molecular e componentes celulares podem apresentar esse tipo de característica. Para osorganismos e proteínas, a abordagem de representação com disposições é mais direta: é criadauma série de axiomas tipo General Class Inclusion (GCI) em OWL2, com o tipo de entidadede interesse seccionada pelas condições de restrição do lado esquerdo do axioma. Em outraspalavras, um GCI é um axioma escrito (em DL) na forma C v D, onde C inclui uma descriçãocomplexa (9), podendo também aparecer em D. Exemplos de GCIs são mostrados a seguir.

Dessa forma, disposições são definidas para proteínas organismo-específica (e.g. a pro-teína associada a um organismo em um registro) em determinados componentes celulares. Sãointroduzidas disposições realizadas por processos biológicos que têm certos tipos molecularescomo resultado (tabela 39).

Tabela 39 – Padrão de representação em GCI de proteínas organismo-específico, com processosbiológicos e que têm como participantes moléculas de baixo peso molecular.

Proti and ‘is part of’ some Orgi1 subClassOf‘is bearer of’ some (Disposition and ‘has realization’ only BProci1...im) and‘is bearer of’ some (Disposition and ‘has realization’ only (Process and

‘has participant’ some Moli1...in))

O axioma da tabela 39 descreve que há uma classe representada pelas proteínas que são partes deorganismos (figura 39, subclasse) e que é subclasse de todas aquelas classes que apresentam adisposição realizada por processos biológicos (figura 39, superclasse). Ainda, que os participantesdo processo biológico são moléculas de baixo peso molecular (como a homocisteína, água,oxigênio, entre outros) (figura 39).

Como regra, disposições têm condições para sua realização. A realização da disposiçãode uma proteína em participar de um dado processo biológico depende, entre outras coisas,do ambiente químico do organismo e do componente celular. Esse fato é corroborado pelavisualização de processos patológicos em organismos, como no desenvolvimento do câncerassociados a problemas genéticos (por exemplo).

Essas disposições são introduzidas para todas as proteínas do tipo Proti, sob a condiçãode estarem incluídas em Orgi1 e em um ou mais componentes celulares (CCompi1...ix). Asdisposições são definidas em termos de BProci1...ik, ou qualquer outro processo em que uma oumais moléculas de baixo peso molecular (Moli1...iy) participam.

A capacidade de exibir certos fenótipos patológicos é atribuída a organismos que apre-sentam proteínas disfuncionais em certos componentes celulares. A tabela não inclui disposiçõese (ao mesmo tempo) ela não esclarece o tipo de disfunção que afeta a proteína e resulta no7 Entidades que não dependem de outras para existir e perdurar, como os objetos, em contraste com processos que

existem apenas em determinado momento e dependem de um objeto ou uma função para existirem ou seremrealizados.


Figura 39 – Representação esquemática do GCI descrito na tabela 39.

Proti and (‘is part of’ some Orgi1)

��

‘ is bearer of’ some (Dispositionand ‘has realization’ only (Process

and ‘has participant’ some Moli1...n))

fenótipo. Dessa forma, não é possível definir qual processo biológico é associado ao fenótipo, ouse realmente há um processo biológico específico associado ao fenótipo. Consequentemente, oaxioma seguinte (em um modelo geral) não contém referências para processos biológicos dosBDs (tabela 40).

Tabela 40 – GCI para descrever Organism com disposition.

Orgi1 and (‘includes’ some (Proti and (‘is bearer of’ some Dysfunctional)))subClassOf

‘is bearer of’ some (Disposition and (‘has realization’ only Phi1...iz))

Esse GCI descreve que todo organismo que inclui uma proteína disfuncional (figura 40, subclasse)é classificado como portador de uma disposição em realizar um ou mais fenótipos específicos(figura 40, classe). No UniProt, assim como no Ensembl, fenótipos são representados apenassobre os casos excepcionais, e.g. quando exibe características estéticas ou funcionais fora donormal ou do padrão.

Formalmente, é possível caracterizar uma classe de moléculas pequenas como apresen-tando disposições, conforme a tabela 41. Esse axioma determina que, tudo aquilo que é portadorde pelo menos uma disposição a ser realizada em processos de um determinado tipo, os quaistêm como participantes pelo menos uma proteína incluída em um organismo e em componentescelulares, é uma molécula.

Finalmente, temos componentes celulares, como a quarta classe de objetos à qual dispo-


Figura 40 – Representação gráfica do GCI da tabela 40.

Orgi1 and (includessome (Protiand (‘is bearer of’ some

Dysfunctional)))

��

‘ is bearer of’ some (Dispositionand (‘has realization’ only Phi1...iz))

Tabela 41 – Axioma para moléculas de baixo peso molecular com disposições.

‘is bearer of’ some (Disposition and(‘has realization’ only (Process and

(‘has participant’ some Proti) and(‘is included in’ some Orgi1) and

(‘is included in’ some (CCompi1 or CCompi2 or . . . or CCompix)))))subClassOf Moli1...in

sições podem — teoricamente — ser definidas. Entretanto, formalmente, componentes celularesnão são participantes em si, mas a localização do processo biológico em consideração. Compo-nentes celulares, assim, apresentam a disposição de serem a arena. Assim como a inclusão dedisposições na descrição de moléculas, incluir esse conceito na representação de componentescelulares implica em sobrecargas no conceito de disposições. Por exemplo, uma garrafa térmicatem a disposição de incluir água, que tem a disposição de saciar a sede.

4.2.3.1 Avaliando a representação por disposições

O modelo de interpretação por disposições apresenta uma vantagem, em comparação àsabordagens com indivíduos e com subclasses: expressividade. A utilização de GCIs permite criaraxiomas com duas ou mais expressões conjuntivas do lado esquerdo de um axioma de definição(9). Além disso, evita a geração de subclasses.

Outra vantagem da utilização de disposições em ontologias escritas em DL é a capacidade


de simular modalidade (128). Em outras palavras, ao utilizar uma disposição para representar arealização de um processo, está subentendida a questão da tendência. Do ponto de vista prático,uma tendência (no domínio biológico) pode ser compreendida como uma probabilidade com 0%(disposição não instanciada) ou 100% (disposição instanciada) de probabilidade.

Entretanto, a utilização das disposições traz uma limitação: ao criar GCIs com axiomascomplexos, tanto do lado esquerdo, quanto do lado direito, há a criação de definições para classesnão nomeadas. A ausência de nomeação implica na impossibilidade de recuperar conteúdoutilizando consultas em DL. Para que essa abordagem seja útil, então, é necessário que asontologias originais apresentem todas as classes referidas pelas anotações previamente definidas.

Em comparação com a interpretação por subclasses, a representação por disposiçõesapresenta a expressividade DL SHI (9).

4.2.4 Representação híbrida em nível de classes

Para evitar expressões de classes complexas, como os GCIs, é possível juntar as inter-pretações com subclasses e as com disposições. Axiomas representados como um GCI (tabela42):

Tabela 42 – GCI para descrever Organism com disposition.

Orgi1 and (‘includes’ some (Proti and (‘is bearer of’ some Dysfunctional))) subClassOf‘is bearer of’ some (Disposition and (‘has realization’ only Phi1...iz))

são divididos em duas representações: uma que descreve o lado esquerdo e outra que descreve olado direito. Para cada uma dessas partes, é definida uma nova subclasse. Por exemplo, para olado esquerdo, é definida uma subclasse, conforme a tabela 43.

Tabela 43 – Axioma de equivalência sobre organismos que incluem proteínas disfuncionais.

‘Orgi1 with Proti Dysf ’ equivalentToOrgi1 and ‘has part’ some (Proti and

(‘is bearer of’ some Dysfunctional))

A classe ‘Orgi1 with Proti Dysf ’ constitui o lado esquerdo do GCI que define disposiçõesde organismos do tipo Org1 sob a condição de ter proteínas disfuncionais do tipo Proti (tabela42). Aqui, recairíamos nos padrões de representação introduzidos na seção 4.2.2. A diferença éque, ao passo em que disposições são introduzidas, é gerada uma quantidade menor de classes.

Isso acontece pelo fato de (ao utilizar disposições) não ser necessário gerar todas ascombinações com as anotações para processos (e.g. subclasses de Biological process, Situation eMolecular function). Considerando as outras entidades do registro de exemplo (Protein, Gene,Organism, Cellular component e Molecule), todas essas são objetos materiais. Serão geradascombinações (apenas) nos casos em que uma célula desses objetos apresentar anotações múltiplas.


O exemplo da tabela 43 significa que o modelo de subclasses requer n classes definidaspara “organismos do tipo Orgi1 que têm proteínas disfuncionais do tipo Proti e que inclui umfenótipo Pheni1...in”. Para constituir o lado direito do axioma descrito na tabela 42, é criado outroaxioma (tabela 44).

Tabela 44 – Organismos com proteínas disfuncionais que apresentam disposições em realizarfenótipos.

‘Orgi1 with Proti Dysf ’ subClassOf‘is bearer of’ some (Disposition and

(‘has realization’ only Phi1...in))

O axioma da tabela 44 significa que um ‘Orgi1 with Proti Dysf ’ é classificado como um portadorde uma disposição em realizar fenótipos. Nesse caso, subespecializações para fenótipos do tipo‘Pheni1,...,ik in Orgi1 with Proti Dysf ’ (tabela 37, página 106) são evitadas.

4.2.4.1 Avaliando a representação híbrida

Dessa forma, é criada uma abordagem de interpretação híbrida. Nela, a definição desubclasses é ainda requerida, mas em menor extensão. Do ponto de vista prático, há um aumentona expressividade dos axiomas criados (da DL EL + + para SHI), em comparação com arepresentação como subclasses. Em EL+ + a complexidade do raciocínio DL é PSPACE-hard(24), e em SHI (ALC adicionado de hierarquia de relações e relações inversas) o raciocínio éExpTime-hard (129), que (em princípio) é mais caro.

O aumento de expressividade é justificado (principalmente) pela inclusão de quantifi-cadores universais para representar objetos que apresentam disposições, definidas pelo tipo deprocesso que as realiza. Na prática, o aumento de expressividade indica um aumento direto nocusto do raciocínio, podendo inviabilizá-lo, se a interpretação for realizada com muitas tuplasanotadas.

Em comparação com à representação com disposições, essa abordagem permite a criaçãode consultas em DL, já que classes são definidas em detrimento da inclusão de GCIs. Emcomparação com a representação como subclasses, no modelo híbrido a geração de combinaçõesé requerida apenas quando é necessário gerar subclasses de objetos materiais (Protein, Organism,Cellular component e Molecule), pois sobre os processos são aplicadas disposições.

4.2.5 Aplicando as abordagens de interpretação

Para exemplificar o cenário de uso de cada uma das interpretações, consideramos a visãosobre um conjunto de dados (tabela 45). A tabela 45 foi construída conforme uma visão dos dadosdo UniProt, Ensembl e NCBI Taxonomy, incluindo proteínas, organismos, processos biológicos,componentes celulares, moléculas e fenótipos fictícios. A partir desse conjunto de dados, foram



Protein Organism Bio. Process Cell. Component Molecule PhenotypeProt1 Org1 Bproc1; CComp1; Mol1; Phen1;

Bproc2; CComp2; Mol2; Phen2;Bproc3 CComp3 Mol3 Phen3

gerados arquivos OWL2 de exemplo para cada uma das interpretações, utilizando as relações eprincípios descritos na seção anterior.

Para explorar os modelos de interpretação, são utilizadas 4 consultas em DL (tabela 46)para verificar a capacidade de recuperação de cada um deles.

Tabela 46 – Consultas DL.Q1 – Quais processos biológicos têm proteínas do tipo Prot1 como participantes?— BProc and (‘has participant’ some Prot1)Q2 – Em quais componentes celulares Prot1 está ativo em organismos do tipo Org1?— ‘Cellular component’ and (‘is included in’ some Org1) and (includes some Proti)Q3 – Quais proteínas estão envolvidas em processos do tipo ProcBp1,

em organismos do tipo Org1?— Protein and (is participant in some BProc1) and (is included in some Org1)Q4 – Quais organismos são capazes de exibir um fenótipo específico do tipo Phen1?— Organism and (‘is bearer of’ some (Disposition and (‘has realization’ only Phen1)))

Essas consultas têm como princípio corroborar com a afirmação de que é possível recuperarconteúdo a partir da interpretação dos bancos de dados biológicos. Além disso, identificar atéque ponto cada representação apresenta vantagens e limitações.

É importante salientar que o processo de consulta é realizado de forma diferente para asabordagens de representação com múltiplas subclasses e com o modelo híbrido. Ao consultardiretamente esses modelos, com as consultas listadas na tabela 46, são recuperadas as subclassesgeradas a partir das combinações. Por exemplo, Q1 recupera classes na forma Bproc1_Prot1.

Entretanto, a utilidade da interpretação é sobre a recuperação das classes referenciadas apartir da anotação (no caso de Q1, classes de Biological process). Por conta disso, e especifi-camente para esses tipos de interpretação, é realizada uma segunda consulta para identificar asclasses referidas pela anotação (tabela 47).

Tabela 47 – Consulta em segundo passo.

Result1 and Result2 and . . . and Resultn

A consulta da tabela 47 foi criada para recuperar as classes comuns e compartilhadas pelas sub-classes identificadas, e.g. uma superclasse específica. Por exemplo, Q1 tem como resultado sobrea interpretação por subclasse duas classes ‘Bproc1_Prot1’ e ‘Bproc2_Prot2’. Essas subclasses


compartilham como superclasse ‘Biological process’. ‘Biological process’, que é recuperada apartir de uma consulta do tipo:

‘Bproc1_Prot1’ and ‘Bproc2_Prot2’

Partindo desse pressuposto, as consultas Q1-Q4 são aplicadas da mesma forma para asquatro interpretações na tabela 45. Os resultados das consultas para cada uma das formas deinterpretação estão descritos na tabela 48.

Tabela 48 – Resultado das consultas, juntamente com as características das quatro implementa-ções ontológicas (sem importar a BTL2).

Modelo Q1 Q2 Q3 Q4 Classes Axiomas Indiv. DLABox bp1001, cc1001, p1004 – 24 207 51 ALC

bp2001, cc2001,bp3001, cc3001

TBox com BProc1 CComp1 Prot1 – 68 149 0 EL++SubclassesTBox comGCI e

– – – – 29 70 0 SHI

DisposiçõesTBox híbrida BProc1 CComp1 Prot1 Org1 48 129 0 SHI

Os resultados das consultas Q1-Q4 (tabela 48) mostram que é possível, tanto recuperarindivíduos com a interpretação 1, quanto recuperar classes com a consulta, em dois passos nostipos de interpretação 2 e 4. Como esperado, não foi possível recuperar nenhuma classe com ainterpretação por disposições. Esse fato é explicado pela ausência de definições de classe.

Entre as consultas criadas, a Q4 só é respondida pela interpretação híbrida. Isso acon-tece porque a representação híbrida, além de apresentar definições de classes, também incluidisposições definidas, evitando a geração de mais combinações.

4.3 Discussão

Recentemente, a interpretação de BDs utilizando ontologias emergiu como um tópico depesquisa no domínio biomédico, e.g. por possibilitar desambiguar o sentido de palavras-chaveem texto-livre para a geração de consultas de acesso a repositórios de dados. A interpretaçãoontológica é descrita como um meio para interpretar (de forma clara e formalizada) os dadosprovenientes de estudos científicos (10).

O fato de que BDs de observações biomédicas, principalmente de proteômica, são in-terpretados de maneira ad hoc foi levantado por 11. Esse autor propôs a criação de ferramentasque suportem o processo de interpretação utilizando ontologias. Entretanto, não foi demonstradanenhuma utilização prática ou definição de ferramenta.


Com a emergência da web semântica, o padrão de linguagem de ontologias OWL2 —com os diferentes dialetos — se tornou bastante popular para descrever (formalmente) ontologias.Todavia, modelos OWL2 podem ser gerados como uma conversão automática da estrutura dosBDs (130).

Essa conversão ocorre de forma similar à tradução automática de tesauros ou KBs emOWL (131, 132). Há uma tendência de que o foco da representação seja a sintaxe OWL e a DL,sem considerar o engajamento ontológico.

Uma afirmação comum na literatura é que artefatos ontológicos devem ser construídosde forma a descrever estruturas de dados orientadas a um propósito ou aplicação. Esse fato podeser evidenciado pela construção de representações (vulgarmente) chamadas de ontologia, masque apenas incluem a representação lógica (ou uma lista de classes) de alguma aplicação outarefa. Exemplos são a representação do contexto para agentes inteligentes (133) e de sistemasde suporte à decisão (134).

Neste trabalho, consideramos a utilização de artefatos representacionais com engajamentoontológico, indo além apenas da representação lógica. O contexto empregado sobre as ontologiasé de “artefatos representacionais em que suas unidades designam classes ou tipos na realidade, epara relacioná-los entre si” (135).

A análise e a formalização da realidade de esquemas de BD são confirmadas pelasabordagens de interpretação apresentadas neste capítulo. A interpretação ontológica é empregadaem uma estrutura tabular de banco de dados, com esquema definido, ressaltando as classesreferenciadas e definindo-as com base em relações formais. O exemplo criado, com camposProtein, Organism, Process, Cellular component,Molecule e Phenotype ressalta a estrutura debancos de dados reais, incluindo informações reais recuperadas da literatura científica.

Nesse sentido, o que é proposto neste trabalho é direcionado para tentar incluir conhe-cimento do domínio, que não é exposto pelo esquema de BD, nem descrito informalmente nosdicionários de dados. Exemplos para esta ligação perdida são que fenótipos listados em umBD resultam da disfunção de uma proteína; e, que proteínas atuam como enzimas em rotasmetabólicas nas quais moléculas de baixo peso molecular são substratos ou produtos.

Desde que a interpretação do esquema de BD é (sem sombra de dúvidas) de importânciaontológica, saber quais classes e relações são aplicadas pode ser discutível. Para minimizar esseproblema, foram empregadas classes básicas e relações formais da BTL2, com a utilização de umraciocinador DL. Como resultado do processo de interpretação, foram empregadas quatro estra-tégias. A primeira é completamente baseada em entidades Abox, e.g. os indivíduos provenientesde experimentos e que resultaram na inclusão de anotações nos BDs.

Com uma abordagem similar à população de ontologias (114), a interpretação comindivíduos pressupõe a inclusão efetiva de indivíduos em uma ontologia para que eles tenhamsentido. Indivíduos podem ser recuperados por consultas DL, mas problemas conhecidos de


desempenho, commuitos indivíduos na Abox, podem fragilizar a escalabilidade dessa abordagem.Uma forma simples de realizar essa tarefa, sem incluir indivíduos na ontologia, é pela aplicaçãode um framework Ontology-Based Data Access (OBDA)8 (8).

14 descreveram uma abordagem chamada de Referent tracking (RT), para auxiliar naidentificação de registros de bancos de dados utilizando ontologias. O RT foi criado comouma forma de referir (explicitamente) indivíduos em registros eletrônicos do paciente para adescrição clara das condições clínicas dele. No RT, o usuário cria cada interpretação que temum identificador único. Por exemplo, um registro de saúde em que há um indivíduo joão e umindivíduo ‘ataque do coração do João’ é interpretado (apenas) em função da relação que ousuário pode associar, nesse caso ‘has participant’.

15 aplicam o RT sobre dados de BDs (em detrimento das anotações). Comparando ao quefoi apresentado para a interpretação como indivíduos, é claro que a natureza dos dados é diferente:enquanto registros eletrônicos de pacientes guardam dados específicos, BDs biomédicos utilizamanotações. No primeiro, são registrados dados sobre (por exemplo) um relato de dor de umpaciente específico, e.g. uma dor9475 participant pac192863.

Já nos BDs biomédicos, ao utilizar anotações, é assumida a existência de um ou maisindivíduos de um mesmo tipo, recuperados a partir de trabalhos científicos. Na prática, a repre-sentação é semelhante e.g. ao fato de evidenciar como dois indivíduos são representados a partirde uma relação ontológica.

Outra aplicação para o RT descrita por 14 é na identificação de anotações. Neste capítulo,foi demonstrado que anotações (mesmo provenientes de classes de ontologias) não apresentamum contexto claro. Isso acontece pelo fato de o BD não definir como as relações entre astabelas/entidades são criadas. Além disso, o procedimento de anotação de bancos de dadosbiológicos já é realizado por diversas ferramentas diferentes, como descrito por 19.

A segunda estratégia, de representação como subclasses, não é contraditória à repre-sentação como indivíduos. A representação como subclasses é prioritariamente motivada pelalinguagem representacional (a DL), ferramentas disponíveis e comportamento computacional.Assim, o objetivo foi identificar como cada anotação incluída em um registro de BD referenciauma classe de uma ontologia e como a relação entre essas classes é representada na forma dedefinições de classes.

O processo de definição de novas subclasses, da mesma forma que a interpretação porindivíduos, pode recair sobre um problema que é resolvido com a aplicação de integraçãosemântica por meio de OBDA. Entretanto, à medida em que consultas mais complexas, queexploram a hierarquia das ontologias, são construídas, as linguagens e procedimentos de consultadisponíveis para as abordagens mais comuns de OBDA, como OnTop (13) ou Ontograte (136),não surtirão efeito. Essas abordagens de OBDA utilizam a linguagem SPARQL para recuperar8 Para maiores detalhase sobre OBDA, C.f. Apêndice


dados na forma de indivíduos. Entretanto, a linguagem SPARQL, apesar de apresentar umaexpressividade muito próxima à DL ALC (137), não inclui os procedimentos de raciocínio porsubsunção da DL (9).

Apenas a terceira estratégia de representação tem como objetivo extrair afirmaçõesontológicas de forma direta, i.e. quais leis científicas são expressas por afirmações qualificadasde maneira universal para todos os membros de uma classe. Isso é possível pela introdução dedisposições, e.g. para certos fenótipos patológicos. Entretanto, a complexidade do raciocíniocom GCIs é problemática (9), limitando e impactando diretamente em tarefas que necessitam deraciocínio.

Como uma forma deminimizar a produção de muitas subclasses (a partir de combinações),e de incluir as disposições, foi criada uma quarta representação, que é um híbrido entre arepresentação com subclasses e a representação com disposições. O ponto alto da representaçãohíbrida é evitar gerar combinações para todas as classes referenciadas como processos, a fonteprincipal de combinações.

Não há nenhuma contradição entre o segundo (subclasses) e o terceiro modelo de interpre-tação (disposições). O fato é que a inclusão de GCIs (como proposto para introduzir disposições)não é resolvida com consultas em DL, por serem definidas classes não nomeadas. A segundaabordagem é próxima da quarta, no sentido de que esta última também se beneficia de subclassesdefinidas.

Todavia, a combinação entre as abordagens como subclasses e disposições possibilitarecuperar classes com consultas em DL. Entretanto, a inclusão de disposições implica no incre-mento da complexidade do processo de raciocínio, de EL+ + na representação como subclasses,para SHI na representação híbrida.

O incremento de expressividade traz um problema comum de raciocínio em DL: desem-penho. A linguagem utilizada no modelo híbrido é ExpTime-hard, enquanto para EL + + éPTime-hard. Outra limitação é a inserção de conteúdo não incluído nos dados, i.e. as disposições.Ao incluir disposições, o modelo híbrido insere classes que não possuem indivíduos nos dados(mesmo existindo na realidade). Isto limita a capacidade de abordagens baseadas em OBDA derecuperar os indivíduos a partir dos dados.

Na prática, a interpretação ontológica demonstra que apenas algumas partes do conteúdosão de importância ontológica, ao passo que a maior parte da informação contida não pode sergeneralizada em afirmações da existência de indivíduos e suas relações. Em outras palavras,o conteúdo dos BDs biomédicos não pode ser considerado como uma verdade universal narealidade, mesmo sendo logicamente representável. Justamente por isso são criadas as diversasformas de interpretação.

Com a DL, é possível recuperar classes ainda que não haja indivíduos definidos para ela.Em outras palavras, é possível recuperar conteúdo que existe, mas que não está representado.


Isso é evidenciado pelo modelo híbrido.

4.3.1 Cenários de Uso

Considerando, tanto a aplicação em tarefas de recuperação, quanto o uso do raciocínio,possivelmente, a abordagem pela geração de subclasses (mesmo sendo muito produtiva) podeser avaliada como a mais simples e aplicável ao processo de interpretação (um sumário com asvantagens, desvantagens e aplicação de cada abordagem é descrito na tabela 49).

A representação como subclasses definidas é simples, pelo fato de gerar certas combina-ções das classes referenciadas, e todas elas são formadas de acordo com a combinação, tornandoo processo facilmente replicável. Além disso, permite (teoricamente) tanto o uso em abordagensde integração semântica, quanto procedimentos complexos de recuperação por meio de raciocínio.Ainda, não necessita da criação de disposições, mantendo limitada a expressividade do conteúdorepresentado.

As abordagens de interpretação apresentadas podem ser úteis como um frameworkorganizacional, permitindo a definição clara de como os dados de experimentos biomédicossão guardados, processados e convertidos em conhecimento ontológico. Especificamente, ainterpretação ontológica pode ser aplicada pelos provedores dos dados, mantenedores e usuários,utilizando os dados de maneira uniforme, próximo da realidade e deixando claro o que significacada registro.

Considerando a expressividade, possíveis aplicações para integração semântica e desem-penho do raciocínio, iremos explorar a representação como subclasses no próximo capítulo, comoé empregada em um extrato de dados biomédicos reais, sendo avaliada sobre o desempenho,capacidade de recuperar classes com consultas DL e escalabilidade.

Capítulo4.


deBD

sbiomédicos

119

Tabela 49 – Vantagens, Desvantagens e Cenários de Uso das formas de interpretação ontológica de BDs biológicos anotados.

Representação Vantagens Desvantagens Cenários de Uso

Indivíduos- Não requer vastoconhecimento ontológico;- Consultas em DL.

- Não há incremento ontológico;- Raciocínio custoso comontologias axiomatizadas.

- OBDA

Subclasses- Incremento ontológico;- Raciocínio de baixa complexidade;- Consulta em DL.

- Criação de muitas subclasses;- Requer conhecimento ontológico.

- Consultas DL;- OBDA;- Checagem de consistênciade dados

Disposições Representação genérica- Alto,custo para o raciocínio;- Pode não definir nada,não servindo para consultas DL.

- Incremento Ontológico

Híbrido - Incremento ontológico;- Consulta em DL.

- Custo elevado de raciocínio;- Disposições não são incluídasnos bancos de dados.

- Consultas DL;Checagem de Consistência de Dados

120

5 Re-interpretação de bancos de dadosbiomédicos utilizando ontologias

A literatura descreve várias tentativas para incrementar a interpretação e a recuperaçãode dados biomédicos por meio de ontologias formais (19). As abordagens mais utilizadas são aaplicação de frameworks de integração semântica (13, 136, 138, 8), ou a combinação de ontologiase aprendizado de máquina (139, 140). Mesmo assim, ainda é necessário que o usuário revisemanualmente o conteúdo recuperado. O suporte semiautomatizado disponível para recuperar einterpretar conteúdo de BDs é caracterizado por uma evolução concorrente e contínua de fontesde conhecimento (dados e ontologias) bastante estruturadas. Ao mesmo tempo, pouco progressopode ser identificado com relação à interoperabilidade e à fundamentação ontológica.

Justamente sobre esses aspectos recai o uso superficial das ontologias. Normalmente,as ontologias são empregadas como vocabulários de consulta ou como fonte de anotação deregistros, sem fundamentação ontológica. A utilização dada às ontologias (nesses contextos)restringe a aplicabilidade e (consequentemente) a utilidade na interpretação ontológica de dados.Na prática, ontologias servem não somente para representar o conteúdo do domínio, mas tambémpara descrever e interpretar de forma clara (sem ambiguidades) como registros de BDs sãocompreendidos.

Por exemplo, o organismoCavalo pode ser descrito (a partir da BTL2) como uma entidadematerial, capaz de apresentar funções (e.g. animal de montaria), ou ter disposições (e.g. ter febre)que são realizáveis em processos (e.g. cavalgar ou processo patológico, respectivamente). Emcontrapartida, em um BD, essas informações podem ser abstraídas quando registrado apenas oidentificador do animal (Cavalo) e a manifestação patológica identificada (Mormo). Justamenteas informações que são abstraídas é que compõem a interpretação do usuário na prática.

Como evidenciado no capítulo anterior, bancos de dados biomédicos apresentam registrosanotados com identificadores de ontologias biológicas, de forma a trazer sentido para o registroe facilitar a compreensão pelo usuário. Entretanto, nem o esquema nem a documentação dosbancos descreve o contexto de utilização das anotações. A geração das anotações segue um oumais métodos de identificação e aproximação entre termos disponíveis em publicações científicase o nome de classes em ontologias. Como resultado, é necessário realizar uma revisão manualpara remover redundâncias nas anotações identificadas (99).

Como solução, apresentamos 4 formas diferentes de interpretar os dados numa perspectivaontológica: representação como indivíduos, por subclasses, com disposições ou um híbrido. Entreestas formas de interpretação, a representação por subclasses (apesar de produtiva) apresenta apossibilidade, tanto de ser aplicada em tarefas de interpretação (que requerem raciocínio), como

Capítulo 5. Re-interpretação de BDs Biomédicos 121

também para a recuperação de dados por meio de integração semântica.

Ao interpretar bancos de dados biológicos anotados com identificadores de ontologias,são evidenciadas tanto as classes quanto o contexto dos dados a partir do conteúdo de um registro,e.g. o que cada classe utilizada como anotação significa isoladamente e em relação às demaisclasses utilizadas como anotação nos registros. Neste capítulo, essas afirmações são investigadascom a aplicação do método de interpretação por subclasses em um subconjunto de ontologias eBDs biológicos. Dessa forma, são propostos:

• A aplicação de um framework de interpretação ontológica que torne explícito o conteúdoanotado dos bancos de dados;

• Descrever o processo de interpretação ontológica utilizando identificadores de GO, ChEBIe PRO a partir dos BDs biológicos UniProt, Ensembl e NCBI taxonomy;

• Validar experimentalmente as classes e axiomas gerados a partir da interpretação sobrecomo o usuário pode se beneficiar do mecanismo de interpretação a partir de consultasrealizadas com DL;

• Mostrar que na interpretação por subclasses, um produto do framework apresenta vantagensdiante das abordagens atuais de interpretação de BDs biológicos anotados;

• E, avaliar experimentalmente a consistência e escalabilidade da solução.

Assim, é levantada a hipótese de que, com uma visão formalizada e explícita dos dadosna forma de uma interpretação ontológica pela geração de subclasses, os usuários são melhorservidos para integrar, recuperar, validar, mas principalmente para interpretar os dados. Esse fatoé justificado pela capacidade de aplicar raciocínio automatizado a ontologias escritas em DL, deforma a:

• Classificar (9), e.g. determinar que um inseto é um artrópode a partir de afirmações comoUm mosquito é uma subclasse de inseto e que inseto é uma subclasse de artrópode;

• Checar consistência (9), e.g. (por definição) um processo é realizado apenas em decorrênciade funções, papéis ou disposições. A afirmação de que existem classes da go:‘molecularfunction’ que são subclasses de Function é contradito pela representação existente na GO.Nela, subclasses de ‘molecular function’ apresentam como parte (‘has part’) classes deprocessos go:‘biological process’. Por definição, funções não têm como parte processos;apenas processos têm como parte outro(s) processo(s); e,

• Verificar se o conteúdo derivado a partir da interpretação com subclasses apresenta enga-jamento ontológico a partir da criação de consultas escritas em DL. Por exemplo, com ainterpretação com subclasses é possível verificar se existem organismos do tipo Ox que


incluem processos biológicos do tipo Bpy em que proteínas do tipo Pz são participantes,assumindo que o modelo não contém classes vazias.

Essa hipótese é investigada a partir da aplicação da interpretação pela geração de subclas-ses sobre um conjunto de dados do UniProt, Ensembl e NCBI Taxonomy. Esses BDs são anotadoscom as ontologias GO, PRO, SNOMED CT e ChEBI. Para que seja possível interpretar os dadose organizar essas ontologias, é utilizada a ontologia supradomínio BTL2. Nesse contexto, a BTL2é necessária para organizar as ontologias utilizadas para anotar os dados, segundo uma mesmafundamentação.

Como produto da interpretação dos dados (e.g. UniProt, Ensembl e NCBI Taxonomy),é disponibilizado um arquivo contendo a interpretação, escrita na mesma linguagem de repre-sentação (nesse caso, OWL2) das demais ontologias utilizadas (nesse caso: BTL2, PRO, ChEBIe SNOMED CT). O intuito (por trás da geração desse arquivo) é permitir que o usuário possaimportá-lo nas ontologias como um instrumento para criação de consultas sobre a semântica dosdados, e.g. incrementando a representação existente. Na prática, o arquivo de interpretação atuacomo uma extensão ao conteúdo existente nas ontologias utilizadas para a interpretação, comaxiomas de definição de classe pertinentes ao contexto dos BDs interpretados.

O caso de uso, criado sobre o domínio biomédico, é construído a partir de um conjunto deconsultas escritas e traduzidas para DL, aplicadas diretamente sobre o arquivo com os axiomas deinterpretação. O intuito dessa análise é, basicamente, evidenciar que o modelo como subclasses(capítulo 4):

(i) É factível, e.g. permitindo a construção da interpretação ontológica de forma clara edefinida;

(ii) É útil, e.g. por permitir recuperar conteúdo que não era possível (apenas) consultando ospróprios BDs ou ontologias (isoladamente ou em conjunto); e,

(iii) Tem desempenho satisfatório de raciocínio e recuperação quando a quantidade de dadosanotados é escalado.

Nas próximas seções, são apresentados os procedimentos metodológicos utilizados noprocesso de aplicação da interpretação como subclasses; como a interpretação é construída (naprática); uma análise sobre consultas do domínio; e, a avaliação sobre a escalabilidade dos dados.Por fim, são apresentadas ponderações sobre a aplicação da estratégia de interpretação e suaaplicação.


5.1 Procedimentos metodológicos

A seguir, é descrito como é realizada a aquisição dos dados; o alinhamento da ChEBI,GO, SNOMED CT e PRO com a BTL2; e, como foi avaliado o processo de interpretação. Todoo conteúdo e arquivos relacionados, inclusive tabelas, scripts e arquivos de ontologias podem seracessados diretamente a partir do sítio web do projeto1.

5.1.1 Amostragem

Dados sobre organismos vivos, foram recuperados a partir do UniProt (Release 2015_04)e Ensembl (Release 79) utilizando a mesma string “homocysteine” (figura 41). Dados referentesaos organismos2 descritos no UniProt foram recuperados do NCBI Taxonomy (Release 2015AA).

Ao todo, foram recuperados 21.868 registros do UniProt; e, exatos 1000 registros doEnsembl (figura 41). Em um primeiro momento, foram excluídos registros que não apresentavamanotação para a GO e PRO, e.g. por apresentar tupla com valores vazios. Esse procedimentofoi realizado para assegurar que sejam incluídos apenas valores com anotações. Em seguida,foram excluídos todos os genes não nomeados, de acordo com o nome da proteína; e, proteínasrevisadas e descritas, conforme o trabalho clássico de 141 sobre o metabolismo da homocysteine3

(figura 41).

Início

Consulta bases de dados sobre o

termo ‘homocysteine’

UniProt(21.868 registros)

Ensembl(1.000 registros)

Filtro: Registros anotados, Genes

nomeados(1.716 registros)

Filtro: inclusão de proteínas revisadas

(46 registros)mapeamento

BD Exemplo(46 registros mapeados)

Fim

Figura 41 – Seleção de Dados.

1 http://www.cin.ufpe.br/˜integrativo2 Panda, bovino, sagui, cão, peixe-zebra, frango, humano, celacanto indiano, elefante africano, rato, furão, tilápia

do nilo, coelho, chimpanzé, orangotango, ratazana, demônio da tasmânia, porco, baiacu japonês e rã.3 Para maiores detalhes, C.f. Seção 4.1, página 91.


Após esse último filtro, foram colecionados 46 registros em formato tabular (planilha)para mapeamento manual, a partir dos identificadores do Ensembl colecionados (mapeamentoentre classes das ontologias e campos da tabela foram descritos no capítulo 4, página 94).Adicional a esse passo é o mapeamento dos registros do UniProt com os identificadores coletadospara o Ensembl(figura 41). De posse dos identificadores do Ensembl, foi adicionado o campocorrespondente aos fenótipos descritos para as sequências dos genes das proteínas listadas noUniProt.

O conjunto de dados resultante, 46 registros específicos sobre o metabolismo da homo-cisteína, inclui anotações sobre as seguintes classes de proteínas:

• Betaine-homocysteine S-methyltransferase 1 (BHMT1);

• Methionine synthase (MS);

• Methylenetetrahydrofolate reductase (MTHFR);

• Cystathionine beta-synthase (CBS);

• E, Gamma-cystathionase (CSE).

Todos os dados foram planilhados e os registros, disponibilizados conforme a seguinteestrutura:

• Uma classe de proteína (e.g. CBS);

• Uma classe de taxon (e.g. Homo sapiens);

• Uma classe de gene (e.g. gene MTHFR);

• Uma para muitas (1:N) classes de processos biológicos da GO (e.g. ‘Blood vessel remode-ling’);

• Uma para muitas (1:N) classes de funções moleculares da GO (e.g. ‘CBS activity’);

• Uma para muitas (1:N) classes de componentes celulares da GO (e.g. cytoplasm);

• E, Zero para muitas (0:N) classes de fenótipos (e.g. ‘Endocrine pancreas increased size’).

O modelo conceitual das entidades recuperadas do UniProt e Ensembl estão dispostas na figura42.


Figura 42 – Modelo conceitual (diagrama entidade-relacionamento) (142) das entidades recupe-radas do UniProt e Ensembl.

Proteína 1

1

Taxon

1 Gene

1

nProcesso Biológico

n

Função molecular

nComponente

celular

0 n Fenótipo

5.1.2 Representação e organização das ontologias

Para otimização de desempenho do raciocínio, foram criados módulos das ontologiasGO, PRO e ChEBI. De BTL2, apenas as classes e relações necessárias para modelar o domínioforam preservadas, como Process e ‘has part’ (respectivamente). Os módulos foram criados apartir de um arquivo de assinatura, contendo a lista de anotações para classes da GO, ChEBI ePRO referidas nos 46 registros recuperados após mapeamento do UniProt e Ensembl.

A extração dos módulos foi realizada por meio de um plugin para o editor Protégé v.5chamado Ontology Modularity, descrito no trabalho de 143. Esse plugin implementa o métodode modularização proposto pelo trabalho de 144. Nesse trabalho, o processo de modularizaçãoé formalmente definido, completo e finito. O princípio da modularização é a criação de umsubconjunto representativo (A’) de classes de uma ontologia (A) (figura 43). Esse subconjunto édefinido pela listagem de entidades de interesse do usuário (e.g. arquivo de assinatura com asanotações) em que todas as classes de interesse são representadas (figura 43). Adicionado a isso,também são recuperados todos os axiomas e relações descritos para as classes de interesse dousuário.

As hierarquias provenientes da modularização da GO, ChEBI, SNOMED CT, PRO e ahierarquia taxonômica de organismos proveniente da NCBI Taxonomy foram incluídas comosubclasses dos nós da BTL2 (figura 44). Nessas ontologias, foi utilizado o raciocinador FACT++(145) para testar se o arranjo é logicamente consistente, e.g. se a inclusão de classes da GO, PRO,


Figura 43 – Exemplo sobre a modularização de uma ontologia qualquer A em uma ontologia A’.

C

C1

C2

D

D1

D2

�

Ontologia (A) Arquivo de Assinatura

Classes de Interesse

C1

D2

C

C1D

D2

�

Ontologia (A’)

SNOMED CT e ChEBI sob a BTL2 (completa) gerou alguma tipo de erro de representação noarranjo resultante.

Figura 44 – Alinhamento da GO, ChEBI, SNOMED CT e PR sob a BTL2.

btl2:‘particular at some time’

btl2:‘poly molecular composite entity’

btl2:‘structured biological entity’

btl2:organismgo:cellular component

chebi:‘chemical entity’

pr:protein

chebi:‘molecular entity’

btl2:‘Material object’

btl2:compound

btl2:disposition

chebi:role

btl2:‘Process’

go:biological process

go:molecular function

snomed:‘clinical finding’

O processo de criação de módulos segue a estratégiaMinimal Information to reference anexternal ontology term (MIREOT) (146). Nessa estratégia, é definido como utilizar de maneiraadequada classes importadas de uma ontologia para outra. Esse procedimento é, frequentemente,baseado na utilização de módulos com, apenas, as classes determinadas pelo usuário.

Todos as entidades dos BDs foram sujeitas à identificação e à análise ontológica profundade especialistas em modelagem formal de ontologias. A partir do padrão de interpretação sobre


geração de subclasses, foi criado um script em Clojure4 que percorre os registros e realiza aconversão do conteúdo e geração de subclasses.

Especificamente, cada axioma de interpretação, e.g.:

P_O equivalentTo P and(‘is part of’ some O)

é convertido para o respectivo código em OWL:

<EquivalentClasses><Class IRI="$Protein$_in_$Organism$"/><ObjectIntersectionOf>

<Class IRI="$Protein$"/><ObjectSomeValuesFrom><ObjectProperty IRI="..../btl2.owl#isPartOf"/>

<Class IRI="$Organism$"/></ObjectSomeValuesFrom>

</ObjectIntersectionOf></EquivalentClasses>

Cada uma das palavras entre $. . . $ é, então, substituída por um identificador de ontologia prove-niente de um registro específico. Por exemplo, $Protein$ pode ser substituído pelo identificadorpara a classe go:‘Methionine synthase’ e assim por diante. Esse processo é repetido recursiva-mente para todas as combinações de identificadores definidas nos axiomas de interpretação (aserem apresentados posteriormente) até que todas as combinações de um registro se esgotem.Esse procedimento é realizado registro a registro, considerando que cada um apresenta umaconfiguração peculiar de combinações.

Com todos os axiomas de interpretação convertidos, cada um dos trechos do código OWLresultante é salvo em uma planilha. Com os dados em uma planilha e os axiomas em outra, o scriptrealiza todas as substituições dos argumentos escritos entre $. . . $ pelos respectivos identificadoresda ontologia na planilha Excel de dados. Como resultado, é gerado um arquivo OWL contendoos axiomas de interpretação (anteriormente escritos em DL), as subclasses geradas.

Após a geração das subclasses, incluindo as respectivas definições, o modelo resultante éincluído como parte dos módulos das ontologias GO, ChEBI, SNOMED CT e PRO, organizadassob a BTL2 (completa). Esse processo se dá pelo uso direto de URIs das classes referenciadasnos bancos de dados no modelo de interpretação. Ao utilizar os mesmos URIs, a definição de4 Linguagem funcional de sintaxe simples. Clojure permite a conversão direta em código na linguagem Java para

compilação.


qual classe A é subclasse de B ocorre de forma automática. Na OWL2, URIs são utilizados paraidentificar (univocamente) as entidades de uma ontologia.

O processo geral de aplicação da estratégia de interpretação, incluindo as etapas derecuperação de dados, seleção de ontologias, geração de axiomas, conversão e validação doconteúdo, está sumarizado na figura 45. A seguir, detalhamos como foram construídas as consultasutilizadas para a validação final do conteúdo da interpretação ontológica criada sobre os dadosdo UniProt e Ensembl.

Figura 45 – Processo genérico da aplicação da estratégia de interpretação ontológica de BDs.

5.1.3 Avaliação

O conteúdo da interpretação é avaliado por um total de 07 consultas, que foram formuladaspelo autor deste trabalho, um biólogo, da forma como especialistas do domínio consultam BDsbiológicos. Em seguida, as consultas foram escritas em DL e revisadas por outro pesquisador, ocoorientador deste trabalho, de forma a evitar erros de construção e tornar o processo de consultaneutro em relação à estrutura interna da ontologia.

Na prática, a conversão da consulta de linguagem natural para DL acontece a partir daidentificação de entidades pertencentes à ontologia, bem como da possível relação que pode ser


aplicada entre cada uma das entidades. Especificamente neste trabalho, é aplicada a BTL2 comofornecedora de classes e relações genéricas. Dessa forma, são utilizadas essas classes e relaçõescomo princípio para a conversão da consulta em linguagem escrita em consultas DL.

Abaixo, as consultas utilizadas (escritas em linguagem natural):

• Q1: Quais processos biológicos apresentam proteínas do tipoMethionine synthase comoparticipantes?

• Q2: Em qual componente celular uma proteína do tipo Cysthationine beta-synthase é ativanum organismo do tipo Loxodonta africana?

• Q3: Quais proteínas estão envolvidas em processos do tipo methylation em organismos dotipo ‘Homo sapiens’?

• Q4: Quais organismos apresentam a proteína methylenetetrahydrofolate reductase partici-pando especificamente de processos do tipo folic acid metabolic process?

• Q5: Quais funções moleculares são relacionadas à proteínas do tipo ‘Betaine-homocysteineS-methyltransferase 1’ em anfíbios?

• Q6: Quais fenótipos são relacionados a presença da proteína cysthationine beta-synthaseem hominídeos?

• Q7: Há funções moleculares exibidas por proteínas do tipo ‘cystathionine gamma-lyase’disfuncionais?

Para exemplificar o processo de tradução, na consulta Q1 (a partir das ontologias utili-zadas) é possível identificar 2 tipos de componentes: classes e relações. “Processos biológicos”se refere à classe go:biological_process, “Methionine synthase” é uma subclasse de proteína(portanto especifica o tipo de proteína que se quer consultar); e, “participantes” define o tipo derelação que deve ser aplicada, e.g. btl2:‘has participant’.

Essa relação de btl2:‘has participant’ é aplicável (nesse caso) pelo fato da BTL2 determi-nar que existe uma relação de participação entre processos e entidades materiais, e.g. “Processosbiológicos” e “Methionine synthase” (respectivamente). O mesmo princípio é aplicado às demaisconsultas. A lista de todas as consultas e as respectivas traduções para DL com base na BTL2estão disponíveis na seção 5.2.2 (página 141).

Para evitar julgamentos enviesados (na interpretação), as ontologias de domínio disponí-veis foram utilizadas para checar a consistência do modelo, em um processo assistido por meiode raciocinador DL. O raciocinador é empregado para classificação e recuperação do conteúdoa partir do conjunto de subclasses geradas. Assim, as consultas DL criadas são submetidas àontologia resultante da interpretação ontológica.


Todos os arquivos, códigos, dados e material complementar estão disponíveis no site doprojeto integrativO (http://www.cin.ufpe.br/˜integrativo).

5.1.3.1 Teste de Escalabilidade

Para avaliar a escalabilidade, o processo de geração de subclasses foi aumentado artifici-almente em fatores de escala f ∈ 1, 3, 10, 30, 100, 300, 1000. Esse procedimento é realizado apartir de 2 scripts:

• Script 1, em Visual Basic for Applications (VBA), multiplica os dados em cada um dosfatores listados, modificando diretamente a planilha Excel em que os dados são armazena-dos;

• Script 2, em Clojure, para gerar arquivos OWL com a interpretação sobre os dados.

O script 1 é responsável por criar novas classes com sufixos do tipo i ∈ 1, 2, . . . , f . A homoge-neidade das ontologias experimentais é garantida pela inclusão de i nos axiomas.

Já o Script 2, como descrito, é responsável por substituir as classes identificadas nosregistros em um trecho de código OWL criado com placeholders (e.g. $Protein$). Para cadainterpretação aumentada artificialmente, foi gerado um arquivo OWL (totalizando sete arquivos,um por cada f ).

Cada um dos arquivos OWL contém quantidades maiores de classes e axiomas paraavaliar a escalabilidade do processo de raciocínio e o incremento de conteúdo. Adicionalmente,o tempo de raciocínio foi medido pelo tempo que o raciocinador leva para processar cada umadas consultas em milissegundos (ms).

Todos os testes e geração de arquivos foram realizados em um computador móvel consti-tuído de um processador Intel Core i7 4510U de 04 núcleos, com 16Gbytes de memória RAM,utilizando o Microsoft Windows 10 (x64) e Java 8 (Update 74, versão x64).

5.2 Validação da interpretação ontológica

A seguir, serão descritos os passos relacionados à fundamentação do conteúdo ontológicoproveniente dos dados. Sobre cada registro de BD, é aplicada a mesma interpretação I, utilizando,como base, a estratégia de interpretação como subclasses (capítulo 4); e as classes e relaçõesbásicas da BTL2. A interpretação I é construída sobre como os dados da tabela 50 são organizados.

Abaixo, a descrição da interpretação I sobre os dados do UniProt, Ensembl e NCBITaxonomy:

• Há processos biológicos do tipo Bp em organismos do tipo O que apresentam proteínas Pcomo participantes;

Capítulo5.

Re-interpretaçãode

BDsBiom

édicos131


ID Proteína Gene Organismo GO (bp) GO (mf) GO (cc) Ensembl ID Fenótipo EnsemblF1MEW4 CBS CBS Bos taurus blood vessel re-

modeling; . . .cystathionineβ-synthaseactivity . . .

cytoplasm. . .

ENSBTAT00000000184;. . .

No phenotype asso-ciated

Q99707 MS MS Homo sa-piens

cobalamin me-tabolic process;. . .

cobalamin bin-ding; . . .

cytoplasm. . .

ENST00000366577;ENST00000535889

Neural tube defect;Megaloblastic ane-mia; . . .

Q9EQS4 CSE CSE Rattus nor-vegicus

hydrogensulfide bi-osyntheticprocess; . . .

pyridoxalphosphatebinding; . . .

nucleus;. . .

ENSRNOT00000067843 Cataract; AminoAcid Metabolismerrors; . . .

F1RF82 MTHFR MTHFR Sus scrofa homocysteinemetabolicprocess; . . .

modifiedamino acidbinding; . . .

cytosol ENSSSCT00000003805 No phenotype asso-ciated

Q93088 BHMT BHMT Homo sa-piens

amino-acid be-taine catabolicprocess; . . .

zinc ion bin-ding; . . .

proteincomplex;. . .

ENST00000274353 Liver tumour; Co-ronary Artery Dise-ase; . . .

As 6 colunas da esquerda contêm entradas do UniProt; as duas colunas da direita, o conteúdo do Ensembl. GO (bp), GO(mf) e GO(cc)representam as anotações sobre os registros do UniProt para as classes da GO biological_process, molecular_function e cellular_component.Os IDs do UniProt e Ensembl são utilizados para mapear os bancos.


• Proteínas do tipo P são parte de organismos do tipo O, e são incluídas em um ou maiscomponentes celulares do tipo C. Essas mesmas proteínas são participantes, tanto deprocessos biológicos Bp, quanto de funções molecularesMf. Uma ou mais moléculas dotipo M também são participantes do processo;

• Há proteínas do tipo P que apresentam a qualidade de serem disfuncionais e, quando fazemparte de um organismo do tipo O, ele inclui um ou mais fenótipos Ph;

• Moléculas do tipo M são parte de organismos do tipo O, e são participantes de processosque têm também como participante uma proteína do tipo P;

• Um organismo do tipo O apresenta uma proteína do tipo P como partes, que por sua vezparticipam de processos do tipo Bp e Mf e que também incluem uma ou mais molécu-las do tipo M. Esse mesmo organismo apresenta proteínas, nas mesmas condições, mascaracterizadas como disfuncionais;

• Um organismo do tipo O tem, como parte, um ou mais componentes celulares do tipo C;

• Componentes celulares do tipo C são parte de organismos do tipo O, que por sua vezincluem proteínas do tipo P;

• Funções moleculares do tipo Mf têm como participantes proteínas do tipo P, incluídos emorganismos do tipo O;

• Havendo registros de fenótipos do tipo Ph, eles são incluídos em organismos do tipo Oque apresentam proteínas disfuncionais;

• Genes do tipo G são participantes de um processo de codificação em que proteínas do tipoP também são participantes. Esses genes são incluídos em organismos do tipo O;

Esse modelo de interpretação incorpora como o conteúdo do banco de dados é traduzidoem axiomas, que são aplicados no mesmo formato e de forma recursiva sobre um conjunto deregistros R em consideração.

A partir da interpretação dos registros, é derivado um conjunto de axiomas escritos emDL, descritos a seguir.

5.2.1 Representação

A análise criada na seção anterior, e com base na fundamentação axiomática do capítulo 4sobre o processo de interpretação, possibilita a descrição de uma série de padrões de representação.

Todo o processo de modelagem é descrito conforme a estruturação do domínio, de acordocom a BTL2. Na BTL2, objetos (organismos, componentes celulares, moléculas e proteínas) sãodescritos como portadores da capacidade de realizar funções, qualidades ou disposições. Além


disso, objetos materiais (como um Homo sapiens) têm, como parte, outros objetos. Nesse caso,podem ser proteínas (MTHFR), moléculas (homocysteine) ou componentes celulares (cytoplasm),os quais têm, como parte, proteínas e moléculas. Proteínas são codificadas em genes.

Objetos participam de processos biológicos e funções moleculares. Processos biológicostêm proteínas como participantes e são incluídos em organismos. Já as funções moleculares têm,como participantes, proteínas. Ambos os processos ocorrem em componentes celulares. Por fim,alguns dos organismos apresentam proteínas defeituosas (i.e. disfuncionais).

5.2.1.1 Axiomas de interpretação

De acordo com a interpretação como subclasses (capítulo 4), nesta seção são definidos osaxiomas, como subclasses, derivados dos dados utilizados. Os axiomas criados são a formalizaçãoda interpretação descrita na seção anterior. Cada um dos axiomas descritos a seguir são criadospara exemplificar como se dá a estrutura da interpretação.

Primeiro, descrevemos processos biológicos do tipo Bp em organismos do tipo O e queapresentam proteínas P como participantes (tabela 51, figura 46).

Tabela 51 – Bp incluído em O com a participação de P.

Bp_O_P equivalentTo Bp and(‘has participant’ some P) and(‘is included in’ some O)

Figura 46 – Representação visual do axioma Bp_P_O.

Bp_Org_Prot

P


‘is included in’some

O

BpequivalentTo

O axioma descrito na tabela 51 determina que, em cada registro, será gerada uma novaclasse do tipo Bp_O_P definida a partir da proteína e do organismo dentro de um mesmo registro.

Por exemplo, é gerada uma classe do tipo ‘methylation_Homo sapiens_MethionineSynthase’ para o registro que inclui uma ‘Methionine Synthase’ associado a um organismoHomo sapiens e a um ou mais processos, como methylation. Esse tipo de combinação é geradapara que fique explícito como as classes anotadas nos registros são representadas.


Outros axiomas são derivados da interpretação em que descrevem proteínas do tipo Pcomo parte de organismos do tipoO (tabela 52, figura 47). Por exemplo, a proteína ‘Cysthationinebeta-synthase’ como parte de um Aliuropoda melanoleuca (panda).

Tabela 52 – P incluído em O.P_O equivalentTo P and

(‘is part of’ some O)

P_O

O

‘ is part of’some

PequivalentTo

Figura 47 – Representação visual do axioma P_O

Proteínas do tipo P, parte de organismos do tipo O, são incluídas em um ou mais com-ponentes celulares do tipo C (tabela 53, figura 48). Por exemplo, ‘Cysthationine beta-synthase’como parte de um Aliuropoda melanoleuca (panda) no cytoplasm.

Tabela 53 – P_O incluído em C.

P_O_C equivalentTo P_O and(‘is included in’ some C)

Figura 48 – Representação visual do axioma P_O_C.

P_O_C

C

‘ is included in’some

P_OequivalentTo

Essas mesmas proteínas são participantes, tanto de processos biológicos Bp, quanto defunções molecularesMf (tabela 54, figura 49). E.g. ‘Cysthationine beta-synthase’ como partede um Aliuropoda melanoleuca (panda) com ‘endochondral ossification’ (Bp) ou ‘blood vesselremodeling’ (Mf ).

Tabela 54 – P_O como participante de Bp e como participante de Mf.

P_O_Bp equivalentTo P_O and(‘is participant in’ some Bp)

P_O_Mf equivalentTo P_O and(‘is participant in’ some Mf )


Figura 49 – Representação visual dos axiomas P_O_Bp e P_O_Mf

P_O_Bp

Bp

‘ is participant in’some

P_OequivalentTo

P_O_Mf

Mf

‘ is participant in’some

P_OequivalentTo

P_O na condição de participante de processos, contém uma ou mais moléculas pequenasdo tipo M como participantes (tabela 55, figura 50).

Tabela 55 – P_O participante de um processo com M

P_O_M equivalentTo P_O and(‘is participant in’ some (process and

(‘has participant’ some M)))

Figura 50 – Representação visual do axioma P_O_M

P_O_M

Process‘ is participant in’ some

P_OequivalentTo

M


E.g. ‘Cysthationine beta-synthase’ como parte de um Aliuropoda melanoleuca (panda), quandoparticipante de um processo (que inclui Bp e Mf ) e tem como participante pelo menos umamolécula de homocysteine.

Nas tabelas 53, 54 e 55, as classes de C, Bp, Mf e M podem apresentar mais de umaentrada dentro do registro. Isto é, uma P_O pode estar associada a uma ou mais componentescelulares, um ou mais processos biológicos, uma ou mais funções moleculares, ou uma maismoléculas pequenas. Nesses casos, e assim como no axioma da tabela 51, há a geração desubclasses como combinações de todas as associações possíveis dentro do registro, respeitandoas restrições do supradomínio.


Um axioma bastante importante e que pode ser derivado da interpretação é o que descreveproteínas do tipo P apresentando a qualidade de serem disfuncionais (tabela 56, figura 51).

Tabela 56 – P_O participante de um processo com M

P_Dysfunctional equivalentTo P and(‘is bearer of’ some Dysfunctional)

Figura 51 – Representação visual do axioma P_Dysfunctional.

P_Dysfunctional

Dysfunctional‘ is bearer of’ some

PequivalentTo

Uma P_Dysfunctional representa uma proteína proveniente do mesmo registro, mas que obvia-mente não constitui a proteína canônica a que se refere o registro em si.

A P_Dysfunctional é definida para que seja possível descrever que, quando a proteínadisfuncional faz parte de um organismo do tipo O, este inclui um ou mais fenótipos Ph (tabela57, figura 52).

Tabela 57 – P_Dysfunctional_O_Ph como parte de O, que inclui um Ph.

P_Dysfunctional_O_Ph equivalentTo P_Dysfunctional and(‘is part of’ some (O and

(include some Ph)))

Figura 52 – Representação visual do axioma P_Dysfunctional_O_Ph

P_Dysfunctional_O_Ph

O‘ is part of’ some

P_DysfunctionalequivalentTo

Ph

includes some

Nesse caso, uma ‘Methionine synthase’ disfuncional em ‘Mus musculus’ é relacionadaao fenótipo ‘Neural tube defect’.

Há um axioma para descrever que moléculas do tipo M são partes de organismos do tipoO (tabela 58, figura 53).

Tabela 58 – M_O como parte de O.

M_O equivalentTo M and(‘is part of’ some O)


M_O

O

‘ is part of’some

MequivalentTo

Figura 53 – Representação visual do axioma M_O

Esse axioma é utilizado para descrever, por exemplo, que há uma molécula de homocysteine comoparte de um Homo sapiens. É possível descrever ainda, que M_O é participante de processos,que têm também como participante uma proteína do tipo P (tabela 59, figura 54).

Tabela 59 – M_O_P como parte de O.

M_O_P equivalentTo M_O and(‘is participant in ’ some (process and

(‘has participant’ some P))

Figura 54 – Representação visual do axioma M_O_P

M_O_P


M_PequivalentTo

P


Há axiomas para descreverem que um organismo do tipo O apresenta uma proteína dotipo P como parte de si (tabela 60, figura 55).

Tabela 60 – O com parte P.

O_P equivalentTo O and(‘has part’ some P)

Figura 55 – Representação visual do axioma O_P

O_P

P

‘has part’some

OequivalentTo


O_P, por sua vez, participa de processos do tipo Bp e Mf (tabela 61, figura 56)

Tabela 61 – O como parte de P, participante de Bp, e participante de Mf.

O_P_Bp equivalentTo O and(‘has part’ some (P and

(‘is participant in’ some Bp))))O_P_Mf equivalentTo O and

(‘has part’ some (P and(‘is participant in’ some Mf ))))

Figura 56 – Representação visual dos axiomas O_P_Bp e O_P_Mf

O_P_Bp

P‘has part’ some

O_PequivalentTo

Bp‘ is participant in’ some

O_P_Mf

P

‘has part’ some

O_PequivalentTo

Mf‘ is participant in’ some

e que também inclui uma ou mais moléculas do tipo M (tabela 62, figura 57).

Tabela 62 – O com parte P participante de processo com participante M.

O_P_M equivalentTo O_P and(‘has part’ some (P and

(‘is participant in’ some (process and(‘has participant’ some M))))))

Esse mesmo organismo apresenta proteínas, em condições iguais, mas caracterizadascomo disfuncionais (tabela 63, figura 58).

Tabela 63 – O com parte P_dysfunctional.

O_P_dysfunctional equivalentTo O and(‘has part’ some P_dysfunctional)


Figura 57 – Representação visual do axioma O_P_M

O_P_M

P‘has part’ some

O_PequivalentTo


P


Figura 58 – Representação visual do axioma O_P_dysfunctional

O_P_Dysfunctional

P_Dysfuntional‘has part’ some

OequivalentTo

Um organismo do tipo O tem, como parte, um ou mais componentes celulares do tipo C(tabela 64). O axioma da tabela 64 (figura 59) descreve quais componentes celulares, como onúcleo, são partes de um organismo Rattus norvegicus (ratazana).

Tabela 64 – O com parte C.

O_C equivalentTo O and(‘has part’ some C)

Figura 59 – Representação visual do axioma O_C

O_C

C‘has part’ some

OequivalentTo

Funções moleculares do tipo Mf têm, como participantes, proteínas do tipo P, incluídasem organismos do tipo O (tabela 65, figura 60).

Tabela 65 – Mf com participante P em O.

Mf_O_P equivalentTo Mf and(‘has participant’ some (P) and(‘is included in’ some O)


Figura 60 – Representação visual do axioma Mf_O_P

Mf_O_P

P‘has participant’ some

MfequivalentTo

O

‘ is included in’some

Um exemplo é a função molecular ‘heme binding’ que tem, como participante, a proteína‘Cysthationine beta-synthase’ em Gallus gallus (galinha).

Outro axioma descreve que fenótipos Ph são incluídos em organismos do tipo O queapresentam proteínas disfuncionais (tabela 66, figura 61).

Tabela 66 – Ph em O com P_dysfunctional.

Ph_O_P_dysfunctional equivalentTo Ph and(‘is included in’ some O_P_dysfunctional)

Figura 61 – Representação visual do axioma Ph_O_P_dysfunctional

Ph_O_P_Dysfunctional

O_P_Dysfunctional‘ is included in’ some

PhequivalentTo

Por exemplo, para descrever que um fenótipo específico de ‘Congenital cataract’ em Rattusnorvegicus ocorre por uma proteína ‘Methylenetetrahydrofolate reductase’ disfuncional.

De posse dos axiomas descritos neste tópico, é gerado um arquivo de ontologia contendotodas as subclasses derivadas dos dados anotados, recuperados do UniProt, Ensembl e NCBITaxonomy. Para ser mais específico, o script em Clojure realiza uma simples substituição (porexemplo) dos termos Ph, O, P pelos identificadores de classes utilizadas como anotação nos BDspara fenótipo, proteína e organismo (respectivamente).

Para que a interpretação gerada dos BDs seja testada quanto à satisfatibilidade, sãoimportados: a interpretação ontológica sob a estrutura da BTL2 e os módulos criados a partirdas classes da PRO, GO, SNOMED CT e ChEBI (figura 62).


Figura 62 – Estrutura de importação dos módulos da GO, PRO, SNOMED CT, ChEBI e a inter-pretação Ontológica sob a BTL2.

Módulo GO

Módulo ChEBI

Módulo PRO

Módulo SNOMED CT

BTL2

Interpretação Ontológica

Com a estrutura importada, é possível (a seguir) criar consultas em DL que explorem ahierarquia das classes e as definições criadas por meio de raciocínio em DL.

5.2.2 Avaliando o conteúdo gerado

A análise do conteúdo dos registros de BD resultou numa série de axiomas em nível deTbox, descritos na seção anterior. É importante salientar dois fatos:

• São geradas classes não vazias, i.e. cada classe nova e definida corresponde a, pelo menos,um fato descrito na literatura e incluído no(s) BD(s);

• Há veracidade nos registros, i.e. cada informação é considerada uma afirmação verdadeira.

Dadas essas condições, a avaliação da Tbox gerada inclui os seguintes aspectos:

• Análise de consistência, em que as classes geradas são testadas em detrimento dos axiomasexistentes na GO, ChEBI, PRO e (principalmente) na BTL2.

• Adequação sobre o domínio, a partir de consultas escritas em DL;

• E, desempenho.

Para que sejam criadas e submetidas consultas em DL para a Tbox gerada, a ontologiadeve ser satisfatível sob qualquer circunstância. Do contrário, não será possível resolver asconsultas.

Assim como na avaliação com consultas DL realizada no capítulo 4 (página 112), énecessário aplicar a estratégia de consulta em duas etapas.

Para relembrar, ao consultar diretamente a interpretação com as novas classes geradas,são recuperadas as novas subclasses e não a classe diretamente utilizada na anotação. Por conta


disso, é realizada uma segunda consulta para identificar as classes referidas pela anotação (tabela67).

Tabela 67 – Consulta em segundo passo.

Result1 and Result2 and . . . and Resultn

A consulta da tabela 67 foi criada para recuperar as superclasses comuns e compartilhadaspelas subclasses, e.g. a classe referenciada pela anotação do registro.

A seguir, serão apresentadas as consultas em DL criadas, incluindo uma breve descriçãosobre aplicabilidade e importância, além dos resultados.

Q1: Quais processos biológicos apresentam proteínas do tipoMethionine synthase como participantes? (Tabela 68)

Essa consulta tem como objetivo recuperar todos os processos biológicos em que éencontrada a proteína ‘Methionine synthase’. Apesar de parecer uma consulta genérica, sem osaxiomas de interpretação, definidos anteriormente, não é possível recuperar esse tipo de conteúdoa partir da PRO e GO.

Tabela 68 – CQ1 em DL.

biological_processand (‘hasParticipant’ some ‘Methionine synthase’)

6 subclasses são recuperadas: ‘cellular nitrogen compound metabolic process’, ‘methi-onine biosynthetic process’, methylation, ‘nervous system development’, ‘pteridine containingcompound metabolic process’ e ‘small molecule metabolic process’.

Q2: Em qual componente celular, uma proteína do tipo Cysthationine beta-synthase é ativanum organismo do tipo Loxodonta africana? (Tabela 69)

Esta consulta tem como objetivo recuperar componentes celulares em que proteínas sãolocalizadas em relação a um organismo específico. Nesse caso, a proteína é a Cysthationinebeta-synthase e o organismo é do tipo Loxodonta africana. Dessa forma, é possível verificarse existe algum tipo de associação decorrente de uma proteína em um local específico de umorganismo.


cellular_component and(‘is part of’ some ‘Loxodonta africana’) and(includes some ‘cystathionine beta-synthase’)


Esta consulta recupera apenas uma classe: cytoplasm. Isso indica que existe apenasuma ocorrência no extrato do UniProt/Ensembl utilizado. Além de esclarecer a semântica dosregistros, apresenta restrições que permite recuperar conteúdo específico. Por exemplo, é possívelcompreender que a proteína ’cystathionine beta-synthase’ é encontrada apenas no citoplasma deorganismos do tipo ’Loxodonta africana’.

Q3: Quais proteínas estão envolvidas em processos do tipo methylation em organismos dotipo ‘Homo sapiens’? (tabela 70)

A CQ3 tem como objetivo recuperar proteínas que participam de processos biológicosespecíficos e que ocorrem em um determinado organismo.

Tabela 70 – CQ3 em DL

protein and(‘is participant in’ some methylation) and(‘is part of’ some ‘Homo sapiens’)

Esta consulta recuperou 2 classes referente às proteínas: ‘Betaine hoomcysteine S-methyltransferase1’ e ‘Methionine synthase’, indicando que no extrato de dados utilizado foram encontradas asso-ciações apenas com essas proteínas.

Q4: Quais organismos apresentam a proteína methylenetetrahydrofolate reductase partici-pando especificamente de processos do tipo folic acid metabolic process? (Table 71)

Essa consulta tem como objetivo recuperar classes de organismos que têm como parteum proteína que participa de um processo específico.


‘cellular organism’ and(‘has part’ some (‘methylenetetrahydrofolate reductase’ and

(‘is participant in’ some ‘folic acid metabolic process’)))

Essa consulta recupera apenas uma classe, referente ao organismo ‘Homo sapiens’. Issosignifica que, no subconjunto de dados utilizados, há apenas um registro em que um humanoapresenta a proteína supracitada, participando de um processo específico.

É importante salientar que essa consulta é bastante específica, i.e. apresenta como resul-tado apenas uma classe. Por exemplo, a BTL2 inclui muitas relações genéricas e a especificidadedos axiomas determina o ganho de precisão representacional. Isso significa que os axiomascriados na interpretação (apesar de parecerem genéricos) são bastante específicos, e.g. sendocapaz de restringirem adequadamente a interpretação criada.


Q5: Quais funções moleculares são relacionadas a proteínas do tipo ‘Betaine-homocysteineS-methyltransferase 1’ em anfíbios? (Tabela 72)

De forma similar à CQ1, a mesma estruturação de consulta é capaz de ser aplicada pararecuperar funções moleculares. Nesse caso, conforme a interpretação, o processo é relacionado aum grupo de organismos que apresentam uma determinada proteína, no caso, os anfíbios.

Tabela 72 – CQ 5 em DL.

molecular_function and(‘has participant’ some ‘betaine–homocysteine S-methyltransferase 1’) and(‘is included in’ some Amphibia)

Essa consulta é capaz de recuperar 3 classes: ‘betaine–homocysteine S-methyltransferase1 acticity’, ‘S-adenosylmethionine homocysteine S-methyltransferase activity’ e ‘zinc ion binding’.

Vale salientar o uso de raciocínio por subsunção nessa consulta. Na ontologia, há um tipode organismo que está relacionado a esta função molecular: Xenopus tropicalis, uma subclassede Amphibia. Por conta disso, é possível recuperar resultados.

Q6: Quais fenótipos são relacionados à presença da proteína cysthationine beta-synthaseem hominídeos? (tabela 73)

Essa consulta tem por objetivo recuperar todos os fenótipos descritos no UniProt/Ensemblque guarda alguma relação com a proteína cysthationine beta-synthase em hominídeos. Oshominídeos são todo o conjunto de organismos que inclui os humanos, chimpanzés, orangotangos,entre outros. Assim como na CQ5, resolver a CQ6 necessita utilizar raciocínio por subsunção,visto que é necessário recuperar todas as subclasses de hominídeo que satisfazem a consulta.

É importante lembrar que, de acordo com as definições da BTL2, fenótipos são descritoscomo subclasses de situation. Dessa forma, essa é a classe de escolha para retratar fenótipos.


situation and(‘is included in’ some (Hominidae and

(‘has part’ some ‘cystathionine beta-synthase’)))

Apenas 2 classes foram retornadas: ‘Cysthationine beta-synthase deficiency’ e Homocys-tinuria. Nesse caso específico, essas classes foram identificadas apenas em humanos, o quesignifica que não há registros que descrevem fenótipos específicos da relacionados à ‘cystathio-nine beta-synthase’ em outros hominídeos (no extrato em questão).


Q7: Há funções moleculares exibidas por proteínas do tipo ‘cystathionine gamma-lyase’disfuncionais? (tabela 74)

Em comparação com as consultas criadas até o momento, essa especificamente atua comouma consulta para verificar contradições. A partir da interpretação, apenas processos biológicossão relacionados a proteínas disfuncionais. Nesse sentido, há a necessidade de verificar se existealguma contradição, tanto nos dados, quanto na interpretação criada.


molecular_function and(‘has participant’ some (‘cystathionine gamma-lyase’ and

(‘is bearer of’ some Dysfunctional)))

Como esperado, essa consulta não retornou resultados. Por definição, apenas proteínasem processos biológicos são disfuncionais. Isso indica que, tanto a representação decorrente dainterpretação consegue restringir adequadamente o conteúdo representado, quanto indica que oconteúdo do extrato utilizado para demonstração não apresenta nenhum erro de registro.

5.2.2.1 Questões de desempenho

Com o intuito de avaliar o custo computacional da abordagem escolhida, foi comparadoo modelo gerado antes e depois dos mapeamentos, com relação ao tempo de classificação, eo tempo que leva para resolver algumas das consultas criadas na seção anterior. Considerandoque algumas consultas específicas, como a CQ6 e CQ5, envolvem raciocínio por subsunção enecessitam dos módulos para serem resolvidas, essas consultas não são incluídas na análise.

A tabela 75 apresenta o sumário da constituição das ontologias. Já a tabela 76 des-creve o desempenho do raciocínio aplicado À ontologia modularizada e aos módulos escaladosartificialmente (X1, X3, X10, X30, X100, X300 e X1000).

A tabela 76 mostra que o raciocínio dentro da expressividade EL + + é plausível eapresenta desempenho aceitável para a recuperação de consultas. Isso pode ser identificado pelopequeno tempo para a recuperação de consultas nos modelos amplificados, com valor máximode 3ms. Entretanto, ao elevar o custo do raciocínio para SHI , o tempo para resolver a tarefa deraciocínio se eleva.

Capítulo5.

Re-interpretaçãode

BDsBiom

édicos146

Tabela 75 – Ontologias descritas segundo quantidade de classes, axiomas de subclasse e equivalência, e expressividade DL.

Ontologia Registros (n) Classes Ax. Subclasse Ax. Equivalencia DLx1 46 2.233 282 1.950 EL+ +x3 138 6.797 791 6.005 EL+ +x10 460 22.778 2.569 20.208 EL+ +x30 1.380 68.438 7.649 60.788 EL+ +x100 4.600 228.248 25.429 202.818 EL+ +x300 13.800 684.848 76.229 608.618 EL+ +x1000 46.000 2.282.948 254.029 2.028.918 EL+ +Com BTL2 e módulos 46 3.209 2.489 2.225 SHI

Tabela 76 – Desempenho do raciocínio em milissegundos (ms) nas ontologias geradas.

Ontologia Classificação Q1 Q2 Q3 Q4 Q7x1 408 0 0 0 0 0x3 885 0 0 0 0 0x10 4.206 1 1 1 1 1x30 25.489 0 0 0 2 2x100 271.654 0 0 1 1 2x300 2.538.292 1 1 1 2 3x1000 29.656.615 89 89 89 89 90Com BTL2 e módulos 7.056.790 0 5 8 8 8


5.3 Discussão

Neste capítulo, foi evidenciada a capacidade representacional da interpretação comosubclasses para o processamento das anotações de registros de BDs. Descrevemos a aplicação doframework de interpretação ontológica como subclasses de forma a tornar explícito o conteúdo debancos de dados biológicos anotados. Além disso, foi descrito o processo de interpretação paraos BDs UniProt, Ensembl e NCBI taxonomy. A interpretação, então foi validada com consultasem DL. Por fim, avaliamos experimentalmente a consistência e a escalabilidade da solução.

A utilização de ontologias para auxiliar no processo de interpretação de bancos de dadosbiológicos é um assunto recente e de interesse científico (11, 12, 10). Existem diversas abordagensque exploram os dados biológicos com ontologias, entretanto não realizam a análise ontológicados dados recuperados, tampouco sobre as entidades ontológicas referenciadas pelos dados(geralmente) na forma de anotações. Algumas ferramentas, como por exemplo as aplicaçõesOntoGrate (147, 136) e OntoFusion (138) foram criadas para permitir a utilização de ontologiasno processo de integração e recuperação de bancos de dados, com use cases direcionados parao domínio biomédico. Outro exemplo no domínio biomédico é o projeto Bio2RDF, em quesão disponibilizadas estratégias de acesso, recuperação e análise de associações entre entidadesrecuperadas de bancos de dados biológicos (em RDF).

Entretanto, uma limitação dessas abordagens é a ausência de análise sobre a questãoontológica no processo de representação e análise das entidades. Nesses trabalhos, não háinterpretação do conteúdo, e.g. as entidades são recuperadas a partir de bancos de dados como umalista. Adicionalmente, essas abordagens não oferecem nenhuma possibilidade de verificar (i) se oconteúdo recuperado é de natureza ontológica; e, (ii) se a forma como os dados estão organizadosé consistente. Nesses casos, são criadas consultas utilizando a SPARQL, uma linguagem capazde recuperar dados escritos em RDF, mas limitada no quesito expressividade e raciocínio (137).

As abordagens existentes que se autointitulam de interpretação e que trazem a questão daanálise ontológica (19, 12, 10) focam unicamente na tarefa de anotar os registros com classes deontologias como a GO ou PRO. Entretanto, como evidenciado no capítulo anterior e validadoneste capítulo, o processo ontológico de interpretação enfoca na identificação de relações denível ontológico entre as entidades registradas nos BDs. Como evidenciado, é necessário existiro emprego direto de uma estratégia de interpretação ontológica, já que a aplicação (apenas dasanotações) não garante a interpretação ontológica. Com a interpretação ontológica proposta,é possível criar consultas utilizando raciocínio em DL para processar o conteúdo, ao invés demostrar para o usuário uma lista de anotações, como recuperado pelas ferramentas existentes.

A utilização de ontologias biológicas, para consultar conteúdo ontológico derivado deBDs biomédicos, é um tópico mais recente. Exemplos são os trabalhos de 18, 16, 124 e 17. Nessestrabalhos, ontologias são utilizadas para explorar (através de raciocínio em DL) a hierarquia declasses e os axiomas definidos e disponíveis nas ontologias. Especificamente, os trabalhos de


17 e 124 evidenciam a capacidade da utilização de ontologias e raciocínio em DL para exploraranotações e o conteúdo de BDs biológicos. Nesses trabalhos, o raciocínio foi utilizado paraverificar contradições nos dados registrados. Especificamente sobre a utilização das anotações,elas são utilizadas diretamente sem considerar como cada uma das entidades é interpretadaontologicamente.

Apesar de a construção de consultas, que requerem raciocínio em DL, não ser algonovo, a literatura não descreve a utilização prática de uma estratégia de interpretação utilizandoraciocínio; tampouco evidencia a capacidade representacional das ontologias para descrevercomo as interpretações são compreendidas. Por exemplo, o trabalho de 16 utiliza diretamente asanotações disponíveis nos BDs como classe de uma ontologia para realizar raciocínio. Entretanto,além de não determinar claramente a que registros de BDs se referem, 16 cria afirmaçõesdiretamente sobre classes existentes em uma ontologia.

Do ponto de vista ontológico, é possível verificar que a aplicação da interpretação revelaa existência de diversas relações entre as entidades dos bancos de dados, aqui formalizados comoaxiomas em DL. A aplicação prática da interpretação como classes revelou dois incrementosontológicos: (i) definição de novas classes através de axiomas de equivalência (seção 5.2.1); e (ii)especialização de axiomas definidos no supradomínio (seção 5.2.1). No primeiro, foram criadosaxiomas para definição de classes ainda não disponíveis nas ontologias GO, PRO, SNOMED CTe ChEBI. Sobre a segunda questão, as relações e axiomas disponíveis na BTL2 foram utilizadospara especializar relações existentes em nível de domínio.

Do ponto de vista prático, a criação de afirmações ontológicas (e.g. axiomas de definição)diretamente de BDs biomédicos, provenientes de publicações científicas, não é adequada. Dadosanotados evidenciam indivíduos de uma determinada classe. Por exemplo, um registro contendouma anotação Methionine synthase é um indivíduo (do ponto de vista ontológico) de uma classeda PRO de mesmo nome, i.e. ‘Methionine synthase’. O fato de uma anotação se referir à umaclasse, indica que existe uma subclasse (por exemplo, de ‘Methionine synthase’) que se aplica aoregistro, e não à classe utilizada para a anotação.

Além disso, na maioria desses trabalhos, as consultas criadas não exploram claramenteo processo de raciocínio, muitas vezes podendo ser reescritas em linguagens de consulta maissimples, como a SPARQL. Neste trabalho, avaliamos experimentalmente a interpretação coma construção de consultas em DL para recuperar classes utilizando raciocínio, especificamentesobre as definições de classe (Q1-Q4), com raciocínio por subsunção (Q5 e Q6) e a avaliação decontradições (Q7).

Sobre a checagem de consistência, ela é realizada em duas etapas: (i) durante a operaçãodo raciocinador e (ii) utilizando consultas. Para que cada uma das consultas Q1-Q6 consiga serresolvida, os axiomas necessitam ser consistentes, o que também inclui a Q7. Sem os axiomas deinterpretação, ainda que as classes referidas pelas anotações existam na GO, PRO, SNOMED CTou ChEBI, não há axiomas de definição de classe entre essas ontologias que permitam resolver


qualquer uma das consultas.

Já a Q7 visa identificar apenas se existe algum axioma criado de maneira errônea, e.g.contraditória. Apesar de a Q7 ser bastante útil do ponto de vista ontológico, pois pode revelaraxiomas errados ou inexistentes (na interpretação), ela é dependente de conhecimento sobre DL,e.g. para compreender como são criados os axiomas e identificar precisamente onde estão ascontradições. Pode vir a ser difícil para o usuário, com pouco conhecimento em DL, visualizaronde está o problema e como resolvê-lo, utilizando as ferramentas de rastreio disponibilizadaspelos raciocinadores.

Nas abordagens de interpretação existentes (19, 12, 10), não é prevista a construção deconsultas para recuperar classes, tampouco checagem de consistência ontológica das anotaçõesgeradas. Com a nossa abordagem de interpretação, essas tarefas são cobertas pela descriçãoformal das subclasses; e, pela utilização de raciocínio com DL.

Com relação às estratégias clássicas de consulta a bancos de dados relacionais ou uti-lizando integração semântica, como frameworks baseados em OBDA (13) ou em endpointsSPARQL, não é possível resolver as consultas 5 e 6 de forma trivial, nem determinar que umaconsulta é inconsistente. Por exemplo, para resolver cada uma das consultas seria necessáriorecuperar todos os dados das classes que compõem a consulta e realizar junções e filtros, conformea descrição da consulta. Para o usuário final, e.g. um especialista de domínio, a linguagem daDL pode ser mais amena e próxima da linguagem escrita (em razão da Manchester Syntax), semcontar a complexidade na construção das consultas.

Por fim, avaliamos a escalabilidade da estratégia de interpretação. Os 46 registros coleta-dos foram amplificados em fatores f (X1, X3, X10, X30, X100, X300 e X1000), sendo geradosarquivos de interpretação para cada um dos fatores. Esse processo foi criado para simular a escala-bilidade da interpretação e o impacto causado no raciocínio. Algumas das consultas empregadasàs ontologias modularizadas também foram submetidas (Q1-Q4 e Q7) aos arquivos de ontologia,derivados dos dados amplificados. Foi possível verificar que a ontologia, incluindo os módulos e ainterpretação, apresenta uma expressividade maior (SHI), em virtude dos axiomas provenientesda BTL2. Já a interpretação em si (mesmo escalada) apresenta expressividade (EL+ +). Mesmocom muitos axiomas, é esperado que o modelo (por exemplo) X1000 apresente desempenhosatisfatório para o raciocínio, já que a expressividade EL++ é PTime-hard.

Trabalhos, como os de 16 e 17, que evidenciam o uso de raciocínio, não deixam claro atéque ponto o processo de verificação de satisfatibilidade de uma ontologia é demorado; e o custoem realizar o raciocínio para as consultas. Neste trabalho, evidenciamos que a interpretação demuitos registros, e.g. para o cenário em que o usuário cria uma consulta direcionada para um BDbiológico, é factível. Mesmo com mais de mil registros e muitas subclasses e axiomas geradospela interpretação, nos modelos amplificados, o processo de raciocínio não apresenta um custotão elevado e pode (inclusive) ser realizado em computadores pessoais. Mesmo assim, há espaçopara otimizar o processo de raciocínio, visto que há a possibilidade de utilizar raciocinadores


otimizados para processar ontologias escritas em EL+ +, como o jCEL (148) e o ELK (64).

A abordagem desta tese incorpora como interpretar ontologicamente um conjunto deregistros de BDs, e.g. evidenciando como são relacionadas as entidades descritas em um registrode BD ontologicamente. Os axiomas de interpretação formalizam como entidades (e.g. processos,enzimas, moléculas e fenótipos) anotadas nos BDs devem ser compreendidas na realidade. Dessaforma, a abordagem proposta pode ser aplicada, tanto para auxiliar o usuário a interpretar os dados,quanto para os desenvolvedores e mantenedores dos bancos de dados. Isso parte do princípio deque novo conteúdo é extraído a partir de publicações e registros nos BDs, podendo ser testadosquanto à aplicabilidade e se a forma, como os dados estão registrados, é adequada. Um dessesprocedimentos de validação foi introduzido por 124.

No próximo capítulo, é apresentada uma abordagem para auxiliar o usuário no processode interpretação, minimizando a necessidade de conhecimento técnico utilizado até o momento.Como ressaltado anteriormente, uma abordagem puramente automática pode ofuscar afirma-ções em nível ontológico que nem sempre podem ser representadas logicamente, sendo atéepistemologicamente controversas.

151

6 Aplicando a interpretação ontológicaem bancos de dados biomédicos:Uma abordagem prática

Nos capítulos anteriores, foram evidenciadas formas de interpretar ontologicamente oconteúdo de BDs biomédicos anotados (capítulo 4); e, que o processo de interpretação temaplicabilidade prática na recuperação de conteúdo e validação das anotações criadas nos BDsbiomédicos (capítulo 5). Entretanto, capturar o conteúdo semântico de um BD e extrair o co-nhecimento ontológico não são tarefas triviais, nem possível de serem realizadas de formaautomática.

Como demonstrado, a representação ontológica depende da intervenção do usuário paraaplicar a fundamentação ontológica. O motivo principal por trás dessa afirmação é o fato de quenão é possível determinar que todo o conteúdo necessário para a interpretação está representadonas ontologias. Para isso, é aplicada uma ontologia supradomínio (i.e. a BTL2), fornecendoaxiomas e classes básicas para criar a interpretação para o domínio.

Até este ponto, o processo ontológico de interpretação foi descrito e criado quase quemanualmente (exceto pela ferramenta de propagação dos axiomas no capítulo 5). Para permitirque o processo de interpretação seja construído de forma mais automatizada possível, além dainterpretação do usuário, é necessária uma solução que permita:

• Acessar os dados utilizando as ontologias, incluindo uma estratégia de integração semânticapara que seja utilizada a mesma linguagem de anotação, a fim de recuperar o conteúdo dosBDs de forma automática;

• Identificar classes de ontologias referidas nos registros de bancos de dados, e.g. compararos dados dos registros com classes de ontologias de forma a identificar que um registro #123com as entradas {a123,b123,e123} referencia classes A, B e E (respectivamente), conformedescrito na estratégia de interpretação ontológica; e

• Transferir essas classes referenciadas como parte da ontologia original, e.g. realizando oprocesso de conversão e geração dos arquivos de interpretação de forma automatizada.

Apenas, a partir disso, é que podemos utilizar o conteúdo “ontologizado” para procedimentos deraciocínio.

Como solução, é proposto o seguinte:

1. Acessar BDs utilizando a interpretação ontológica gerada pelo usuário;

Capítulo 6. Aplicação prática e protótipo 152

2. Recuperar indivíduos a partir dos BDs, conforme as ontologias utilizadas;

3. Avaliar quais são as classes de ontologias referenciadas por anotações em registros de BDsbiomédicos; e

4. Gerar um arquivo de ontologia que inclua as interpretações ontológicas derivadas pelousuário.

Do ponto de vista prático, os itens 1 e 2 são parcialmente resolvidos por soluções de inte-gração semântica. Estratégias de Ontology-Based Data Access (OBDA) (8), como o OnTop (13),o OntoGrate (136), entre outras, permitem utilizar ontologias como vocabulário compartilhadopara recuperar conteúdo em BDs heterogêneos.

Sobre os itens 3 e 4, nossa proposta é aplicar uma metodologia acessória, o RaciocínioBaseado em Casos de Conhecimento Intensivo (RBC-CI) (20, 44, 149). Os métodos de RBC-CIpermitem utilizar BDs como base de casos (i.e. problemas e soluções registradas em momentopassado) e ontologias, compondo a Base de Conhecimento. A BC é responsável por, dada umaconsulta do usuário (problema), fornecer respostas com base em conhecimento passado, i.e.disponível na BC. Caso a solução não existe na BC, o método de RBC-CI deve ser capaz desugerir modificações e ajustes, permitindo a geração de possíveis soluções para o problema dousuário.

Na prática, soluções que implementam os métodos de RBC-CI são responsáveis por:

• Acessar o BD que guarda as consultas e as respostas apresentadas pelo usuário com baseem ontologias;

• Recuperar, com base na ontologia utilizada, conteúdo registrado no banco de casos;

• Identificar a similaridade existente entre a consulta do usuário (e.g. apresentada como umproblema) e soluções existentes;

• Determinar a melhor solução para o problema do usuário; e

• Consolidar o resultado para o problema apresentado, atualizando a BC com novo conheci-mento.

Por exemplo, métodos de RBC-CI são construídos como um ciclo composto de 04 tarefas(figura 63):

• RECUPERAR o(s) caso(s) mais similar(es) ao problema;

• REUSAR a informação e o conhecimento guardado como princípio para resolver o pro-blema;


• REVISAR a solução identificada, avaliando a sua aplicabilidade, inclusive sugerindosubstituições; e

• RETER as partes da solução e do problema que podem ser úteis no futuro.

C o n h e c im e n to G e r a l

B a se d e C a so s

N o v o C a s o

N o v o C a s o

C a s o R e c u p e r a d o

C a s o R e s o lv id o

C a s o Te s ta d o e R e p a r a d o

C a s o A p r e n d id o

P ro b le m a

S o lu ç ã o C o n f irm a d a S o lu ç ã o S u g e r id a

Figura 63 – Processo de RBC, por AAMODT (150).

Nesse sentido, as tarefas de RBC-CI se alinham diretamente com o que é necessário paraautomatizar a execução da interpretação ontológica pelo usuário. Com o RBC-CI, é possívelrecuperar dados nos BDs, conforme as ontologias; identificar a quais classes as anotações deuma tupla se referem por similaridade; determinar o formato do axioma de interpretação sobreos dados; e, gerar um arquivo de interpretação com todos os axiomas criados pelo usuário.

Todavia, para que essas tarefas sejam realizadas de forma adequada para a interpretaçãoontológica, é necessário realizar adequações e evoluções nas estratégias existentes. Por exemplo, aestratégia mais tradicional de RBC-CI, o JCOLIBRI2 (20), permite a utilização de (apenas) umaontologia e um BD para compor a BC. Neste trabalho, esta estratégia necessita ser ampliada, deforma a receber diversas ontologias e BDs para compor a BC, adequando-se ao cenário existenteno domínio biomédico.


Para a própria realização da integração de BDs com múltiplas ontologias de formaautomatizada, é necessário utilizar uma ferramenta qua permita alinhar as múltiplas ontologiasutilizadas; mapear as ontologias para os BDs de análise; e, disponibilizar uma interface para queo axioma de interpretação seja utilizado como forma de recuperar conteúdo em BDs, já que é ogatilho para que o processo automatizado de interpretação seja iniciado.

Além disso, por exemplo, o JCOLIBRI2 realiza o processo de análise de similaridadecom base nos valores das tuplas do BD, i.e. a unidade de análise é o indivíduo (da ontologia). Paraempregar a interpretação como classes, é necessário modificar a forma em que são aplicadas asestratégias de similaridade, permitindo que sejam recuperados indivíduos, mas que a identificaçãoseja realizada sobre as classes a que eles se referem. Do contrário, não seria possível.

Assim, o objetivo deste capítulo é apresentar uma evolução aos métodos de RBC-CIexistentes, de forma que seja possível integrar semanticamente diversos BDs e ontologias eaplicar axiomas de interpretação sobre uma ou mais bases de dados simultaneamente. Comoresultado, serão gerados arquivos OWL (um para cada axioma de interpretação) com as subclas-ses identificadas a partir do processamento dos dados. Essa tarefa incorpora uma proposta demodificação sobre o método de RBC-CI incorporado no framework do JCOLIBRI2. Como provade conceito, foi criada uma ferramenta (protótipo) de RBC-CI chamada integrativO CBR1 (151).

O integrativO CBR reutiliza um framework de integração semântica, criado no âmbitodesta tese e chamado Gryphon Framework (152). O Gryphon Framework2, baseado em OBDA, éresponsável por acessar e recuperar dados, conforme a interpretação ontológica do usuário. Dessaforma, o Gryphon Framework é utilizado para substituir a funcionalidade de acesso aos BDsutilizando ontologias como vocabulário, nativo do jCOLIBRI2. Com isso, é possível recuperardados de múltiplas fontes. Posteriormente, o integrativO CBR aplica métricas de similaridadepara identificar a quais classes se referem os indivíduos registrados para a geração das respectivassubclasses. A etapa final é a geração do arquivo OWL com os axiomas, as subclasses geradas eas classes referidas pelos registros.

Neste capítulo, descreveremos o processo de RBC-CI utilizado, a arquitetura, como ointegrativO CBR foi implementado e um experimento no domínio biológico.

6.1 Processo de KI-CBR

Considerando que essa abordagem toma como base o JCOLIBRI2 (20, 153), serãopormenorizados os passos que são incluídos no integrativO CBR. O ciclo de RBC-CI realizadopelo integrativO CBR está ilustrado na figura 64.

O ciclo de RBC-CI é iniciado quando o usuário apresenta um ou mais axiomas deinterpretação ao integrativO CBR. Por exemplo, cria um axioma para descrever que todo processo1 O CBR dado ao nome da ferramente remonta ao acrônimo em inglês CBR, que deu origem ao RBC-CI2 Detalhes de implementação estão descritos nos Apêndices C (página 246) e D (página 248).


Figura 64 – Ciclo de RBC-CI do integrativO CBR.

biológico (do tipo A) tem como participante uma proteína (de um tipo B).

A and ‘has participant’ some B

A primeira tarefa do ciclo de RBC-CI realizada é recuperar todos os registros que seaplicam à restrição definida no axioma de interpretação. Essa tarefa é realizada utilizando oGryphon Framework. O Gryphon Framework, que implementa uma abordagem de integraçãosemântica baseada em OBDA, permite utilizar as ontologias da BC como vocabulário de consultaaos BDs. Como resultado, o Gryphon Framework retorna um conjunto de tuplas no formato doaxioma de interpretação.

Em seguida, para que seja possível aplicar o axioma de interpretação nas tuplas recu-peradas, é aplicada uma métrica de similaridade, responsável por identificar quais classes dasontologias são similares às anotações. Ao final da etapa de reuso, há uma lista de tuplas em quetodos os resultados são aplicáveis ao axioma de interpretação; e, que são propagados para todasas tuplas filtradas.

A última etapa é a responsável por consolidar o conteúdo interpretado como axiomasem um arquivo OWL2, aqui chamado de arquivo de interpretação, que é então importado para abase de conhecimento do RBC-CI, incrementando o conteúdo existente.

Esse modelo de ciclo de RBC-CI foi criado para capturar o conteúdo ontológico, derivadoda interpretação, e retroalimentar a base de conhecimento. Com diversos axiomas de interpretação,


além dos já existentes nas ontologias, o usuário pode testar (no final do processo), tanto sua própriainterpretação do domínio (e.g. com consultas e o uso de raciocinadores), quanto a consistênciados dados anotados. Ambas as tarefas já foram demonstradas como factíveis no capítulo 5 (página120).

As próximas subseções descreverão o processo de RBC-CI de forma mais detalhada.

6.1.1 Recuperação

A primeira tarefa do ciclo de RBC-CI é a RECUPERAÇÃO. Como entrada, o integrativOCBR recebe um axioma fornecido pelo usuário que será validado e propagado, tendo como saídauma lista dos tuplas. Para possibilitar a utilização de diversos BDs simultaneamente, compondoa base de casos, o integrativO CBR emprega o Gryphon framework.

O uso do Gryphon proporciona as seguintes funcionalidades:

• Casos podem ser diversificados, heterogêneos em estrutura e conteúdo, dentro de ummesmo domínio;

• Dados podem ser interpretados ontologicamente, já que BDs são anotados com IDs deontologias;

• Ontologias oferecem a possibilidade de interpretar o conteúdo dos BDs, ainda que BDs(ou base de casos) sejam heterogêneos.

Para que dados possam ser recuperados a partir da interpretação ontológica, é necessárioum procedimento de reescrita de consultas. Como linguagem de consulta frequentemente utilizadaem frameworks OBDA, o Gryphon utiliza a SPARQL Query Language for RDF v.1.1 (SPARQL)(23). Desde que a interpretação é escrita em DL e as consultas para os BDs, em SPARQL, énecessário que o axioma de interpretação em DL seja reescrito para SPARQL. Nesse ponto, ointegrativO CBR é concebido diferente do JCOLIBRI2.

O integrativO CBR permite utilizar consultas conjuntivas3 escritas com até a expressi-vidade DL EL+ +. Assim, é possível tanto converter os axiomas de interpretação criados emEL+ + (da interpretação), quanto convertê-los para consultar os dados com base em integraçãosemântica (consulta 6.1).

Consulta 6.1 – Consulta em DL e a conversão em SPARQL.

<!−− Consu l t a em DL −−>A and ’ has p a r t i c i p a n t ’ some B

<!−− Consu l t a c o n v e r t i d a em SPARQL −−>3 Consultas conjuntivas são aquelas em que todos os termos da consulta são separados por conjunções, do tipo: Au B u C u . . .u D (em DL).


SELECT DISTINCT ?x ?yWHERE{

?x : t ype A.?y : t ype B .?x : i s I n c l u d e d I n ?y . }

Por exemplo, no IntegrativO CBR, um axioma de interpretação emDL convertido em umaconsulta SPARQL (consulta 6.1) é utilizado para recuperar uma lista de tuplas que correspondema possíveis substituições para A e B.

A conversão DL-SPARQL é realizada de acordo com os procedimentos de traduçãodescritos e formalizados em 154, 155. As estratégias de tradução DL-SPARQL apresentam duaslimitações principais, e.g. a conversão pode ser realizada até a linguagem DL ALC e o conjuntode conversões compõe uma lista estática.

Considerando que os axiomas de interpretação por subclasse estão dentro da EL+ +,todos os axiomas possíveis de serem utilizados já têm tradução previamente definida e descrita.Um exemplo de tradução é descrito na Tabela 774.

Como entrada, o Gryphon Framework recebe uma consulta SPARQL produzida pelomecanismo de conversão.

Tabela 77 – Tradução de axiomas escritos em DL para Manchester Syntax e SPARQL.

Axioma DL Manchester Syntax SPARQL∃r.B r some B SELECT DISTINCT ?x

WHERE {?x :r ?s0.?s0 :type :B> }

A u ∃r.B A and r some B SELECT DISTINCT ?xWHERE {

?x :type :A.?x :r ?s0.?s0 :type :B. }

A u (∃r.(B u (∃q.C))) A and (r some (B SELECT DISTINCT ?xand (q some C))) WHERE {

?x :type :A.?x :r ?s0.?s0 :type :B.?s0 :q ?s1.?s1 :type :C. }

jCOLIBRI2 disponibiliza uma interface básica, responsável por estabelecer a comunica-ção entre ontologias e dados, chamada OntoBridge. Entretanto, isso não permite a inclusão dediversas fontes (ontologias e dados), tampouco inclui subtarefas necessárias para automatizar4 Uma lista completa dos tipos de axiomas e os respectivos padrões de conversão estão incluídos no Apêndice B.4


o processo de integração entre as fontes, como: alinhamento de ontologias, geração de mapea-mentos (entre classes das ontologias e tabelas dos BDs) e distribuição de consultas para cadaBD.

A seguir, é descrita a estratégia de integração semântica utilizada pelo integrativO CBR,através do Gryphon Framework.

6.1.1.1 Integração semântica

Para descrever o framework de integração criado para ser incorporado ao processo deRBC-CI proposto, será introduzida a arquitetura, bem como os respectivos componentes.

6.1.1.1.1 Arquitetura da integração

A arquitetura utilizada realiza a integração virtual, mediada por consultas, entre ontologiase bancos de dados relacionais (figura 65).

Figura 65 – Arquitetura do Gryphon Framework (152).

A arquitetura é composta por (figura 66):

• Um framework;

• Uma ontologia global;

• Nenhuma, uma ou mais ontologias locais;

• Nenhum, um ou mais bancos de dados locais;

• Alinhamentos entre a ontologia global e as ontologias locais; e

• Mapeamento entre a ontologia global e os bancos de dados locais.

Nessa arquitetura, o framework é responsável por gerenciar o processo de integração. Eledeve realizar a comunicação entre a ontologia global e as fontes locais, alinhar as ontologias,mapear os bancos de dados e distribuir consultas para os BDs (e.g. mediação). O propósito


Figura 66 – Componentes da arquitetura de integração semântica (152).

de incluir o framework na arquitetura é de facilitar a integração, automatizando-a o quanto épossível.

A ontologia global é utilizada como vocabulário para identificar os componentes daconsulta do usuário e traduzí-los em componentes das fontes locais. Em outras palavras, classesA, B e C de uma ontologia são utilizadas para identificar superclasses A’, B’ e C’ das ontologiaslocais.

Por sua vez, A’, B’ e C’ (ou subclasses) são identificadas como correspondentes a uma oumais relações T1, T2 e T3 (respectivamente). Definições de classes para A’, B’ e C’ determinamcomo as relações T1, T2 e T3 formam tuplas. Por exemplo, uma relação do tipo A’ ‘has part’some B’ determina que todos os dados das tuplas formadas por T1 e T2 (por exemplo) sãomapeadas através da relação ‘has part’. Esse tipo de construção facilita e otimiza o alinhamentoe mapeamento das fontes, já que todas são construídas sobre um mesmo domínio e sobre umamesma base ontológica, i.e. organizado por uma mesma ontologia global.

Os alinhamentos representam a correspondência semântica entre os componentes (classes,propriedades e instâncias) da ontologia global e das ontologias locais. Por exemplo, a GeneOntology (GO) apresenta superclasses de Molecular function, Biological Process e Cellularcomponent. Essas três classes são alinhadas com classes da BTL2 como Process e Materialobject. Na BTL2, go:Molecular function e go:Biological process são subclasses de btl2:Process,enquanto go:Cellular component é subclasse de btl2:Material object.

Por fim, os bancos de dados locais são as fontes de dados das quais os resultados daconsulta serão recuperados. É nesta camada onde se encontram os dados que serão recuperados.

6.1.1.1.2 Gryphon Framework

O Gryphon Framework foi desenvolvido para ser rápido, fácil de usar e de integrar comsoluções já existentes, de forma a ser inserido em uma aplicação (neste caso) no integrativO CBR.O Gryphon framework é o responsável por gerenciar e efetuar todo o processo de integração do


integrativO CBR. A figura 67 mostra como as interações entre aplicação, framework e fontes dedados são relacionadas.

Figura 67 – Fluxo do Gryphon Framework (152).

Na prática, o integrativO CBR utiliza métodos do Gryphon Framework, comosetGlobalOntology(), addLocalOntology(), addLocalDatabase(), alignAndMap() e query(),para realizar a integração semântica. Internamente, esses métodos se encarregam de executartodas as etapas do processo de integração descritas, como alinhar as ontologias, mapear os bancosde dados e reescrever consultas.

O Gryphon Framework dá suporte a ontologias nos formatos OWL2 e RDF. Os Sistemasde Gerenciamento de Bancos de Dados suportados são o MySQL5 e PostgreSQL6. Como lin-guagem de consulta, foi adotada SPARQL. Os resultados podem ser salvos em JSON, XML eCSV.

6.1.1.1.3 Processo de Integração Otimizado

No processo de integração do Gryphon Framework, existem três etapas que devem serrealizadas, para que a integração seja realizada de forma adequada. Essas etapas são descritas na68 e serão detalhadas a seguir.

A primeira etapa consiste em configurar o framework do processo de integração daarquitetura (Figura 68). Na classe GryphonConfig, existem algumas opções que podem serconfiguradas, como por exemplo, o diretório onde serão salvos os alinhamentos, mapeamentos eresultados das consultas; e a exibição de logs no console 7.5 http://mysql.com6 http://postgresql.org7 O código fonte está disponível no apêndice C (página 246).


Figura 68 – Etapas para realizar uma integração com o Gryphon Framework (152).

1. Configurar o framework

2. Alinhar e mapear as fontes de dados

3. Configurar o framework

• Alterar os valores de GryphonConfig• Definir a ontologia global e as fontes de dados locais

• Alinhar a ontologias global com as ontologias locais• Mapear os bancos de dados locais

• Receber uma consulta SPARQL da aplicação• Reescrever essa consulta em n consultas, onde n é o número

de fontes locais• Extrair os resultados das fontes locais executando essas

novas consultas• Salvar o formato no formato especificado

Na segunda etapa, as ontologias são alinhadas e os BDs, mapeados. Para executar o ali-nhamento das ontologias, a ferramenta AgreementMakerLite (156) é utilizada, sendo responsávelpor realizar a identificação, de maneira automática, das classes correspondentes de cada uma dasontologias. Para realizar o mapeamento das ontologias para os BDs, é empregada a ferramentaD2RQ (157), que é o responsável por identificar quais classes das ontologias são associadas auma determinada relação do BD.

Para realizar a segunda etapa, basta executar o métodoGryphon.alignAndMap()8. Todacomplexidade presente nessas duas etapas de integração da arquitetura foi abstraída em um únicométodo, facilitando o uso do Gryphon Framework por usuários com o conhecimento limitadosobre integração semântica e programação.

A terceira e última etapa é responsável por realizar as consultas, sendo necessário:

• Criar uma consulta em SPARQL Query Language for RDF v.1.1 (SPARQL), utilizando ovocabulário da ontologia global; e

• Executar a consulta com o método Gryphon.query() 9, escolhendo o formato que osresultados serão salvos.

Essa tarefa é realizada com o auxílio do framework Sesame (158), responsável porexecutar as consultas SPARQL e recuperar os respectivos resultados. Esta tarefa foi abstraída emum único método, o Gryphon.query(), cuja consulta é reescrita em SPARQL Query Languagefor RDF v.1.1 (SPARQL) para as ontologias locais, e em Structured Query Language (SQL)8 O código fonte está disponível no apêndice C.1 (página 246).9 O código fonte está disponível no apêndice C.2 (página 247).


para os bancos de dados locais, sendo os dados disponibilizados através de uma interface (i.e.endpoint) para que o integrativO CBR seja capaz de manipular os dados na etapa de reuso.

6.1.2 Reuso

A tarefa de reuso pode ser considerada a mais complexa do IntegrativO CBR. O jCO-LIBRI2 é expandido e modificado, possibilitando a seleção de dados, avaliação e geração deaxiomas. Nesta seção, serão descritos os procedimentos realizados durante essas três tarefasprincipais.

O objetivo do REUSO no integrativO CBR é aplicar a estratégia de similaridade paraidentificar como as anotações referenciam classes das ontologias. Como entrada da etapa deREUSO, são utilizadas as tuplas coletadas a partir do funcionamento do Gryphon Framework.Na prática, são recuperadas URIs e o label (i.e. descrição em linguagem natural da URI) de cadauma das classes.

Sobre os labels, são aplicadas métricas de similaridade entre os dados recuperados naconsulta e as subclasses da ontologia. A similaridade é utilizada para identificar se uma anotaçãoa referencia uma classe A, B ou C das ontologias utilizadas. Como saída, é descrita uma listade classes associadas aos dados recuperados do banco e um valor de confiança, determinando aprobabilidade de um dado referenciar uma classe da ontologia.

Primeiro, será descrito como a similaridade é definida e aplicada ao domínio, seguido daextração das partes que compõem uma consulta em DL.

6.1.2.1 Similaridade

Nessa etapa, as tuplas recuperadas dos BDs são recebidas como entrada e submetidas àsmétricas de similaridade do integrativO CBR. Como saída, há o valor de similaridade para cadauma das classes identificadas e a média.

A aplicação da métrica de similaridade se faz necessária para a identificação das classesreferenciadas pelos indivíduos dos BDs. Ainda, essa referência determinará onde os axiomasderivados da interpretação serão aplicados (explicado mais à frente).

Como requisito para aplicação da similaridade, o método de similaridade no integrativOCBR deve permitir:

• Determinar quais valores das tuplas (anotações) referenciam classes, e.g. identificando daforma mais aproximada possível que um indivíduo i1 referencia uma classe I;

• Consolidar a interpretação criada na forma de axiomas com classes e relações existentesnas ontologias; e.g. gerando uma subclasse do tipo Sub_I; e


• Garantir que os dados utilizados sejam os mais representativos, e.g. que o procedimentode similaridade escolhido seja adequado e colete o máximo de classes representativa dosindivíduos com o nenhum ou com erro mínimo.

A utilização da similaridade é baseada no fato de o usuário conhecer a ontologia e/ou osdados sobre o domínio em questão, para que seja possível criar a interpretação ontológica dosBDs. Adicional a isso é o fato de ter que determinar um ponto de corte para o procedimento desimilaridade, e.g. uma classe é representativa para um indivíduo quando a média entre todos ospares indivíduo-classe de uma consulta esteja acima de 0,8.

Neste trabalho, consideramos que a definição do ponto de corte deve ser realizada pelousuário, tendo em vista que (com base em nossas buscas na literatura) não foi possível identificaruma estratégia adequada para determinar automaticamente, ou auxiliar o usuário na detecção.O integrativO CBR foi implementado de modo que proporcione, ao usuário/desenvolvedor deaplicações RBC-CI, a autonomia de alterar esse parâmetro de forma que melhor se adapte à suanecessidade. Em outras palavras, é disponibilizada uma interface para que o usuário determine onível de similaridade que deseja aplicar. No exemplo a ser apresentadomais à frente, consideramosapenas o maior nível de similaridade identificado.

Considerando que classes de ontologias biomédicas são referenciadas a partir de anotaçõesnos BDs biomédicos, e que os termos estão (seguramente) em ambas as fontes, a aplicação dométodo de similaridade requer que seja identificado o nome das classes, com relação ao nomeda anotação. Por exemplo, uma anotação recuperada como indivíduo “Methionine synthase”deve ser similar a uma classe da ontologia com o mesmo nome, i.e. ‘Methionine synthase’. Otratamento desse tipo de cálculo de similaridade é realizado a partir do método clássico de análisede substrings (159). No jCOLIBRI2, esse cálculo é chamado de MaxString (apêndice D).

Para exemplificar a aplicação da similaridade, voltamos ao exemplo de conversão daconsulta da figura 6.2.

Consulta 6.2 – Consulta em DL e a conversão em SPARQL.

<!−− Consu l t a em DL −−>A and ’ has p a r t i c i p a n t ’ some B

<!−− Consu l t a c o n v e r t i d a em SPARQL −−>SELECT DISTINCT ?x ?yWHERE{?x : t ype A.?y : t ype B .?x : i s I n c l u d e d I n ?y . }


Supondo que foram recuperados resultados, o método de similaridade é aplicado (figura 69)a cada possível substituição para as classes do axioma de interpretação (conforme a ideia dométodo de interpretação por subclasses, capítulo 4).

Figura 69 – Exemplo de listagem de resultados representativos para a consulta 6.2.

Na figura 69, p1 e p2 são os indivíduos recuperados dos registros de bancos de dados. Cada umdesses indivíduos é comparado a uma subclasse de A e B de forma distinta, gerando um valor desimilaridade para cada par indivíduo-classe. A similaridade final, então, é definida como a médiada similaridade dos termos individuais para uma mesma tupla. A média, nesse caso, é aplicada,visto que as anotações são provenientes de um mesmo registro e (para a geração) não podem sergeradas combinações aleatórias entre as classes. São geradas subclasses apenas dentro de ummesmo registro (como definido no capítulo 4).

Em todos esses cálculos, os valores são definidos para um intervalo entre 0 e 1. Na figura69, por exemplo, X001 e Y001 são dois indivíduos definidos como similares às classes evalX eevalY. A similaridade das classes é determinada como uma média entre os valores de similaridadeindividuais (de evalX e evalY ).

Considerando que, nesse ponto, a aplicação já apresenta uma lista de classes identifi-cadas pelos referentes e um valor de similaridade, a próxima etapa do ciclo é a propagação dainterpretação nas classes identificadas por similaridade.

6.1.3 Retenção

O passo final do integrativO CBR é a retenção. Nessa etapa, são geradas subclassesdaquelas identificadas como mais similares (na média) utilizando o axioma de interpretação


como modelo, de maneira similar ao que foi realizado no capítulo 5 (página 120). As classesidentificadas como similares são substituídas no axioma de interpretação e salvas como umarquivo OWL.

Por exemplo, evalX e evalY são substituições para A e B de acordo com o valor desimilaridade. Essa substituição é propagada para todas as classes identificadas por similaridade edentro do intervalo de confiança estipulado pelo usuário (tabela 78).

Tabela 78 – Exemplo de substituição realizada pelo IntegrativO CBR.

Interpretação: A and ‘has participant’ some BSubstituição: evalX and ‘has participant’ some evalY

Todo o conjunto de axiomas gerados é salvo (então) em um arquivo OWL2 e adicionado àsontologias originais como uma importação.

Como a maioria dos sistemas e métodos RBC-CI disponíveis, o conteúdo é retido emnovos casos (apenas) se a consulta (problema) indica a adição de nova informação à base deconhecimento. De certa forma, integrativO CBR realiza um procedimento semelhante, pois osaxiomas gerados a partir do processo de interpretação só serão adicionados se a ontologia não forcapaz de responder ao axioma de interpretação (diretamente), o que significa que o conhecimentonecessário para responder à demanda do usuário já está contido na ontologia. Dessa forma, a BCé incrementada para representar o conteúdo interpretado e responder à demanda do usuário.

Após o detalhamento sobre o ciclo de CBR disponível no integrativO CBR, será apresen-tada a arquitetura derivada a partir do jCOLIBRI2.

6.2 Arquitetura

A arquitetura do integrativO CBR (figura 70) é uma evolução da arquitetura do jCOLI-BRI2 (página 239) para a utilização em um ambiente heterogêneo, em que vários bancos de dadose várias ontologias compõem a BC. O integrativO CBR apresenta uma abordagem diferente paraa gestão da BC: no JCOLIBRI2 a BC é composta por arquivos de textos e/ou um BD, e umaontologia. Todos sobre uma mesma representação em OWL.

No integrativO CBR, a base de casos é derivada da integração de BDs mediados porontologias, disponibilizando classes, relações e axiomas para descreverem os indivíduos dos BDs.Essa tarefa é realizada, especificamente, pelo Gryphon Framework. Outra adição ao jCOLIBRI2e presente no IntegrativO CBR é a modificação da camada de persistência, de forma a armazenaro conhecimento recuperado como novos axiomas (utilizando a OWLAPI10).

Em outras palavras, são descritos os axiomas em nível da BC que representam subclassesreferenciadas pelos indivíduos recuperados dos BDs, auxiliados pelos métodos de similaridade.10 https://github.com/owlcs/owlapi


APLICAÇÃO

AVALIAÇÃO

Recuperar

Reter

Reusar

Revisar

Core

Base

Query

Ma

nutençã

o

Pré

-cicloP

ós-ciclo

GRYPHON FRAMEWORK

Bancos de Dados

Interface de

ConsultaOntologias

CONTEÚDO GERADO

Axiomas

Classes

Relações

Indivíduos

Nova Ontologia

Figura 70 – Arquitetura do integrativO CBR

Essa modificação permite resolver casos ainda em nível da BC, já que ela pode ser continuamentealimentada com axiomas de interpretação pelo usuário. Detalhes de implementação da arquiteturado IntegrativO CBR estão disponíveis no Apêndice D (página 248).

Na próxima seção serão apresentados alguns experimentos de forma a exemplificar asfuncionalidades e a capacidade do IntegrativO CBR em realizar a interpretação ontológica demaneira automática.

6.3 Experimento

Neste tópico, serão apresentados alguns exemplos de geração de axiomas, conformeaxiomas de interpretação já definidos (capítulo 5, página 120). Os dados utilizados para realizaro experimento são os mesmos utilizados nos capítulos 4 e 5 (página ??). Os dados referenciamproteínas, processos biológicos e componentes celulares sobre o metabolismo do amino-ácidohomocisteína.

Os BDs utilizados foram oUniProt, Ensembl e NCBI Taxonomy, adicionados aosmódulospara as ontologias GO, PRO, ChEBI, SNOMED CT e BTL2. A estruturação e o processo derecuperação de conteúdo foram descritos nametodologia do capítulo 4 (página 91), posteriormentecomplementada no capítulo 5 (página 123).


Para exemplificar, utilizaremos 4 axiomas de interpretação. Para cada um dos axiomas deinterpretação, são aplicados os seguintes passos:

1. Conversão DL–SPARQL;

2. Recuperação de indivíduos, a partir dos registros de bancos de dados;

3. Aplicação da métrica de similaridade;

4. Geração de novo axioma; e

5. Geração de arquivo OWL2 com os axiomas gerados.

O valor de corte, para o método de similaridade utilizado no experimento, foi definidoem 0,8 a partir da revisão manual dos arquivos gerados para conformidade com a geração doarquivo OWL e da representação criada no capítulo 5. A seguir, o detalhamento de cada um dosaxiomas de interpretação, bem como o processo de geração de novos axiomas.

Todo o código gerado está disponível no repositório do projeto, através da páginahttp://www.cin.ufpe.br/˜integrativo.

Axioma 1

Abaixo, a descrição de um axioma de interpretação simples (tabela 79).

Tabela 79 – Axioma 1.P_O equivalentTo P and

(‘is part of’ some O)

A consulta 1 tem como objetivo recuperar proteínas que ocorrem em organismos, como a‘Methionine synthase’ em ‘Homo sapiens’. O processo inicial de recuperação, definido comoparte do processo de RBC-CI do IntegrativO CBR, passa pela conversão da consulta escrita emDL para SPARQL (Consulta 6.3).

Consulta 6.3 – Conversão do axioma de interpretação 1.

SELECT DISTINCT ? P r o t e i n ?OrganismWHERE {

?x r d f : t y p e pro : PR_000000001 .?x b t l 2 : i s P a r t O f ? s0 .? s0 r d f : t y p e ncb i : 1 31567 . }

Nessa consulta, as entidades pro:PR_000000001 e ncbi:131567 indicam as classes pro:Protein e‘ncbi:cellular organisms’, respectivamente.


Para fins de interpretação, o axioma é aplicado a todos os dados recuperados com valorde similaridade acima de 0,8. Esse fato se deve à interpretação ser realizada sobre o conteúdo decada registro de BD.

O cálculo de similaridade é (então) realizado para determinar uma lista quantificada desimilaridade das subclasses de ‘Protein’ e ‘Cellular organism’ que é aplicado ao axioma deinterpretação. A lista de resultados provenientes da similaridade é retornada como:

>> GryphonResult [Betaine--homocysteine S-methyltransferase 1,Homo sapiens]

>> classA = .../PR_000004742>> evalResultA = 0.9767441860465116>> classB = .../NCBITaxon_9606>> evalResultB = 1.0>> average = 0.9883720930232558

em que um par de possíveis substituições para ‘Protein’ e ‘Cellular organism’ é retornado doGryphon e comparado com as subclasses existentes e.g. ‘Betaine–homocysteine S-methyltransferase1’ (pro:PR_000004742) e ‘Homo sapiens’ (ncbi:9606). Cada uma das classes identificadas apre-senta um valor de similaridade (evalResultA e evalResultB), cuja média (0,98) define a inclusãoem relação ao ponto de corte utilizado (0,8).

Finalmente, novos axiomas são gerados substituindo-se as classes originais da consultapelas classes identificadas por similaridade (tabela 80).

Tabela 80 – Axioma gerado a partir do axioma de interpretação 1.

Betaine–homocysteine S-methyltransferase 1’_Homo sapiens equivalentTo‘Betaine–homocysteine S-methyltransferase 1’ and

(‘is part of’ some ‘Homo sapiens’)

O código OWL referente a esse axioma está descrito no Apêndice E.1.

A partir deste ponto, apresentaremos apenas os axiomas de interpretação e os resultadosderivados.

Axioma 2

O axioma 2 é relacionado à interpretação de que há processos biológicos, dos quaisproteínas são participantes, e que são incluídos em um organismo (tabela 81).

Resultado sobre a similaridade aplicada entre os IDs de ontologia recuperados peloGryphon e as classes de ontologia:


Tabela 81 – Axioma 2.Bp_O_P equivalentTo Bp and

(‘has participant’ some P) and(‘is included in’ some O)

>> GryphonResult [Mus musculus,S-methylmethionine--homocysteine S-methyltransferase BHMT2,S-methylmethionine metabolic process]

>> classA = .../NCBITAXON/10090>> evalResultA = 1.0>> classB = .../PR_000004742>> evalResultB = 0.6551724137931034>> classC = .../GO_0033477>> evalResultC = 1.0>> average = 0.8850574712643677

dando origem a axiomas semelhantes ao descrito na tabela 82.


S-methylmethionine metabolic process_Mus musculus_S-methylmethionine–homocysteine S-methyltransferase BHMT2

equivalentTo S-methylmethionine metabolic process and(‘has participant’ someS-methylmethionine–homocysteine S-methyltransferase BHMT2) and

(‘is included in’ some Mus musculus)

O código OWL referente a esse resultado está descrito no apêndice E.2.

Axioma 3

O axioma de interpretação 3 (tabela 83) foi criado a partir da interpretação de queprocessos biológicos são incluídos em organismos vivos.

Tabela 83 – Axioma 3.

biological_process and (‘is included in’ some ‘cellular organism’)


>> GryphonResult [homocysteine, Rattus norvegicus]>> classA = http://purl.obolibrary.org/obo/CHEBI_17230>> evalResultA = 1.0


>> classB = http://purl.bioontology.org/ontology/NCBITAXON10116>> evalResultB = 1.0>> average = 1.0



Homocysteine_Rattus norvegicus equivalentTo Homocysteine and(‘is part of’ some Rattus norvegicus)

Axioma 4

O axioma de interpretação 4 (tabela 85) descreve uma subclasse composta de um or-ganismo que tem, como parte, uma proteína que, por sua vez, é participante de um processobiológico.

Tabela 85 – Axioma 4.O_P_Bp equivalentTo O and

(‘has part’ some (P and(‘is participant in’ some Bp))))


>> GryphonResult [Homo sapiens,S-methylmethionine--homocysteine S-methyltransferase BHMT2,L-methionine salvage]

>> classA = .../NCBITaxon_9606>> evalResultA = 1.0>> classB = .../PR_000004742>> evalResultB = 0.6551724137931034>> classC = .../GO_0071267>> evalResultC = 1.0>> average = 0.8850574712643677


6.4 Discussão

Neste capítulo foi apresentada uma proposta de automatização da estratégia de interpre-tação de BDs biomédicos com ontologias biomédicas de domínio. Como ferramentas, foram



Homo sapiens_S-methylmethionine–homocysteine S-methyltransferase BHMT2_

L-methionine salvageequivalentTo Homo sapiens and

(‘has part’ some(S-methylmethionine–homocysteine S-methyltransferase BHMT2 and

(‘is participant in’ some L-methionine salvage))))

utilizadas técnicas de integração semântica, implementadas em um framework OBDA chamadoGryphon Framework, utilizado juntamente com um método de RBC-CI disponível na ferramentaJCOLIBRI2 de forma a evoluí-la.

Como resultado, a proposta foi implementada em um protótipo capaz de, dado um axiomade interpretação, recuperar dados e identificar classes nos dados que fazem parte de ontologias.Foram criados alguns exemplos de geração para demonstrar a funcionalidade. O método deRBC-CI é descrito em termos de funcionalidades relacionadas às atividades de recuperação,reuso e retenção.

Na etapa de recuperação, existem dois pontos importantes a serem analisados:

• A capacidade de disponibilizar uma interface para a realização de integração semântica,incluindo, nas rotinas de RBC-CI, o uso de diversas ontologias e bancos de dados comobases de conhecimento e base de casos, respectivamente; e

• A capacidade de receber consultas formais (em DL) com uma sintaxe simplificada.

Ambas funcionalidades não são disponibilizadas por nenhuma das estratégias recentesde KI-CBR, como CREEK, Memóire, myCBR, Kasimir ou o próprio jCOLIBRI2. Sobre ojCOLIBRI2, apesar de incluir uma funcionalidade chamada OntoBridge, não é capaz de utilizardiversas ontologias ao mesmo tempo que recupera dados, como casos, em diversas fontes dedados.

A utilização de uma estratégia de integração semântica no escopo do integrativO CBR(i.e. o Gryphon Framework) permite, além das funções básicas de RBC-CI, extensões como:

1. Gestão de comunicação e conexão entre a base de conhecimento (ontologias) e a base decasos (bancos de dados);

2. Alinhamento entre uma ou mais ontologias, permitindo a composição da base de conheci-mento sob demanda;

3. Mapeamento de bases de dados.


O jCOLIBRI2 disponibiliza uma interface denominada OntoBridge, para realizar aintegração das fontes. Essa interface, no entanto, não permite a heterogeneidade das fontesutilizadas, ou seja, não permite a inclusão de diversas fontes (ontologias e dados), tampouco incluias subtarefas supracitadas, necessárias para automação do processo. Tais limitações puderam sercontornadas no integrativO CBR com a aplicação do Gryphon framework.

O segundo ponto a destacar está associado às consultas em DL em si. No integrativoCBR, o procedimento de consulta apresenta três principais vantagens identificadas:

• Utiliza a sintaxe fácil de consulta da DL, para recuperar casos a partir das descrições nasontologias;

• Permite realizar raciocínio sobre os casos, a partir do conteúdo representado nas ontologias;

• Trata os casos como entidades domundo real, pela adoção de ontologias formais, facilitandoo entendimento do usuário sobre o processo de criação da consulta independente de umaaplicação.

Em comparação com o as ferramentas de RBC-CI citadas anteriormente, a adaptaçãoempregada ao integrativO CBR utiliza consultas conjuntivas com até a expressividade El + +da DL. Essa expressividade nas consultas tem a garantia de funcionamento a partir da descriçãodo trabalho de 155, 154.

155, 154 formalizaram a tradução de consultas conjuntivas em DL para SPARQL, dis-ponibilizando uma ferramenta de tradução chamada OWL2SPARQL. No integrativO CBR, oprocedimento de tradução DL-SPARQL ocorre automaticamente a partir da consulta do usuá-rio. Ao final do processo, classes que representam os componentes dos casos retornados pelointegrativO CBR são retornadas como casos descritos conforme a estrutura da ontologia.

Para recuperar casos, é necessário aplicar um ou mais métodos de similaridade, a fim deavaliar o quão próximos estão os casos da consulta apresentada pelo usuário. Nesse sentido, ointegrativO CBR reutiliza os métodos disponíveis no jCOLIBRI2. A métrica de similaridadeaplicada (MaxString) faz parte de um conjunto de mecanismos de modelagem e teste de funções,recuperados da ferramenta myCBR, à qual o jCOLIBRI2 é integrado.

Apesar de existirem diversos mecanismos de cálculo de similaridade (160, 161, 162, 163,164), o método de análise de substrings para computar a similaridade entre uma anotação e umaclasse mostra-se suficiente.

Após a recuperação de casos e a aplicação das métricas de similaridade, é necessáriodefinir o mecanismo de reutilização desses casos. A etapa de reuso, no Integrativo CBR, pode sercaracterizada como a mais complexa. Nela, a estratégia disponível no jCOLIBRI2 é expandida afim de possibilitar as funções básicas de seleção e avaliação de casos. O objetivo da abordagemno integrativO CBR é possibilitar a recuperação de casos a partir de diversos bancos, organizados


por diversas ontologias e retornar (como resultado) os casos mais representativos, indicando umapossível representação axiomática para ele.

A estratégia de reuso de casos toma (como base) o resultado das métricas de similaridadeaplicadas aos resultados. A partir do valor médio definido entre o conjunto de classes similaresrecuperadas para um axioma de interpretação, as classes identificadas como mais similares sãoutilizadas para substituir as classes do axioma de interpretação. Como resultado, são geradosaxiomas iguais ao de interpretação, mas agora com as classes identificadas como mais similares.Do ponto de vista prático, cabe ao usuário definir o ponto de corte a ser utilizado para a aplicação.A definição de uma métrica específica para a aplicação no domínio biológico (de um modo geral)foge ao escopo deste trabalho.

É importante salientar que o contexto de recuperação é limitado aos bancos de dadosutilizados. Assim, o integrativO CBR identifica todas as classes que descrevem os componentesdos casos recuperados e descreve os casos com a mesma estrutura do axioma apresentado. Aofinal do processo de RBC-CI do integrativO CBR, o usuário contará com um arquivo de ontologia.Caberá ao usuário definir como os dados são interpretados e o ponto de corte para o cálculo desimilaridade.

Em comparação com o método clássico de RBC-CI (44, 153), o integrativO CBR nãoinclui a tarefa de REVISÃO. No caso do integrativO CBR, a avaliação do conteúdo gerado deveocorrer da mesma forma como demonstrado no capítulo 5 (página 130). Devem ser criadasconsultas para explorar (com consultas escritas em DL) a representação gerada.

Finalmente, a última etapa do integrativO CBR é a retenção de casos. O processo deretenção de casos resulta na geração de um arquivo OWL2 com os axiomas propagados a partirdos axiomas definidos pelo usuário. Abordagens, como o CREEK (44), myCBR3 (149) e Kasimir(165), realizam uma simples atualização dos casos, (apenas) quando novos casos (ainda nãoincluído no BD) são apresentados.

Em relação ao experimento realizado, foram utilizados axiomas provenientes da interpre-tação dos bancos de dados UniProt, Ensembl e NCBI Taxonomy, juntamente com os módulosprovenientes da GO, PRO, ChEBI, SNOMED CT organizados com a BTL2. Os axiomas foramconvertidos adequadamente, sendo cada axioma de interpretação responsável por derivar um ar-quivo de ontologia diferente. Ao final, todos os arquivos são importados à estrutura de ontologiasmodularizadas disponíveis no início.

Diferente das demais ferramentas, que realizam uma simples atualização da base de casoscom novos casos, o integrativO CBR propaga os novos conhecimentos obtidos, em forma deaxiomas, além de gerar um arquivo de importação para atualização de ontologias em OWL. Oprocesso de geração de axiomas do integrativO CBR reflete o processo de interpretação porsubclasses (capítulo 4).

Parte III

Considerações finais

175

7 Considerações finais

Neste capítulo são apresentadas as considerações finais sobre esta tese. O objetivo dotrabalho, de avaliar e propor estratégias que auxiliem o usuário no processo de interpretaçãode registros em BDs biomédicos como indivíduos, classes e disposições, a partir de ontologiasformais, foi subdividido de forma a tornar o processo de construção da tese mais detalhada.

A seguir, as considerações sobre o processo de interpretação ontológica, validação doprocesso de interpretação e reconstrução automatizada do processo de interpretação com ointegrativO CBR.

7.1 Interpretação Ontológica

Foi apresentada uma abordagem para auxiliar na interpretação ontológica do conteúdo debancos de dados biológicos. Quatro possibilidades diferentes de interpretação diferentes foramapresentadas. As quatro interpretações são voltadas para entidades do domínio biológico e sãoindependentes de descrição experimental, publicação científica ou do processo de manutençãodos dados, incluindo o caráter epistêmico1.

Como base para o processo de interpretação, foi utilizada a ontologia supra-domínioBioTopLite2 (BTL2) para organizar as ontologias GO, ChEBI e PRO, utilizadas para anotar osBDs UniProt e Ensembl. O NCBI Taxonomy (especificamente) foi incluído pela reutilização nadescrição de organismos no UniProt.

Em seguida, os registros foram descritos conforme as seguintes formas de interpretação:

(i) Indivíduos importados para as ontologias;

(ii) Novas subclasses;

(iii) Representação de disposições; e

(iv) Um híbrido entre a geração de novas subclasses e a representação de disposições.

7.1.1 Interpretação com indivíduos

A primeira estratégia de interpretação evidencia o entendimento de registros de BDscomo indivíduos (capítulo 4). Essa abordagem é similar à população de ontologias (114) e àrecuperação do conteúdo de registros de BD com integração semântica por Ontology-BasedData Access (OBDA) (8). Mesmo apresentando a habilidade em utilizar relações como forma1 e.g. de como uma porção do conhecimento é definida sob condições necessárias e suficientes.

Capítulo 7. Considerações finais 176

de ligar indivíduos diferentes, a interpretação construída dessa forma permite apenas (de umaperspectiva prática) recuperar indivíduos, sem comprometimento ontológico. Em outras palavras,o fato de incluir novos indivíduos, ou recuperá-los com base em ontologias não significa quehá um incremento ou alguma adição na representação. Ao popular ontologias, o que se tem éapenas a inclusão de indivíduos em classes. Esses indivíduos podem até ser relacionados entre sipor meio de relações ontológicas, mas na prática nenhuma classe é definida.

Em aplicações de integração semântica com OBDA, a ontologia é utilizada apenas comoum vocabulário, em que (e.g.) tabelas dos BDs são associadas a classes de uma oumais ontologias,e que essas classes são o vocabulário de consulta, ao invés de acessar tabelas diretamente. Doponto de vista do raciocínio em DL, consultas (como evidenciado) podem ser utilizadas pararecuperar indivíduos, da mesma forma que eles podem ser recuperados com integração semânticapor OBDA.

7.1.2 Interpretação como subclasses

A segunda interpretação emprega a criação de novas subclasses (capítulo 4) para descrevercomo as anotações referenciam classes de ontologias e definições de classes (i.e. axiomas) paradescreverem como uma classe A é interpretada em relação a uma classe B (de outra anotação).Por exemplo, um registro que inclui anotações para a proteína Methionine synthase e para oorganismo Mus musculus referencia classes de mesmo nome (‘Methionine synthase’ e ‘Musmusculus’), cuja interpretação determina a criação de uma nova subclasse definida, e.g.

‘Methionine synthase’_‘Mus musculus’equivalentTo ‘Methionine synthase’ and (‘is part of’ some ‘Mus musculus’)

Essa abordagem, mais expressiva que a anterior, possibilita a construção de consultas que(para serem resolvidas) necessitam de um raciocinador DL, mas também possibilita a recuperaçãode indivíduos. O primeiro fato é garantido pela criação de definições para cada subclasse gerada,sendo (sua interpretação) desta uma combinação construída a partir das demais referenciadas porum mesmo registro. Isso significa que se um registro inclui duas classes ‘Methionine synthase’e ‘Mus musculus’, a interpretação ontológica desse registro é determinada pela relação entre‘Methionine synthase’ e ‘Mus musculus’ (‘Methionine synthase’_‘Mus musculus’) e vice-versa.

Com a definição de axiomas para cada uma das classes (i.e. em DL), é possível utilizarraciocínio e recuperar as classes geradas a partir de consultas escritas em DL. Para a recuperaçãode conteúdo com integração semântica por OBDA, a interpretação com subclasses associa(virtualmente) para cada classe gerada (por exemplo)

‘Methionine synthase’_‘Mus musculus’

os indivíduos provenientes dos BDs utilizados, e.g.


‘methionine synthase’ type ‘Methionine synthase’_‘Mus musculus’ and‘has part’ ‘mus musculus’

A associação (nesse tipo de interpretação) é virtual, porque o OBDA permite manter classes eontologias separadas e a criação de consultas utilizando classes das ontologias como vocabuláriode integração para os BDs (8).

Do ponto de vista prático, a interpretação com subclasses possibilita a definição de classes,limita o raciocínio em um nível de desempenho-escalabilidade razoável (com a DL EL + +)e possibilita o raciocínio em nível de classes. A linguagem EL+ + utilizada na interpretaçãocom subclasses permite que o raciocínio seja realizado em tempo polinomial. Existem, inclusive,raciocinadores otimizados para processar ontologias escritas nessa linguagem, como o Snorocket(166), o jCEL (148) ou o ELK (64).

A interpretação por subclasses, apesar de produzir muitas combinações, pode ser maissimples, tanto para o usuário, quanto para o desenvolvedor, pois não precisa de um engajamentoontológico, como é o caso do uso de disposições. Além disso, a interpretação por subclassespode ser considerada uma estratégia de ontologização de um conjunto de registros de BD ou umBD inteiro.

7.1.3 Interpretação com disposições

Para suplantar essas limitações, foi introduzida a interpretação baseada em disposições(capítulo 4), que descreve proteínas e organismos como portadores da habilidade em realizarprocessos biológicos e fenótipos, respectivamente. A principal vantagem em utilizar disposiçõesé a representação de tendências usando o conceito de disposições:

• Proteínas de um certo tipo A são portadoras da habilidade de realizar um processo B;

• Todavia, nem todas as proteínas A irão apresentar essa capacidade.

Com a utilização das disposições, além de incluir na interpretação a capacidade derepresentar modalidade no contexto biológico, evita-se a geração de combinações requerida nomodelo de subclasses. Esses fatos ocorrem porque, na interpretação com disposições, são criadasdefinições aplicadas de forma semelhante para toda e qualquer subclasse de A que apresenta umadisposição em realizar um processo B.

7.1.4 Interpretação híbrida

No intuito de incluir a capacidade da interpretação com subclasses e a aplicação dedisposições da terceira interpretação, uma quarta forma de interpretação foi criada, que chamamosde híbrida. Na interpretação híbrida (capítulo 4), são geradas combinações (apenas) para registros


que incluem múltiplas entradas para um mesmo campo. No UniProt, a combinação é gerada(principalmente) para anotações sobre processos biológicos e funções moleculares.

Já as disposições são utilizadas para determinar que um organismo ou proteína apresentaa capacidade de realizar os processos (biológicos ou funções moleculares), i.e. disposições. Aoutilizar disposições entre objetos materiais e processos, evita-se que sejam definidas combinaçõesentre esses tipos de classe.

7.2 Validação do processo de interpretação

Bancos de dados biomédicos incluem uma grande quantidade de dados experimentais econectando-os ao conteúdo de ontologias do domínio na forma de anotações. Consultar essesBDs, geralmente, segue a sintaxe do esquema do BD, dos quais as ontologias constituem poucomais do que um vocabulário do domínio. Dois aspectos importantes são ignorados, viz.:

(i) Fazer com que a interpretação ontológica de registros anotados de BDs biomédicos sejaclara e explícita, i.e. como as entidades são relacionadas umas com as outras; e

(ii) Explorar a expressividade das definições criadas para novas classes, utilizando raciocíniopara computar a hierarquia e a consistência das definições.

Ambos os aspectos são tratados (neste trabalho), de forma que a interpretação do conteúdode bancos de dados biológicos seja suportada por partes das ontologias GO, ChEBI e PRO. OsBDs biológicos utilizados (i.e. UniProt, Ensembl e NCBI Taxonomy) são automaticamenteconvertidos com o auxílio da interpretação como subclasses, na forma de axiomas em DL. Asdefinições criadas foram feitas manualmente, com base nas classes e relações da BTL2 e dasdemais ontologias utilizadas para anotar os BDs.

O processo de interpretação por subclasses UniProt, Ensembl e NCBI Taxonomy seguiuprincípios representacionais fundamentados e formalizados na BTL2 (115), tais como:

• Realismo (pragmático) científico, em que as entidades são representadas tal qual existem narealidade, e.g. uma pessoa é uma entidade material Humano, classificada do ponto de vistabiológico, de acordo com valores e qualidade, dotado de papéis, funções e disposições,entre outros;

• Representação formalizada em Description Logics (DL);

• Aderência a uma ontologia supradomínio, com categorias de alto nível e um conjuntocanônico de relações formais; entre outros.


Como resultado, foi criada uma ontologia que representa, unicamente, axiomas. A ontologiagerada foi testada com sete consultas escritas em DL, explorando a taxonomia de entidades e achecagem de consistência.

Adicionalmente, foi realizada uma avaliação de desempenho, em que a ontologia geradafoi expandida em fatores proporcionais (X1, X3, X10, X30, X300 e X1000). Esse teste dedesempenho indica que, mesmo com uma base de conhecimento grande em dimensão, umaontologia com a expressividade EL + + (da DL) demonstra um tempo de processamento edesempenho razoável. Entretanto, ao incluir os módulos da GO, ChEBI e PRO, além da BTL2,o processo de raciocínio cresce substancialmente em complexidade. Vai de PTime-hard comEL+ + para ExpTime-hard com SHI . O impacto no desempenho da checagem de consistênciada ontologia com os módulos é evidente, mas não eleva o tempo de resolução das consultas.

Esse fato é ocasionado pela utilização da BTL2, que apresenta expressividade DL SHI .Por herança, todas as demais entidades incluídas, importadas e alinhadas com o auxílio da BTL2possuem a mesma expressividade. Uma possível solução seria a representação da BTL2 em umaversão reduzida, especificamente dentro da linguagem EL+ +.

Isoladamente, como foi possível identificar na resolução das consultas nas ontologiasamplificadas, cada uma delas possui (isoladamente) a capacidade de resolver consultas conformea interpretação do usuário. Nesse sentido, é possível vislumbrar a aplicação da segunda interpre-tação (i.e. interpretação como subclasses) para processar grandes porções de bancos de dadosque incluem anotações para ontologias. Como demonstrado pela abordagem utilizada, possíveislimitações de desempenho podem ser minimizadas com prévi filtragem e extração de módulos,tanto de ontologias importadas, quanto para os dados, assim como realizado no processo devalidação.

A ontologia derivada da interpretação do UniProt, Ensembl e NCBI Taxonomy focano raciocínio em nível de Tbox, ao invés da análise pura dos dados. Nesse sentido, um BDfundamentado sob uma (ou mais) ontologia(s) formal(is), pode permitir a identificação de errosde anotação nos registros de BDs. Esse fato foi evidenciado por 16, que utilizou consultas em DLpara identificar inconsistências em um BD biológico. Como bancos de dados são extensíveis pornatureza, a interpretação sob situações reais certamente pode ser melhorada, quando acompanhadade ontologias formais (como exemplificado no capítulo 5, seção 5.2).

De acordo com os achados descritos, isso é possível pelo fato de entradas em bancos dedados biológicos serem interpretadas de forma a derivar afirmações generalizáveis, e.g. que existeuma classe proteína ‘Methylene tetrahydrofolate reductase’ em um organismo Mus musculusque (ao apresentar uma disfunção) resulta em um fenótipo anormal (Neural tube defect ouatherosclerosis). Ao passo que a quantidade de dados cresce e a análise é expandida, esse tipode análise pode revelar leis científicas, no sentido de serem aplicadas para todos os indivíduosque são membros de uma dada classe. Ao utilizar a interpretação como subclasses, o raciocíniopode ser restrito ao nível de Tbox. Isso evita o custo de processamento, como ocorre quando


ontologias ricamente axiomatizadas são populadas com indivíduos.

Mesmo considerando que o framework de interpretação foi avaliado sob o domíniobiológico, ele pode ser expandido para outros domínios que incluem ontologias ricamenteaxiomatizadas e os BDs são anotados. Por exemplo, 167 descreveram uma ontologia supradomíniobaseada em padrões IEEE para representar KBs de Agentes Inteligentes, utilizando as ontologiasde topo Suggested Upper Merged Ontology (SUMO) (168) Descriptive Ontology for Linguisticand Cognitive Engineering (DOLCE) (46). Outro exemplo é a Ontology for Home ManagementDomain (169), que é construída com base na SUMO.

7.3 IntegrativO CBR

Como forma de possibilizar a automatização do processo de interpretação, foi criado umprotótipo chamado integrativO CBR, que tem como objetivo realizar as etapas do processo deinterpretação, criadas manualmente nos capítulos 4 e 5. Tarefas, como recuperação de indivíduosdos registros de BD e a identificação por similaridade de quais indivíduos referenciam quaisclasses, são as principais funcionalidades do integrativO CBR.

Com o integrativO CBR, o usuário pode processar a interpretação com subclasses deforma automática. Os axiomas de interpretação são considerados como consultas escritas emDL e servem para que o integrativO CBR realize o processo de interpretação. As tarefas básicasincluídas são:

• Conversão de consulta em DL para SPARQL Query Language for RDF v.1.1 (SPARQL);

• Mapeamento e integração semântica utilizando o framework Gryphon para a recuperaçãode indivíduos nos BDs;

• Utilização de métodos de similaridade para identificar quais indivíduos dos registrosreferenciam classes das ontologias;

• Armazenamento do conteúdo gerado a partir da interpretação como um arquivo de ontolo-gia.

Nesse sentido, foi possível demonstrar a capacidade que o integrativO CBR apresentaem realizar o processo de interpretação de forma automática. Foram utilizados quatro axiomasdefinidos no capítulo 4, para exemplificar o resultado do processo automatizado de interpretaçãocom subclasses. O processo de interpretação ocorre satisfatoriamente, com a definição do axiomade interpretação e o ponto de corte do método de similaridade, pelo usuário.


7.3.1 Funcionamento do integrativO CBR

O intuito por trás do integrativO CBR é utilizar técnicas conhecidas de avaliação desolução para problemas (Problem solving), que empregam conhecimento na forma de ontologiase bancos de dados. Nesse âmbito, a literatura descreve que métodos de Raciocínio Baseadoem Casos de Conhecimento Intensivo (RBC-CI) são aplicáveis nesse contexto, principalmentequando o objetivo envolve a análise de dados com ontologias. Neste trabalho, o método deRBC-CI utilizado foi derivado do JCOLIBRI2. Entretanto, foram necessárias algumas evoluçõesao JCOLIBRI2 para que o integrativO CBR viesse a ser construído, e.g. acesso a múltiplas basesde dados e retenção de conhecimento na forma de ontologia.

O acesso a múltiplos BDs e a utilização de múltiplas ontologias para compor a Basede Conhecimento são contribuições do integrativO CBR. Atualmente, as ferramentas maisconhecidas de RBC-CI permitem a utilização de (apenas) uma ontologia e um BD formandoa BC (capítulo 6). A principal vantagem dessa modificação na arquitetura do JCOLIBRI2 é apossibilidade de usar diversas fontes para compor a BC, incluindo BDs e ontologias.

A retenção de conhecimento na forma de ontologias e outra contribuição do integrativOCBR. Em nossa busca na literatura, identificamos que métodos tradicionais de RBC-CI mani-pulam dados e fazem verificações com base nas ontologias, atualizando o banco de dados aoidentificar soluções que não haviam sido registradas anteriormente. Entretanto, ao recuperar umasolução nova (e.g. não registrada no BD ainda), a base de dados é atualizada em detrimento doconhecimento do domínio (i.e. a ontologia). Caso o problema tenha solução nos dados existentes,apenas os dados são recuperados e informados ao usuário. Como consequência, a interpretaçãodos dados é deixada, única e exclusivamente, para o usuário.

7.4 Contribuições

A partir do que foi descrito, este trabalho trouxe 4 contribuições principais:

(i) A identificação de que existe um problema de interpretação em bancos de dados biomédicosanotados com classes de ontologias, e.g. que anotações em BDs biomédicos, tanto indicama existência de indivíduos, quanto de subclasses;

(ii) Definição de como interpretar, de forma clara, anotações de registros de BDs com indi-víduos, subclasses, disposições, e com subclasses e disposições. As interpretações sãoanalisadas quanto ao engajamento ontológico, utilização de raciocínio, capacidade derecuperar conteúdo e expressividade;

(iii) Validação de como a interpretação com novas subclasses permite a recuperação e a identifi-cação de conhecimento implícito nas anotações, utilizando raciocínio e registros anotadosde BDs biológicos reais; e


(iv) Uma abordagem baseada em KI-CBR que reconstrói a interpretação com subclasses au-tomaticamente. A abordagem funciona a partir da identificação de quais indivíduos dosregistros referenciam classes e como as classes recuperadas são utilizadas para gerararquivos de ontologia com a interpretação por subclasses.

No capítulo 4, foi definido e descrito o problema existente em interpretar bancos de dadosbiológicos anotados a partir de ontologias (i). A forma atual como os dados são registrados emBDs biológicos não permite que a interpretação do usuário seja construída de forma clara, e.g.sem ambiguidades. A utilização de anotações, no lugar de dados, permite que o usuário construaqualquer tipo de interpretação relacionando as classes utilizadas como anotação. Esse fato trazproblemas de interpretação, como (por exemplo) a indefinição de como as classes anotadas emum registro se relacionam entre si.

Em (ii) (capítulo 4) as quatro formas de interpretação de BDs biomédicos anotados comontologias biomédicas são avaliadas. A interpretação com indivíduos tem melhor aplicabilidadequando há a necessidade de recuperar (apenas) indivíduos a partir de OBDA. A interpretaçãocomo subclasses permite a criação de axiomas para descrever como as classes são interpretadaspelo usuário, possibilitando a recuperação de conteúdo utilizando consultas escritas em DL. Ainterpretação com disposições apresenta maior expressividade e incremento ontológico, entretantoé construída com General Class Inclusion (GCI), resultando na construção de classes nãonomeadas que não podem ser recuperadas. A quarta forma de interpretação (a híbrida) mescla acapacidade representacional da interpretação como subclasses e a interpretação com disposições.

Cada uma dessas interpretações apresenta limitações e aplicações específicas. Entretanto,a interpretação como subclasses oferece um melhor trade-off entre expressividade, incrementodo domínio com novas classes e axiomas, capacidade de recuperação com consultas em DL e apossibilidade de utilizar a ontologia derivada da interpretação para integrar BDs semanticamentecom OBDA. Os outros modelos apresentam limitações em relação às capacidades listadas. Porexemplo, a interpretação com indivíduos não incrementa a representação ontológica existente;a interpretação com disposições cria axiomas para classes não nomeadas; e, o modelo híbridoinclui classes que não estão necessariamente descritas ou anotadas nos BDs.

Em seguida (iii), foi evidenciado que a interpretação com subclasses é factível e capaz deser utilizada na recuperação de classes, a partir de consultas que requerem raciocínio. Mesmo comgrande quantidade de registros e classes geradas, a partir da interpretação de muitos registros deBD, é possível escalar o processo de interpretação sem muito impacto posterior no desempenhodo processo de raciocínio comDL. Esse fato é, primordialmente, determinado pela expressividadeda linguagem DL EL+ + utilizada para representar as subclasses.

Por fim (iv), foi apresentada uma abordagem que (semi) automatiza o processo de inter-pretação com a geração de subclasses. A solução foi criada a partir da modificação e evolução demétodos existentes de KI-CBR, disponibilizado na forma de um protótipo chamado integrativO


CBR. Essa ferramenta é utilizada para recuperar dados com base na interpretação definida pelousuário, determinar por similaridade quais dados referenciam classes das ontologias, e gerar assubclasses com base na interpretação do usuário. Esse processo acontece de forma automática etem como saída um arquivo de ontologia com a interpretação aplicada aos dados recuperados.

7.5 Aplicabilidade

Com relação à aplicabilidade, este trabalho não é restrito ao aspecto conceitual. O pro-cessamento dos dados do domínio biológico é apenas uma exemplificação para o processo deinterpretação, que pode ser aplicado em situações, como:

• Sistemas de apoio à decisão, em que é necessário processar uma grande quantidade dedados de um ou mais pacientes, anotados com ontologias e terminologias médicas, como aSystematized Nomenclature of Medicine Clinical Terms (SNOMED CT);

• Extração do modelo conceitual que governa um ou mais bancos de dados, a partir daidentificação de entidades ontológicas que representam um ou mais dados, além de suarepresentação formal;

• Auxílio na interpretação de conteúdo anotado, a partir do processamento de textos;

• Interpretação sobre dados anotados e recuperados, a partir de métodos de mineração dedados;

entre outros.

7.6 Limitações

Durante o desenvolvimento deste trabalho, algumas limitações foram identificadas noprocesso de interpretação, na validação e na construção do integrativO CBR. As limitações para oprocesso de interpretação, em sua maioria, recaem em questões ontológicas e de utilização prática;a validação da aplicação em uma grande quantidade de dados, impactando no desempenho; e, ointegrativO CBR numa análise mais detalhada da aplicação e verificação prática.

Em si, a interpretação apresenta uma limitação que se refere ao fato de não analisarcompletamente toda a estrutura tabular do UniProt e do Ensembl. E.g. o UniProt e o Ensemblincluem mais dados do que anotações para proteínas, genes, processos biológicos, localizaçãocelular, entre outros. O trabalho foi construído com os campos que despertam mais interessecom relação à questão da interpretação pelo usuário, e.g. se o banco de dados é sobre proteínas(UniProt), o usuário tem interesse em olhar proteínas.

Entretanto, o usuário ainda pode ter interesse em olhar outras características (como olocal de expressão de uma proteína) não considerado no presente trabalho. Cada adição em


conteúdo para ser interpretado implicará em extensões ou revisão do processo de interpretação.Por exemplo, para incluir campos de interações com outras proteínas para um registro sobre aproteína Methionine synthase, é necessário incluir relações com moléculas de vitamina B12, Hcy,entre outras.

Esse problema, pode (inclusive) vir a necessitar de mais expressividade do que a própriaDL oferece, e.g. como relações ternárias. Consequentemente, com mais adições, mais complexaserá a análise e demandará mais tempo. Entretanto, uma vez construída, só necessitará seratualizada apenas se os bancos de dados tiverem seu esquema atualizado. Todavia, não exclui anecessidade de realizar estudos e avaliar até que ponto a DL pode ser aplicada na interpretaçãoontológica.

Especificamente sobre as questões de representação, uma limitação dessa abordagempode ser o fato de delegar ao usuário a criação dos axiomas de interpretação. Dessa forma,empregamos a concepção de que o usuário conhece e é capaz de empregar adequadamenteconceitos filosóficos, como por exemplo teorias de parte-todo e disposições. Além disso, não éconsiderada a possível limitação de que o usuário pode apresentar no quesito formalização, e.g. oemprego adequado da DL para descrever a interpretação. Em ambos os casos, a limitação pode serminimizada com a utilização de raciocínio em DL para checar a consistência e a satisfatibilidadedos axiomas criados.

Outra limitação identificada é quanto à forma de empregar a interpretação e gerar umarquivo de ontologia; e ao teste de escalabilidade. A quantidade limitada de exemplos utilizadospode não representar adequadamente o contexto do banco de dados. A restrição sobre um pequenoconjunto de dados foi realizada justamente para exemplificar o emprego da interpretação em umasituação ideal, e.g. em que os dados são anotados e apresentam mapeamentos completos paraoutros bancos de dados.

Entretanto, é de nosso conhecimento que os bancos de dados podem ou não apresentaranotações e mapeamentos para outros BDs em seus registros. Quanto às anotações, esse fatorpode ser minimizado ao empregar técnicas de anotação semântica para BDs biológicos (19).Quanto aos mapeamentos para outras fontes de dados, adições frequentes são realizadas (3) enecessitam ser avaliadas pelo usuário, impactando na necessidade pela revisão da interpretação.

Uma limitação, que pode existir, é o fato de a forma como construir consultas em DLnão ser algo muito bem descrita na literatura. É apresentado como construir ontologias, comoverificar, mas muito pouco é relacionado à construção de consultas em DL. Alguns poucostrabalhos ressaltam a criação de consultas que requerem raciocínio para o domínio biológico(124, 18, 17), o que pode dificultar o usuário (ou o leitor) de compreender claramente comoconsultas desse tipo são construídas.

A amplificação realizada para testar o desempenho apresenta duas limitações conhecidas.A primeira é quanto à replicação dos registros utilizados. Ao replicar uma mesma quantidade


definida de registros, muitas repetições nos nomes das entidades são incluídas. Por exemplo, aentidade ‘Methionine synthase’ aparece 1, 3, 10, 30, 100, 300 e 1000 vezes nos registros criados.Possivelmente, em um BD real, a mesma entidade não estará replicada tantas vezes em ummesmoconjunto de dados.

A segunda limitação com relação à análise de desempenho é quanto à não utilização daBTL2 para realizar o procedimento de raciocínio. Nos modelos amplificados, foi testada apenasa escalabilidade do raciocínio em extensão, i.e. quantidade de classes e axiomas gerados e otempo que leva para processar com o raciocinador. Ao incluir a BTL2, a expressividade dela éherdada pelos modelos, elevando a complexidade do raciocínio de EL+ + para SHI . Dessaforma, assumimos que não é necessário empregar a BTL2 inteira, visto que os axiomas já foramavaliados no modelo com módulos, e ele ter-se mostrado consistente.

Por fim, reconhecemos a limitação atual do integrativO CBR para realizar de maneiraautomática, a interpretação como subclasses. Foi demonstrada apenas a capacidade de reconstruiros axiomas e salvá-los num arquivo de ontologias. Na prática, o processo poderá vir a ser maiscustoso, tendo em vista que o controle sobre o que será recuperado dependerá da medida desimilaridade definida pelo usuário.

As métricas de similaridade empregadas levaram em consideração que as ontologias sãoas mesmas utilizadas para anotar os dados. No contexto do trabalho, isto facilita a identificaçãode classes, mas também demonstra que podem existir outros cenários em que o usuário poderáempregar uma ontologia que não necessariamente tenha sido utilizada no processo de anotação,prejudicando os resultados produzidos pelo processo automático de interpretação.

Essa condição implica na afirmação de que o modelo de interpretação ontológico édiretamente atrelado às ontologias. Nos exemplos construídos, os modelos são atrelados à for-malização disponível na BTL2. Entretanto, no domínio biológico, é hegemônica a criação deontologias com base na Basic Formal Ontology (BFO) e RO (disponíveis no Open BiomedicalOntologies (OBO) Foundry). A BTL2 é compatível com essas ontologias, o que determina a apli-cabilidade da interpretação criada sobre extensões, para ontologias com a mesma fundamentaçãoontológica, i.e. BFO/RO.

7.7 Trabalhos Futuros

Entre os trabalhos futuros provenientes desta tese, podem ser citados:

• otimização do processo no código para a geração do arquivo contendo as classes e axiomasderivados da interpretação, para minimizar o consumo de recursos computacionais;

• avaliar a interpretação com o integrativO CBR em ambiente de produção, e.g. com análisessobre o benefício no uso diário por pesquisadores ou para processar dados biológicos;


• avaliar a escalabilidade da interpretação diante de uma grande quantidade de dados eontologias biológicas completas, i.e. sem módulos e sem filtros;

• um workflow para auxiliar o usuário na definição de como será determinado o ponto decorte aplicado para a situação de estudo;

• avaliar o processo de interpretação, no sentido de recuperar (ontologicamente) o esquemade um ou mais bancos de dados anotados, além de representar os esquemas dos bancosformalmente;

• aplicar em outros domínios, como para bancos de dados de saúde;

• capturar e representar o conhecimento produzido por agentes inteligentes; entre outros.

7.8 Resultados indiretos

Como resultado indireto do desenvolvimento desta tese, houve a formação de recursoshumanos especializados na aplicação de métodos de integração semântica com OBDA e odesenvolvimento de aplicações com base em métodos de KI-CBR. Nesse âmbito, foram geradas2 dissertações de mestrado (01 acadêmica e 01 profissional):

• Adriel de Almeida Café

– Uma Arquitetura com Implementação para Integração Semântica de Ontologias eBancos de Dados

– Mestrado Acadêmico, Centro de Informática (CIn/UFPE) - Apresentado em 04 desetembro de 2015.

• Plácido das Chagas Soares Segundo

– Aplicação de métodos de raciocínio baseado em casos de conhecimento intensivopara a web semântica: um estudo sobre o domínio biológico

– Mestrado Profissional, Centro de Informática (CIn/UFPE) - Apresentado em 27 deagosto de 2015.

Concomitante, houve a formação de colaboração com pesquisadores de outras instituiçõesde pesquisa com penetração internacional:

• Prof. Dr. Ludger Jansen

– Universität Rostock; Intitut für Philosophie.

– Colaboração no processo de construção das abordagens de interpretação, com contri-buição em escrita de artigo científico.


• Dr. Robert Hoehndorf

– King Abdullah University of Science and Technology; Computer, Electrical andMathematical Science and Engineering Division.

– Contribuição na construção do processo de validação do modelo de interpretaçãocomo subclasses, com contribuição em escrita de artigo científico.

188

Referências

1 STRASSER, B. J. Collecting, comparing, and computing sequences: The making of margareto. dayhoff’s atlas of protein sequence and structure, 1954–1965. Journal of the History ofBiology, Springer Science Business Media, v. 43, n. 4, p. 623–660, dec 2009. ISSN 00225010.Disponível em: <http://dx.doi.org/10.1007/s10739-009-9221-0>. Citado 2 vezes nas páginas24 e 66.

2 RIGDEN, D. J.; FERNÁNDEZ-SUÁREZ, X. M.; GALPERIN, M. Y. The 2016 databaseissue of nucleic acids research and an updated molecular biology database collection. NucleicAcids Res, Oxford University Press (OUP), v. 44, n. D1, p. D1–D6, jan 2016. ISSN 1362-4962.Disponível em: <http://dx.doi.org/10.1093/nar/gkv1356>. Citado 2 vezes nas páginas 24 e 67.

3 The UniProt Consortium. UniProt: a hub for protein information. Nucleic Acids Research,Oxford University Press (OUP), v. 43, n. D1, p. D204–D212, oct 2014. ISSN 0305-1048.Disponível em: <http://dx.doi.org/10.1093/nar/gku989>. Citado 3 vezes nas páginas 24, 91e 184.

4 NATALE, D. A. et al. Protein ontology: a controlled structured network of protein entities.Nucleic Acids Research, Oxford University Press (OUP), v. 42, n. D1, p. D415–D421, nov 2013.ISSN 03051048. Disponível em: <http://dx.doi.org/10.1093/nar/gkt1173>. Citado 2 vezes naspáginas 24 e 44.

5 NCBI Resource Coordinators. Database resources of the national center for biotechnologyinformation. Nucleic Acids Research, Oxford University Press (OUP), v. 43, n. D1, p. D6–D17,nov 2014. ISSN 1362-4962. Disponível em: <http://dx.doi.org/10.1093/nar/gku1130>. Citado4 vezes nas páginas 24, 29, 70 e 91.

6 The Gene Ontology Consortium. Gene ontology consortium: going forward. Nucleic AcidsResearch, Oxford University Press (OUP), v. 43, n. D1, p. D1049–D1056, nov 2014. ISSN0305-1048. Disponível em: <http://dx.doi.org/10.1093/nar/gku1179>. Citado 5 vezes naspáginas 24, 44, 58, 59 e 60.

7 IHTSDO. SNOMED CT Technical Implementation Guide. Copenhage, 2015. Disponível em:<www.snomed.org/tig.pdf>. Citado 5 vezes nas páginas 9, 24, 50, 63 e 64.

8 POGGI, A. et al. Linking data to ontologies. In: Journal on Data Semantics X.Springer Science Business Media, 2008. (LNCS, v. 4900), p. 133–173. Disponível em:<http://dx.doi.org/10.1007/978-3-540-77688-8_5>. Citado 7 vezes nas páginas 25, 41, 116,120, 152, 175 e 177.

9 BAADER, F. et al. The Description Logics Handbook: Theory, implementation, andapplications. 2. ed. Cambridge: Cambridge University Press, 2007. 601 p. Citado 14 vezes naspáginas 9, 25, 40, 44, 46, 47, 48, 49, 52, 108, 110, 111, 117 e 121.

10 CARNIELLI, C. M.; WINCK, F. V.; LEME, A. F. P. Functional annotation andbiological interpretation of proteomics data. Biochimica et Biophysica Acta (BBA) -Proteins and Proteomics, Elsevier BV, v. 1854, n. 1, p. 46–54, jan 2015. Disponível em:<http://dx.doi.org/10.1016/j.bbapap.2014.10.019>. Citado 6 vezes nas páginas 25, 72, 75, 114,147 e 149.

http://dx.doi.org/10.1007/s10739-009-9221-0

http://dx.doi.org/10.1093/nar/gkv1356

http://dx.doi.org/10.1093/nar/gku989

http://dx.doi.org/10.1093/nar/gkt1173



www.snomed.org/tig.pdf

http://dx.doi.org/10.1007/978-3-540-77688-8_5

http://dx.doi.org/10.1016/j.bbapap.2014.10.019

Referências 189

11 LAUKENS, K.; NAULAERTS, S.; BERGHE, W. V. Bioinformatics approaches for thefunctional interpretation of protein lists: From ontology term enrichment to network analysis.Proteomics, Wiley-Blackwell, v. 15, n. 5-6, p. 981–996, feb 2015. ISSN 16159853. Disponívelem: <http://dx.doi.org/10.1002/pmic.201400296>. Citado 7 vezes nas páginas 25, 28, 71, 72,75, 114 e 147.

12 BOBED, C.; MENA, E. QueryGen: Semantic interpretation of keyword queries overheterogeneous information systems. Information Sciences, Elsevier BV, v. 329, p. 412–433,feb 2016. Disponível em: <http://dx.doi.org/10.1016/j.ins.2015.09.013>. Citado 5 vezes naspáginas 25, 72, 75, 147 e 149.

13 BAGOSI, T. et al. The ontop framework for ontology based data access. In:ZHAO, D. et al. (Ed.). Communications in Computer and Information Science.Springer Science Business Media, 2014, (CCIS, v. 480). p. 67–77. Disponível em:<http://dx.doi.org/10.1007/978-3-662-45495-4_6>. Citado 7 vezes nas páginas 25, 41, 116,120, 149, 152 e 222.

14 CEUSTERS, W.; SMITH, B. Strategies for referent tracking in electronic health records.Journal of Biomedical Informatics, Elsevier BV, v. 39, n. 3, p. 362–378, jun 2006. Disponívelem: <http://dx.doi.org/10.1016/j.jbi.2005.08.002>. Citado 2 vezes nas páginas 26 e 116.

15 CEUSTERS, W.; HSU, C. Y.; SMITH, B. Clinical data wrangling using ontological realismand referent tracking. In: HOGAN, W. R.; ARABANDI, S.; BROCHHAUSEN, M. (Ed.).Proceedings of the International Conference on Biomedical Ontologies - ICBO. Houston: CEURWorkshop Proceedings, 2014. p. 27–32. Citado 2 vezes nas páginas 26 e 116.

16 HOEHNDORF, R. et al. Integrating systems biology models and biomedicalontologies. BMC Systems Biology, Springer Nature, v. 5, n. 1, p. 124, 2011. Disponível em:<http://dx.doi.org/10.1186/1752-0509-5-124>. Citado 11 vezes nas páginas 27, 34, 44, 72, 74,75, 78, 147, 148, 149 e 179.

17 JUPP, S.; STEVENS, R.; HOEHNDORF, R. Logical gene ontology annotations (goal):exploring gene ontology annotations with owl. J. Biomed. Semantics, v. 3 Suppl 1, n. Suppl 1,p. S3, 2012. Citado 6 vezes nas páginas 27, 72, 147, 148, 149 e 184.

18 SANTANA, F. et al. Ontology patterns for tabular representations of biomedical knowledgeon neglected tropical diseases. Bioinformatics, Oxford University Press (OUP), v. 27, n. 13,p. i349–i356, jun 2011. Disponível em: <http://dx.doi.org/10.1093/bioinformatics/btr226>.Citado 8 vezes nas páginas 27, 34, 41, 44, 56, 74, 147 e 184.

19 HUANG, D. W.; SHERMAN, B. T.; LEMPICKI, R. A. Bioinformatics enrichment tools:paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research,Oxford University Press (OUP), v. 37, n. 1, p. 1–13, nov 2008. ISSN 03051048. Disponível em:<http://dx.doi.org/10.1093/nar/gkn923>. Citado 8 vezes nas páginas 28, 71, 72, 116, 120, 147,149 e 184.

20 RECIO-GARCÍA, J. A.; GONZÁLEZ-CALERO, P. A.; DÍAZ-AGUDO, B.jcolibri2: A framework for building case-based reasoning systems. Science of ComputerProgramming, Elsevier BV, v. 79, p. 126–145, jan 2014. ISSN 01676423. Disponível em:<http://dx.doi.org/10.1016/j.scico.2012.04.002>. Citado 12 vezes nas páginas 11, 31, 36, 41,152, 153, 154, 227, 235, 238, 239 e 241.

http://dx.doi.org/10.1002/pmic.201400296

http://dx.doi.org/10.1016/j.ins.2015.09.013

http://dx.doi.org/10.1007/978-3-662-45495-4_6

http://dx.doi.org/10.1016/j.jbi.2005.08.002

http://dx.doi.org/10.1186/1752-0509-5-124

http://dx.doi.org/10.1093/bioinformatics/btr226

http://dx.doi.org/10.1093/nar/gkn923

http://dx.doi.org/10.1016/j.scico.2012.04.002

Referências 190

21 CUNNINGHAM, F. et al. Ensembl 2015. Nucleic Acids Research, Oxford UniversityPress (OUP), v. 43, n. D1, p. D662–D669, oct 2014. ISSN 1362-4962. Disponível em:<http://dx.doi.org/10.1093/nar/gku1010>. Citado 3 vezes nas páginas 29, 69 e 91.

22 SPEAR, A. D. Ontology for the Twenty First Century : An Introduction withRecommendations. Saarbrücken, Germany: IFOMIS, 2006. 132p p. Disponível em:<http://www.ifomis.org/bfo/manual>. Citado 4 vezes nas páginas 30, 40, 43 e 56.

23 HARRIS, S.; SEABORNE, A. SPARQL 1.1 Query Language. 2013. Disponível em:<http://www.w3.org/TR/sparql11-query/>. Citado 2 vezes nas páginas 31 e 156.

24 BAADER, F.; BRANDT, S.; LUTZ, C. Pushing the el envelope further. In: CLARK, K.;PATEL-SCHNEIDER, P. F. (Ed.). Proceedings of OWL: Experiences and Directions Workshop -OWLED. Karlsruhe, Germany: [s.n.], 2008. ISBN 1045-0823. ISSN 10450823. Citado 5 vezesnas páginas 34, 50, 51, 52 e 112.

25 FREITAS, F. Ontologias e a web semântica. In: VIEIRA, R.; OSóRIO, F. (Ed.). Anais doCongresso da Sociedade Brasileira de Computação - CSBC. Campinas: Sociedade Brasileira deComputação, 2003. p. 1–52. Citado 4 vezes nas páginas 9, 38, 42 e 56.

26 GUIZZARDI, G. PhD Thesis. Ontological Foundations for Structural Conceptual Models.Telematics. Enschede, The Netherlands: Instituut Telematics, 2005. 441 p. ISBN 90-75176-81-3.Citado na página 38.

27 CRAIG, E. Ontology. In: CRAIG, E. (Ed.). Routledge Encycl. Philos. Vol. 7. London:Routledge, 1998. Citado na página 38.

28 SMITH, B. Ontology. In: FLORIDI, L. (Ed.). Blackwell Guid. to Philos. Comput. Inf.Blackwell. Oxford: Blackwell, 2003. p. 155–166. Citado na página 38.

29 SMITH, B.; WELTY, C. FOIS introduction. In: Proceedings of the international conferenceon Formal Ontology in Information Systems - FOIS 01. Ogunquit, Maine, USA: Associationfor Computing Machinery (ACM), 2001. v. 2001. ISBN 1581133774. Disponível em:<http://dx.doi.org/10.1145/505168.505201>. Citado na página 38.

30 TARSKI, A. Introduction to Logic and to the Methodology of Deductive Sciences. 4. ed.New York, New York, USA: Oxford University Press, 1994. 294 p. ISBN 0-19-504472-X.Citado na página 39.

31 SMITH, B. The basic tools of formal ontology. In: GUARINO, N. (Ed.). Proceedings ofthe International Conference on Formal Ontology in Information Systems - FOIS. Amsterdam,Oxford, Tokyo, Washington, DC: IOS Press, 1998. p. 19–28. Citado na página 39.

32 SCHULZ, S.; BOEKER, M. Biotoplite: An upper level ontology for the life sciences.evolution, design and application. In: HORBACH, M. (Ed.). Informatik. [S.l.]: GI, 2013. p.1889–1899. Citado 8 vezes nas páginas 39, 40, 41, 43, 44, 56, 57 e 89.

33 STUDER, R.; BENJAMINS, V.; FENSEL, D. Knowledge engineering: Principles andmethods. Data & Knowledge Engineering, Elsevier BV, v. 25, n. 1-2, p. 161–197, mar 1998.Disponível em: <http://dx.doi.org/10.1016/S0169-023X(97)00056-6>. Citado na página 40.


http://www.ifomis.org/bfo/manual

http://www.w3.org/TR/sparql11-query/

http://dx.doi.org/10.1145/505168.505201

http://dx.doi.org/10.1016/S0169-023X(97)00056-6

Referências 191

34 SCHULZ, S.; BROCHHAUSEN, M.; HOEHNDORF, R. Higgs bosons, mars missions, andunicorn delusions: How to deal with terms of dubious reference in scientific ontologies. In:Proceedings of the International Conference on Biomedical Ontologies - ICBO. Buffalo: [s.n.],2011. p. 183–189. Citado na página 40.

35 HELLER, B.; HERRE, H. Ontological categories in GOL. Axiomathes, Springer ScienceBusiness Media, v. 14, n. 1, p. 57–76, 2004. Disponível em: <http://dx.doi.org/10.1023/B:AXIO.0000006788.44025.49>. Citado 2 vezes nas páginas 40 e 41.

36 HERRE, H. et al. General Formal Ontology (GFO): A Foundational Ontology IntegratingObjects and Processes. Part I: Basic Principles. Leipzig, 2007. 85 p. Citado na página 40.

37 JORGE, V. A. et al. Exploring the IEEE ontology for robotics and automationfor heterogeneous agent interaction. Robotics and Computer-Integrated Manufacturing,Elsevier BV, v. 33, p. 12–20, jun 2015. ISSN 07365845. Disponível em: <http://dx.doi.org/10.1016/j.rcim.2014.08.005>. Citado na página 40.

38 FREITAS, A. et al. Applying ontologies and agent technologies to generate ambientintelligence applications. In: KOCH, F.; MENEGUZZI, F.; LAKKARAJU, K. (Ed.). AgentTechnol. Intell. Mob. Serv. Smart Soc. Commun. Comput. Inf. Sci. Paris: Springer BerlinHeidelberg, 2015. v. 498, p. 22–33. Citado na página 40.

39 PAGANELLI, F.; GIULI, D. An ontology-based system for context-aware and configurableservices to support home-based continuous care. IEEE Transactions on Information Technologyin Biomedicine, Institute of Electrical & Electronics Engineers (IEEE), v. 15, n. 2, p. 324–333,mar 2011. Disponível em: <http://dx.doi.org/10.1109/TITB.2010.2091649>. Citado na página40.

40 EJIGU, D.; SCUTURICI, M.; BRUNIE, L. An ontology-based approach to contextmodeling and reasoning in pervasive computing. In: Fifth Annual IEEE International Conferenceon Pervasive Computing and Communications Workshops (PerComW07). Institute of Electrical& Electronics Engineers (IEEE), 2007. p. 14–19. ISBN 0-7695-2788-4. Disponível em:<http://dx.doi.org/10.1109/PERCOMW.2007.22>. Citado na página 40.

41 SANTANA, F. et al. Towards an ontological representation of morbidity and mortalityin description logics. J. Biomed. Semantics, Springer Nature, v. 3, n. Suppl 2, p. S7, 2012.Disponível em: <http://dx.doi.org/10.1186/2041-1480-3-S2-S7>. Citado 3 vezes nas páginas41, 44 e 56.

42 AHMED-OUAMER, R.; HAMMACHE, A. Ontology-based information retrieval fore-learning of computer science. In: 2010 International Conference on Machine and WebIntelligence. Institute of Electrical & Electronics Engineers (IEEE), 2010. p. 250–257. ISBN978-1-4244-8608-3. Disponível em: <http://dx.doi.org/10.1109/ICMWI.2010.5648113>.Citado na página 41.

43 DíAZ-AGUDO, B.; GONZáLEZ-CALERO, P. A. Cbronto : A task/method ontology forcbr. In: HALLER, S.; SIMMONS, G. (Ed.). Proceedings of the Fifteenth International FloridaArtificial Intelligence Research Society Conference - FLAIRS. Pensacola Beach, Florida: AAAIPress, 2002. p. 101–105. Citado 2 vezes nas páginas 41 e 235.

44 AAMODT, A. Knowledge-intensive case-based reasoning in creek. In: Lecture Notesin Computer Science. Springer Science Business Media, 2004, (LNCS, v. 3155). p. 1–15.

http://dx.doi.org/10.1023/B:AXIO.0000006788.44025.49

http://dx.doi.org/10.1023/B:AXIO.0000006788.44025.49

http://dx.doi.org/10.1016/j.rcim.2014.08.005

http://dx.doi.org/10.1016/j.rcim.2014.08.005

http://dx.doi.org/10.1109/TITB.2010.2091649

http://dx.doi.org/10.1109/PERCOMW.2007.22

http://dx.doi.org/10.1186/2041-1480-3-S2-S7

http://dx.doi.org/10.1109/ICMWI.2010.5648113

Referências 192

Disponível em: <http://dx.doi.org/10.1007/978-3-540-28631-8_1>. Citado 6 vezes nas páginas41, 152, 173, 227, 237 e 238.

45 GUARINO, N. Formal ontology and information systems. In: Proceedings of theInternational Conference on Formal Ontology in Information Systems - FOIS. Amsterdam: IOSPress, 1998. p. 3–15. Citado 3 vezes nas páginas 9, 41 e 42.

46 GANGEMI, A. et al. Sweetening ontologies with DOLCE. In: Knowledge Engineering andKnowledge Management: Ontologies and the Semantic Web. Springer Science Business Media,2002. (LNCS, v. 2473), p. 166–181. Disponível em: <http://dx.doi.org/10.1007/3-540-45810-7_18>. Citado 2 vezes nas páginas 41 e 180.

47 CALHAU, R. F.; FALBO, R. de A. A configuration management task ontology for semanticintegration. In: Proceedings of the 27th Annual ACM Symposium on Applied Computing -SAC 12. Association for Computing Machinery (ACM), 2012. p. 348. ISBN 9781450308571.Disponível em: <http://dx.doi.org/10.1145/2245276.2245344>. Citado na página 41.

48 KLIEN, E.; LUTZ, M.; KUHN, W. Ontology-based discovery of geographicinformation services—an application in disaster management. Computers, Environmentand Urban Systems, Elsevier BV, v. 30, n. 1, p. 102–123, jan 2006. Disponível em:<http://dx.doi.org/10.1016/j.compenvurbsys.2005.04.002>. Citado na página 41.

49 ANTEZANA, E. et al. The cell cycle ontology: An application ontology for therepresentation and integrated analysis of the cell cycle process. Genome Biol, Springer Nature,v. 10, n. 5, p. R58, 2009. Disponível em: <http://dx.doi.org/10.1186/gb-2009-10-5-r58>. Citadona página 42.

50 MEJINO, J. L. V.; RUBIN, D. L.; BRINKLEY, J. F. Fma-radlex: An application ontology ofradiological anatomy derived from the foundational model of anatomy reference ontology. In: .[S.l.: s.n.], 2008. p. 465–9. Citado na página 42.

51 ROBERT, H. et al. Gfo-bio: A biological core ontology. J. Appl. Ontol., IOS Press, v. 3, n. 4,p. 219–227, 2008. ISSN 1570-5838. Disponível em: <http://doi.org/10.3233/AO-2008-0055>.Citado na página 43.

52 NOY, N. F.; MCGUINNESS, D. L. Ontology Development 101 : A Guide to Creating YourFirst Ontology. [S.l.], 2000. 1–25 p. Citado na página 43.

53 SCHOBER, D. et al. Debugit: Ontology-mediated layered data integration for real-timeantibiotics resistance surveillance. In: PASCHKE, A. et al. (Ed.). Proceedings of the SemanticWeb Conference for Life Sciences - SWAT4LS. Berlin, Heidelberg, Germany: CEUR WorkshopProceedings, 2014. v. 1320. Citado 2 vezes nas páginas 44 e 56.

54 SCHOBER, D. et al. The debugit core ontology: semantic integration of antibioticsresistance patterns. Stud Heal. Technol Inf., v. 160, n. Pt 2, p. 1060–4, jan. 2010. ISSN 0926-9630.Citado 2 vezes nas páginas 44 e 56.

55 HASTINGS, J. et al. The ChEBI reference database and ontology for biologicallyrelevant chemistry: enhancements for 2013. Nucleic Acids Research, Oxford UniversityPress (OUP), v. 41, n. D1, p. D456–D463, nov 2012. ISSN 1362-4962. Disponível em:<http://dx.doi.org/10.1093/nar/gks1146>. Citado 2 vezes nas páginas 44 e 60.

http://dx.doi.org/10.1007/978-3-540-28631-8_1

http://dx.doi.org/10.1007/3-540-45810-7_18

http://dx.doi.org/10.1007/3-540-45810-7_18

http://dx.doi.org/10.1145/2245276.2245344

http://dx.doi.org/10.1016/j.compenvurbsys.2005.04.002

http://dx.doi.org/10.1186/gb-2009-10-5-r58

http://doi.org/10.3233/AO-2008-0055

http://dx.doi.org/10.1093/nar/gks1146

Referências 193

56 BRACHMAN, R. J. What’s in a concept: structural foundations for semantic networks.International Journal of Man-Machine Studies, Elsevier BV, v. 9, n. 2, p. 127–152, mar 1977.Disponível em: <http://dx.doi.org/10.1016/S0020-7373(77)80017-5>. Citado na página 44.

57 QUILLIAN, M. R. Semantic Memory. Cambridge, 1966. 222p p. Citado na página 44.

58 MINSKY, M. A Framework for Representing Knowledge. New York, NY, USA:McGraw-Hill, 1975. 1–116 p. Citado 2 vezes nas páginas 44 e 45.

59 KENDAL, S.; CREEN, M. An Introduction to Knowledge Engineering. London: SpringerLondon, 2007. 290p p. ISBN 978-1-84628-475-5. Citado 2 vezes nas páginas 9 e 45.

60 BAADER, F.; HORROCKS, I.; SATTLER, U. Description logics. In: . Handboook ofKnowledge Representation. 1. ed. [S.l.]: Elsevier Inc., 2008. cap. 3, p. 135–179. Citado 3 vezesnas páginas 47, 48 e 50.

61 W3C. Owl 2 web ontology language document overview. In: World Wide Web Consort.[s.n.], 2012. Disponível em: <http://www.w3.org/TR/owl2-overview/>. Citado 4 vezes naspáginas 9, 48, 52 e 53.

62 SCHMIDT-SCHAUSS, M.; SMOLKA, G. Attributive concept descriptions withcomplements. Artificial Intelligence, Elsevier BV, v. 48, n. 1, p. 1–26, feb 1991. Disponível em:<http://dx.doi.org/10.1016/0004-3702(91)90078-X>. Citado 2 vezes nas páginas 48 e 50.

63 SIOUTOS, N. et al. NCI Thesaurus: A semantic model integrating cancer-related clinicaland molecular information. J. Biomed. Inform., v. 40, n. 1, p. 30–43, 2007. ISSN 15320464.Citado na página 52.

64 KAZAKOV, Y.; KRöTZSCH, M.; SIMANČÍK, F. The incredible ELK. J AutomReasoning, Springer Science Business Media, v. 53, n. 1, p. 1–61, nov 2013. Disponível em:<http://dx.doi.org/10.1007/s10817-013-9296-3>. Citado 3 vezes nas páginas 52, 150 e 177.

65 HORROCKS, I.; KUTZ, O.; SATTLER, U. The even more irresistible sroiq. In: Proceedingsof the International Conference on Knowledge Representation - KR. [S.l.: s.n.], 2006. p. 1–36.Citado na página 52.

66 MCGUINNESS, D. L.; HARMELEN, F. van. OWL Web Ontology Language:Overview. 2004. 1–22 p. Disponível em: <http://www.w3.org/TR/owl-features/http://www.w3.org/TR/2004/REC-owl-features-20040210/>. Citado na página 53.

67 FENSEL, D. et al. OIL in a nutshell. In: DIENG, R. (Ed.). Knowledge Engineering andKnowledge Management Methods, Models, and Tools. Springer Science Business Media, 2000.p. 1–16. Disponível em: <http://dx.doi.org/10.1007/3-540-39967-4_1>. Citado na página 53.

68 HENDLER, J.; MCGUINNESS, D. L. The darpa agent markup language. IEEE Intell. Syst.,v. 15, n. 6, p. 67–73, 2000. Citado na página 53.

69 W3C. Rdf 1.1 - concepts and abstract syntax. In: . [s.n.], 2014. Disponível em:<http://www.w3.org/TR/2014/REC-rdf11-concepts-20140225/>. Citado na página 53.

70 HORRIDGE, M.; PATEL-SCHNEIDER, P. F. Owl 2 web ontology language: Manchestersyntax. In: . [s.n.], 2009. p. 23. Http://www.w3.org/TR/owl2-manchester-syntax/. Disponível em:<http://www.w3.org/TR/owl2-manchester-syntax/>. Citado na página 53.

http://dx.doi.org/10.1016/S0020-7373(77)80017-5

http://www.w3.org/TR/owl2-overview/

http://dx.doi.org/10.1016/0004-3702(91)90078-X

http://dx.doi.org/10.1007/s10817-013-9296-3

http://www.w3.org/TR/owl-features/ http://www.w3.org/TR/2004/REC-owl-features-20040210/

http://www.w3.org/TR/owl-features/ http://www.w3.org/TR/2004/REC-owl-features-20040210/

http://dx.doi.org/10.1007/3-540-39967-4_1

http://www.w3.org/TR/2014/REC-rdf11-concepts-20140225/

http://www.w3.org/TR/owl2-manchester-syntax/

Referências 194

71 World Wide Web Consortium (W3C). extensible markup language (xml). In: . [s.n.], 2015.Disponível em: <https://www.w3.org/XML/>. Citado na página 53.

72 World Wide Web Consortium (W3C). Terse rdf triple language (turtle). In: . [s.n.], 2014.Disponível em: <https://www.w3.org/TR/turtle/>. Citado 2 vezes nas páginas 53 e 55.

73 World Wide Web Consortium (W3C). Gleaning resource descriptions from dialectsof languages (grddl). In: . [s.n.], 2006. Http://www.w3.org/TR/grddl/. Disponível em:<http://www.w3.org/TR/grddl/>. Citado na página 54.

74 KRöTZSCH, M. Owl 2 profiles: An introduction to lightweight ontology languages. In:Proceedings of the 8th International Summer School in Semantic Technologies for AdvancedQuery Answering. [S.l.: s.n.], 2012. (LNCS, v. 7487), p. 112–183. Citado 3 vezes nas páginas12, 54 e 55.

75 CHEN, W.; LAMBERTZ, J. Living semantic platform. In: Proceedings of the 11thInternational Conference on Semantic Systems - SEMANTICS 15. New York, New York, USA:Association for Computing Machinery (ACM), 2015. p. 185–187. ISBN 9781450334624.Disponível em: <http://dx.doi.org/10.1145/2814864.2814893>. Citado na página 54.

76 GLUZ, J. C.; VICARI, R. M. Uma ontologia owl para metadados ieee-lom, dublin-core eobaa. In: Anais do SBIE. Aracaju: [s.n.], 2011. p. 204–213. Citado na página 56.

77 BODENREIDER, O.; MITCHELL, J. A.; MCCRAY, A. T. Biomedical ontologies. In: Pac.Symp. Biocomput. [S.l.: s.n.], 2005. v. 78, p. 76–8. ISSN 1793-5091. Citado na página 56.

78 STENZHORN, H.; BEISSWANGER, E.; SCHULZ, S. Towards a top-domain ontology forlinking biomedical ontologies. Stud Heal. Technol Inf., v. 129, n. Pt 2, p. 1225–9, jan. 2007.ISSN 0926-9630. Citado na página 56.

79 SMITH, B. et al. Relations in biomedical ontologies. Genome Biol, Springer Nature, v. 6,n. 5, p. R46, 2005. Disponível em: <http://dx.doi.org/10.1186/gb-2005-6-5-r46>. Citado 2vezes nas páginas 56 e 89.

80 SMITH, B. et al. The OBO foundry: coordinated evolution of ontologies to supportbiomedical data integration. Nat Biotechnol, Nature Publishing Group, v. 25, n. 11, p. 1251–5,nov 2007. ISSN 1087-0156. Disponível em: <http://dx.doi.org/10.1038/nbt1346>. Citado 3vezes nas páginas 56, 80 e 89.

81 NOY, N. F. et al. BioPortal: ontologies and integrated data resources at the click of a mouse.Nucleic Acids Research, Oxford University Press (OUP), v. 37, n. Web Server, p. W170–W173,may 2009. ISSN 1362-4962. Disponível em: <http://dx.doi.org/10.1093/nar/gkp440>. Citadona página 56.

82 HOEHNDORF, R. et al. Aber-OWL: a framework for ontology-based data access in biology.BMC Bioinformatics, Springer Science Business Media, v. 16, n. 1, p. 26, jan 2015. Disponívelem: <http://dx.doi.org/10.1186/s12859-015-0456-9>. Citado na página 56.

83 FERNANDES, R. d. M. Integração de Dados Baseada em Ontologias e RaciocínioAutomático: Estudo de Caso com Dados Públicos de Saúde. 141p p. Dissertação (Master) —Universidade Federal de Pernambuco, 2013. Citado na página 56.

https://www.w3.org/XML/

https://www.w3.org/TR/turtle/

http://www.w3.org/TR/grddl/

http://dx.doi.org/10.1145/2814864.2814893


http://dx.doi.org/10.1038/nbt1346

http://dx.doi.org/10.1093/nar/gkp440

http://dx.doi.org/10.1186/s12859-015-0456-9

Referências 195

84 GABALLAH, H. H. Open access integration of gene coexpression network , goenrichment analysis for identification gene expression signature of invasive bladder carcinoma.Transcriptomics, v. 4, n. 1, p. 1–6, 2016. Citado na página 57.

85 ELENA, B. et al. Biotop: An upper domain ontology for the life sciences. AppliedOntology, IOS Press, v. 3, n. 4, p. 205–212, 2008. ISSN 1570-5838. Disponível em:<http://doi.org/10.3233/AO-2008-0057>. Citado na página 57.

86 ASHBURNER, M. et al. Gene ontology: tool for the unification of biology. Nature Genetics,Nature Publishing Group, v. 25, n. 1, p. 25–29, may 2000. ISSN 1061-4036. Disponível em:<http://dx.doi.org/10.1038/75556>. Citado na página 58.

87 DEGTYARENKO, K. et al. ChEBI: a database and ontology for chemical entitiesof biological interest. Nucleic Acids Research, Oxford University Press (OUP), v. 36,n. Database, p. D344–D350, dec 2007. ISSN 1362-4962. Disponível em: <http://dx.doi.org/10.1093/nar/gkm791>. Citado 2 vezes nas páginas 60 e 61.

88 NATALE, D. A. et al. The protein ontology: a structured representation of protein formsand complexes. Nucleic Acids Research, Oxford University Press (OUP), v. 39, n. Database, p.D539–D545, oct 2010. ISSN 03051048. Disponível em: <http://dx.doi.org/10.1093/nar/gkq907>.Citado na página 62.

89 MUNGALL, C. J.; BATCHELOR, C.; EILBECK, K. Evolution of the sequence ontologyterms and relationships. Journal of Biomedical Informatics, Elsevier BV, v. 44, n. 1, p. 87–93,feb 2011. Disponível em: <http://dx.doi.org/10.1016/j.jbi.2010.03.002>. Citado na página 62.

90 MONTECCHI-PALAZZI, L. et al. The PSI-MOD community standard for representation ofprotein modification data. Nat Biotechnol, Nature Publishing Group, v. 26, n. 8, p. 864–866, aug2008. ISSN 1087-0156. Disponível em: <http://dx.doi.org/10.1038/nbt0808-864>. Citado napágina 62.

91 IHTSDO. SNOMED CT Starter Guide. Copenhage, 2014. 1–56 p. Citado na página 63.

92 SCHULZ, S.; MARTÍNEZ-COSTA, C. Harmonizing SNOMED CT with BioTopLite: AnExercise in Principled Ontology Alignment. Stud. Health Technol. Inform., v. 216, n. AUGUST2015, p. 832–6, 2015. ISSN 0926-9630. Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/26262168>. Citado 4 vezes nas páginas 12, 63, 64 e 65.

93 ECK, R. V. Non-randomness in amino-acid ‘alleles’. Nature, Nature PublishingGroup, v. 191, n. 4795, p. 1284–1285, sep 1961. ISSN 0028-0836. Disponível em:<http://dx.doi.org/10.1038/1911284a0>. Citado na página 66.

94 DAYHOFF, M. O. et al. Atlas of Protein Sequence and Structure. Silver Spring: NationalBiomedical Research Foundation, 1965. Citado na página 66.

95 BENSON, D. A. et al. Genbank. Nucleic Acids Research, Oxford UniversityPress (OUP), v. 41, n. D1, p. D36–D42, nov 2012. ISSN 03051048. Disponível em:<http://dx.doi.org/10.1093/nar/gks1195>. Citado 2 vezes nas páginas 67 e 97.

96 KOLESNIKOV, N. et al. ArrayExpress update–simplifying data submissions. Nucleic AcidsResearch, Oxford University Press (OUP), v. 43, n. D1, p. D1113–D1116, oct 2014. ISSN0305-1048. Disponível em: <http://dx.doi.org/10.1093/nar/gku1057>. Citado na página 67.

http://doi.org/10.3233/AO-2008-0057

http://dx.doi.org/10.1038/75556

http://dx.doi.org/10.1093/nar/gkm791

http://dx.doi.org/10.1093/nar/gkm791

http://dx.doi.org/10.1093/nar/gkq907


http://dx.doi.org/10.1038/nbt0808-864

http://www.ncbi.nlm.nih.gov/pubmed/26262168

http://www.ncbi.nlm.nih.gov/pubmed/26262168

http://dx.doi.org/10.1038/1911284a0

http://dx.doi.org/10.1093/nar/gks1195


Referências 196

97 BOLSER, D. M. et al. MetaBase–the wiki-database of biological databases. Nucleic AcidsResearch, Oxford University Press (OUP), v. 40, n. D1, p. D1250–D1254, dec 2011. ISSN03051048. Disponível em: <http://dx.doi.org/10.1093/nar/gkr1099>. Citado na página 67.

98 CAMON, E. The gene ontology annotation (GOA) database: sharing knowledge in uniprotwith gene ontology. Nucleic Acids Research, Oxford University Press (OUP), v. 32, n. 90001, p.262D–266, jan 2004. Disponível em: <http://dx.doi.org/10.1093/nar/gkh021>. Citado 2 vezesnas páginas 67 e 72.

99 HUNTLEY, R. P. et al. The GOA database: Gene ontology annotation updates for 2015.Nucleic Acids Research, Oxford University Press (OUP), v. 43, n. D1, p. D1057–D1063, nov2014. ISSN 0305-1048. Disponível em: <http://dx.doi.org/10.1093/nar/gku1113>. Citado 3vezes nas páginas 68, 72 e 120.

100 ALTSCHUL, S. F. et al. Basic local alignment search tool. Journal of MolecularBiology, Elsevier BV, v. 215, n. 3, p. 403–410, oct 1990. ISSN 0022-2836. Disponível em:<http://dx.doi.org/10.1016/S0022-2836(05)80360-2>. Citado na página 71.

101 PEARSON, W.; LIPMAN, D. Improved tools for biological sequence comparison. Proc.Natl. Acad. Sci. U. S. A., v. 85, n. 8, p. 2444–2448, 1988. ISSN 0027-8424. Citado na página 71.

102 JOHNSON, M. et al. NCBI BLAST: a better web interface. Nucleic Acids Research,Oxford University Press (OUP), v. 36, n. Web Server, p. W5–W9, may 2008. ISSN 13624962.Disponível em: <http://dx.doi.org/10.1093/nar/gkn201>. Citado na página 71.

103 ZEEBERG, B. R. et al. Gominer: a resource for biological interpretation of genomicand proteomic data. Genome Biol, Springer Nature, v. 4, n. 4, p. R28, 2003. Disponível em:<http://dx.doi.org/10.1186/gb-2003-4-4-r28>. Citado 3 vezes nas páginas 71, 72 e 73.

104 SIQUEIRA, E. R. et al. Methylenetetrahydrofolate reductase (MTHFR) c677Tpolymorphism and high plasma homocysteine in chronic hepatitis c (CHC) infected patientsfrom the northeast of Brazil. Nutrition Journal, Springer Nature, v. 10, n. 1, p. 86, jan 2011.ISSN 1475-2891. Disponível em: <http://dx.doi.org/10.1186/1475-2891-10-86>. Citado 2vezes nas páginas 71 e 91.

105 CARVALHO, S. C. R. de et al. Plasmatic higher levels of homocysteine in non-alcoholicfatty liver disease (NAFLD). Nutrition Journal, Springer Nature, v. 12, n. 1, p. 37, 2013. ISSN1475-2891. Disponível em: <http://dx.doi.org/10.1186/1475-2891-12-37>. Citado 2 vezes naspáginas 71 e 91.

106 DRaGHICI, S. et al. Global functional profiling of gene expression. Genomics, ElsevierBV, v. 81, n. 2, p. 98–104, feb 2003. Disponível em: <http://dx.doi.org/10.1016/S0888-7543(02)00021-6>. Citado na página 71.

107 KHATRI, P. et al. Onto-tools: an ensemble of web-accessible, ontology-based tools for thefunctional design and interpretation of high-throughput gene expression experiments. NucleicAcids Research, Oxford University Press (OUP), v. 32, n. Web Server, p. W449–W456, jul 2004.ISSN 03051048. Disponível em: <http://dx.doi.org/10.1093/nar/gkh409>. Citado na página 71.

108 KHATRI, P. et al. Profiling gene expression using onto-express. Genomics, Elsevier BV,v. 79, n. 2, p. 266–270, feb 2002. Disponível em: <http://dx.doi.org/10.1006/geno.2002.6698>.Citado na página 72.

http://dx.doi.org/10.1093/nar/gkr1099

http://dx.doi.org/10.1093/nar/gkh021


http://dx.doi.org/10.1016/S0022-2836(05)80360-2

http://dx.doi.org/10.1093/nar/gkn201


http://dx.doi.org/10.1186/1475-2891-10-86

http://dx.doi.org/10.1186/1475-2891-12-37

http://dx.doi.org/10.1016/S0888-7543(02)00021-6

http://dx.doi.org/10.1016/S0888-7543(02)00021-6

http://dx.doi.org/10.1093/nar/gkh409

http://dx.doi.org/10.1006/geno.2002.6698

Referências 197

109 SMID, M.; DORSSERS, L. C. J. GO-mapper: functional analysis of gene expressiondata using the expression level as a score to evaluate gene ontology terms. Bioinformatics,Oxford University Press (OUP), v. 20, n. 16, p. 2618–2625, may 2004. Disponível em:<http://dx.doi.org/10.1093/bioinformatics/bth293>. Citado 2 vezes nas páginas 72 e 73.

110 BEN-SHAUL, Y.; BERGMAN, H.; SOREQ, H. Identifying subtle interrelated changesin functional gene categories using continuous measures of gene expression. Bioinformatics,Oxford University Press (OUP), v. 21, n. 7, p. 1129–1137, nov 2004. Disponível em:<http://dx.doi.org/10.1093/bioinformatics/bti149>. Citado na página 72.

111 BAUER, S. et al. Ontologizer 2.0–a multifunctional tool for GO term enrichment analysisand data exploration. Bioinformatics, Oxford University Press (OUP), v. 24, n. 14, p. 1650–1651,may 2008. Disponível em: <http://dx.doi.org/10.1093/bioinformatics/btn250>. Citado napágina 72.

112 HUANG, D. et al. The DAVID gene functional classification tool: a novel biologicalmodule-centric algorithm to functionally analyze large gene lists. Genome Biol., Springer Nature,v. 8, n. 9, p. R183, 2007. Disponível em: <http://dx.doi.org/10.1186/gb-2007-8-9-r183>. Citado2 vezes nas páginas 72 e 74.

113 JUTY, N. et al. BioModels: Content, features, functionality, and use. CPT:Pharmacometrics & Systems Pharmacology, Wiley-Blackwell, v. 4, n. 2, p. 55–68, feb 2015.Disponível em: <http://dx.doi.org/10.1002/psp4.3>. Citado na página 75.

114 PETASIS, G. et al. Ontology population and enrichment: State of the art.In: Knowledge-Driven Multimedia Information Extraction and Ontology Evolution.Springer Science Business Media, 2011, (LNCS, v. 6050). p. 134–166. Disponível em:<http://dx.doi.org/10.1007/978-3-642-20795-2_6>. Citado 3 vezes nas páginas 77, 115 e 175.

115 SCHULZ, S. et al. Guideline on Developing Good Ontologies in the Biomedical Domainwith Description Logics. Rostock, 2012. 85p p. Disponível em: <http://purl.org/goodod/guideline>. Citado 2 vezes nas páginas 80 e 178.

116 O’DONOVAN, C.; APWEILER, R. A guide to UniProt for protein scientists. In: WU,C. H.; CHEN, C. (Ed.). Methods in Molecular Biology. Totowa, NJ: Springer ScienceBusiness Media, 2010, (Methods in Molecular Biology, v. 694). p. 25–35. Disponível em:<http://dx.doi.org/10.1007/978-1-60761-977-2_2>. Citado na página 81.

117 HAW, R. et al. Reactome pathway analysis to enrich biological discovery in proteomicsdata sets. Proteomics, Wiley-Blackwell, v. 11, n. 18, p. 3598–3613, sep 2011. ISSN 16159853.Disponível em: <http://dx.doi.org/10.1002/pmic.201100066>. Citado na página 81.

118 MILLIAN, N. S.; GARROW, T. A. Human betaine–homocysteine methyltransferase isa zinc metalloenzyme. Archives of Biochemistry and Biophysics, Elsevier BV, v. 356, n. 1, p.93–98, aug 1998. Disponível em: <http://dx.doi.org/10.1006/abbi.1998.0757>. Citado napágina 82.

119 GARROW, T. a. Purification, kinetic properties, and cdna cloning of mammalianbetaine-homocysteine methyltransferase. J. Biol. Chem., v. 271, n. 37, p. 22831–8, 1996. Citadona página 82.

http://dx.doi.org/10.1093/bioinformatics/bth293

http://dx.doi.org/10.1093/bioinformatics/bti149

http://dx.doi.org/10.1093/bioinformatics/btn250


http://dx.doi.org/10.1002/psp4.3

http://dx.doi.org/10.1007/978-3-642-20795-2_6

http://purl.org/goodod/guideline

http://purl.org/goodod/guideline

http://dx.doi.org/10.1007/978-1-60761-977-2_2

http://dx.doi.org/10.1002/pmic.201100066

http://dx.doi.org/10.1006/abbi.1998.0757

Referências 198

120 RöHL, J.; JANSEN, L. Representing dispositions. J Biomed Sem, Springer Nature,v. 2, n. Suppl 4, p. S4, 2011. ISSN 2041-1480. Disponível em: <http://dx.doi.org/10.1186/2041-1480-2-S4-S4>. Citado 3 vezes nas páginas 87, 88 e 108.

121 JANSEN, L. Tendencies and other realizables in medical information sciences.Monist, Oxford University Press (OUP), v. 90, n. 4, p. 534–554, 2007. Disponível em:<http://dx.doi.org/10.5840/monist200790436>. Citado 2 vezes nas páginas 88 e 108.

122 SCHULZ, S. et al. Scalable representations of diseases in biomedical ontologies. J BiomedSem, Springer Nature, Boston, v. 2, n. Suppl 2, p. S6, jan 2011. ISSN 2041-1480. Disponível em:<http://dx.doi.org/10.1186/2041-1480-2-S2-S6>. Citado na página 88.

123 MUNIZ, M. T. C. et al. Avaliação da relação entre o polimorfismo c677T no gene paraMTHFR e a concentração plasmática de homocisteína na doença arterial coronariana. ArquivosBrasileiros de Endocrinologia & Metabologia, FapUNIFESP (SciELO), v. 50, n. 6, dec 2006.Disponível em: <http://dx.doi.org/10.1590/S0004-27302006000600012>. Citado na página 91.

124 HOEHNDORF, R. et al. Interoperability between biomedical ontologies throughrelation expansion, upper-level ontologies and automatic reasoning. PLoS ONE, PublicLibrary of Science (PLoS), v. 6, n. 7, p. e22006, jul 2011. ISSN 19326203. Disponível em:<http://dx.doi.org/10.1371/journal.pone.0022006>. Citado 5 vezes nas páginas 91, 147, 148,150 e 184.

125 GLIMM, B. et al. HermiT: An OWL 2 reasoner. J Autom Reasoning, SpringerScience Business Media, v. 53, n. 3, p. 245–269, may 2014. Disponível em: <http://dx.doi.org/10.1007/s10817-014-9305-1>. Citado na página 96.

126 CROFT, D. et al. The reactome pathway knowledgebase. Nucleic Acids Research, OxfordUniversity Press (OUP), v. 42, n. D1, p. D472–D477, nov 2013. ISSN 03051048. Disponível em:<http://dx.doi.org/10.1093/nar/gkt1102>. Citado na página 97.

127 SCHULZ, S.; JANSEN, L. Formal ontologies in biomedical knowledge representation.IMIA Yearbook, v. 8, n. Evidence-based Health Informatics, p. 132–146, 2013. Citado na página107.

128 MCCARTHY, J. Modality? si! modal logic? no! Studia Logica, Springer Science BusinessMedia, v. 59, n. 1, p. 29–32, 1997. ISSN 00393215. Disponível em: <http://dx.doi.org/10.1023/A:1004943332720>. Citado na página 111.

129 HORROCKS, I. A description logic with transitive and inverse roles and role hierarchies.Journal of Logic and Computation, Oxford University Press (OUP), v. 9, n. 3, p. 385–410, jun1999. ISSN 0955-792X. Disponível em: <http://dx.doi.org/10.1093/logcom/9.3.385>. Citadona página 112.

130 JAIN, V.; PRASAD, S. Mapping between rdbms and ontology : A review. InternationalJournal of Scientific & Technology Research, v. 3, n. 11, p. 307–313, 2014. Citado na página115.

131 SCHULZ, S. et al. The pitfalls of thesaurus ontologization - the case of the nci thesaurus.In: AMIA Annu. Symp. Proc. [S.l.: s.n.], 2010. p. 727–731. Citado na página 115.

http://dx.doi.org/10.1186/2041-1480-2-S4-S4

http://dx.doi.org/10.1186/2041-1480-2-S4-S4

http://dx.doi.org/10.5840/monist200790436

http://dx.doi.org/10.1186/2041-1480-2-S2-S6

http://dx.doi.org/10.1590/S0004-27302006000600012

http://dx.doi.org/10.1371/journal.pone.0022006

http://dx.doi.org/10.1007/s10817-014-9305-1

http://dx.doi.org/10.1007/s10817-014-9305-1

http://dx.doi.org/10.1093/nar/gkt1102

http://dx.doi.org/10.1023/A:1004943332720

http://dx.doi.org/10.1023/A:1004943332720

http://dx.doi.org/10.1093/logcom/9.3.385

Referências 199

132 DANIEL, K. et al. A method for re-engineering a thesaurus into an ontology.Frontiers in Artificial Intelligence and Applications, IOS Press, Graz, v. 239, n. FormalOntology in Information Systems, p. 133–146, 2012. ISSN 0922-6389. Disponível em:<http://doi.org/10.3233/978-1-61499-084-0-133>. Citado na página 115.

133 DIBLEY, M. et al. An integrated framework utilising software agent reasoning andontology models for sensor based building monitoring. Journal of Civil Engineering andManagement, Vilnius Gediminas Technical University, v. 21, n. 3, p. 356–375, feb 2015.Disponível em: <http://dx.doi.org/10.3846/13923730.2014.890645>. Citado na página 115.

134 KONTOPOULOS, E. et al. An ontology-based decision support tool for optimizingdomestic solar hot water system selection. Journal of Cleaner Production, Elsevier BV, v. 112, p.4636–4646, jan 2016. ISSN 09596526. Disponível em: <http://dx.doi.org/10.1016/j.jclepro.2015.08.088>. Citado na página 115.

135 SCHULZ, S.; JOHANSSON, I. Continua in biological systems. Monist, Oxford UniversityPress (OUP), v. 90, n. 4, p. 499–522, 2007. Disponível em: <http://dx.doi.org/10.5840/monist200790434>. Citado na página 115.

136 DOU, D.; QIN, H.; LEPENDU, P. Ontograte: Towards automatic integration for relationaldatabases and the semantic web through an ontology-based framework. Int. J. Semant. Comput.,v. 04, n. 01, p. 123–151, 2010. Citado 5 vezes nas páginas 116, 120, 147, 152 e 223.

137 ANGLES, R.; GUTIERREZ, C. The expressive power of SPARQL. In: Lecture Notesin Computer Science. Springer Science Business Media, 2008. LNCS 5318, p. 114–129.Disponível em: <http://dx.doi.org/10.1007/978-3-540-88564-1_8>. Citado 2 vezes nas páginas117 e 147.

138 PÉREZ-REY, D. et al. ONTOFUSION: Ontology-based integration of genomic andclinical databases. Computers in Biology and Medicine, Elsevier BV, v. 36, n. 7-8, p. 712–730,jul 2006. Disponível em: <http://dx.doi.org/10.1016/j.compbiomed.2005.02.004>. Citado 3vezes nas páginas 120, 147 e 223.

139 LEHMANN, J. Dl-learner: Learning concepts in description logics. Journal of MachineLearning Research, v. 10, p. 2639–2642, 2009. ISSN 15324435. Citado na página 120.

140 FANIZZI, N.; D’AMATO, C.; ESPOSITO, F. DL-FOIL concept learning in descriptionlogics. In: ŽELEZNÝ, F.; LAVRAČ, N. (Ed.). Inductive Logic Programming. Berlin, Heidelberg:Springer Science Business Media, 2008, (LNCS, v. 5194). p. 107–121. Disponível em:<http://dx.doi.org/10.1007/978-3-540-85928-4_12>. Citado na página 120.

141 SELHUB, J. HOMOCYSTEINE METABOLISM. Annu. Rev. Nutr., Annual Reviews, v. 19,n. 1, p. 217–246, jul 1999. Disponível em: <http://dx.doi.org/10.1146/annurev.nutr.19.1.217>.Citado na página 123.

142 CHEN, P. P.-S. The entity-relationship model—toward a unified view of data. ACMTransactions on Database Systems, Association for Computing Machinery (ACM), v. 1, n. 1, p.9–36, mar 1976. Disponível em: <http://dx.doi.org/10.1145/320434.320440>. Citado 2 vezesnas páginas 10 e 125.

143 JIANG, G. et al. A case study of icd-11 anatomy value set extraction from snomed ct. In:Proceedings of the International Conference on Biomedical Ontologies - ICBO. Buffalo: [s.n.],2011. p. 133–138. Citado na página 125.

http://doi.org/10.3233/978-1-61499-084-0-133

http://dx.doi.org/10.3846/13923730.2014.890645

http://dx.doi.org/10.1016/j.jclepro.2015.08.088

http://dx.doi.org/10.1016/j.jclepro.2015.08.088



http://dx.doi.org/10.1007/978-3-540-88564-1_8

http://dx.doi.org/10.1016/j.compbiomed.2005.02.004

http://dx.doi.org/10.1007/978-3-540-85928-4_12

http://dx.doi.org/10.1146/annurev.nutr.19.1.217

http://dx.doi.org/10.1145/320434.320440

Referências 200

144 JIMÉNEZ-RUIZ, E. et al. Safe and economic re-use of ontologies: A logic-based methodology and tool support. In: Lecture Notes in Computer Science. SpringerScience Business Media, 2008, (LNCS, v. 5021). p. 185–199. Disponível em: <http://dx.doi.org/10.1007/978-3-540-68234-9_16>. Citado na página 125.

145 TSARKOV, D.; HORROCKS, I. FaCT++ description logic reasoner: System description.In: Automated Reasoning. Seattle: Springer Science Business Media, 2006, (LNCS). p. 292–297.Disponível em: <http://dx.doi.org/10.1007/11814771_26>. Citado na página 125.

146 COURTOT, M. et al. Mireot : The minimum information to reference an external ontologyterm. Appl. Ontol., v. 6, n. 1, p. 23–33, 2011. Citado na página 126.

147 DOU, D.; LEPENDU, P. Ontology-based integration for relational databases. In:Proceedings of the 2006 ACM symposium on Applied computing - SAC 06. New York, NewYork, USA: Association for Computing Machinery (ACM), 2006. p. 461. ISBN 1595931082.Disponível em: <http://dx.doi.org/10.1145/1141277.1141387>. Citado 3 vezes nas páginas 147,214 e 223.

148 MENDEZ, J.; ECKE, A.; TURHAN, A. Y. Implementing completion-based inferences forthe εl-family. In: ROSATI, R.; RUDOLPH, S.; ZAKHARYASCHEV, M. (Ed.). Proceedings ofthe 2011 International Workshop on Description Logics - DL. Barcelona: CEUR-WS, 2011.v. 745, p. 334–344. ISSN 16130073. Citado 2 vezes nas páginas 150 e 177.

149 BACH, K.; ALTHOFF, K.-D. Developing case-based reasoning applications using myCBR3. In:Case-Based Reasoning Research andDevelopment. Springer Science BusinessMedia, 2012,(LNAI, v. 7466). p. 17–31. Disponível em: <http://dx.doi.org/10.1007/978-3-642-32986-9_4>.Citado 4 vezes nas páginas 152, 173, 227 e 237.

150 AAMODT, A.; PLAZA, E. Case-based reasoning; foundational issues, methodologicalvariations, and system approaches. AICom, v. 1, p. 39–59, 1994. Citado 4 vezes nas páginas 11,153, 226 e 227.

151 SEGUNDO, P. d. C. S. Aplicação de métodos de raciocínio baseado em casos deconhecimento intensivo para a web semântica: um estudo sobre o domínio biológico. 99p p.Dissertação (Master) — Universidade Federal de Pernambuco, 2015. Citado na página 154.

152 CAFÉ, A. A. Uma arquitetura com implementação para integração semântica deontologias e bancos de dados. 131p p. Dissertação (Master) — Universidade Federal dePernambuco, 2015. Citado 6 vezes nas páginas 11, 154, 158, 159, 160 e 161.

153 RECIO-GARÍA, J. A.; DÍAZ-AGUDO, B. Ontology based CBR with jCOLIBRI. In:Applications and Innovations in Intelligent Systems XIV. Springer Science Business Media, 2007.p. 149–162. ISBN 1846286654. Disponível em: <http://dx.doi.org/10.1007/978-1-84628-666-7_12>. Citado 2 vezes nas páginas 154 e 173.

154 BüHMANN, L.; LEHMANN, J. Pattern based knowledge base enrichment. In:NIKITINA, N.; SCHEWE, S. (Ed.). Lecture Notes in Computer Science. SpringerScience Business Media, 2013. (LNCS, v. 8218), p. 33–48. Disponível em: <http://dx.doi.org/10.1007/978-3-642-41335-3_3>. Citado 3 vezes nas páginas 157, 172 e 243.

155 BÜHMANN, L.; LEHMANN, J. OWL class expression to SPARQL rewriting. Leipzig,Germany, 2013. Citado 3 vezes nas páginas 157, 172 e 243.

http://dx.doi.org/10.1007/978-3-540-68234-9_16

http://dx.doi.org/10.1007/978-3-540-68234-9_16

http://dx.doi.org/10.1007/11814771_26

http://dx.doi.org/10.1145/1141277.1141387

http://dx.doi.org/10.1007/978-3-642-32986-9_4

http://dx.doi.org/10.1007/978-1-84628-666-7_12

http://dx.doi.org/10.1007/978-1-84628-666-7_12

http://dx.doi.org/10.1007/978-3-642-41335-3_3

http://dx.doi.org/10.1007/978-3-642-41335-3_3

Referências 201

156 FARIA, D. et al. The AgreementMakerLight ontology matching system. Lect. NotesComput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), v. 8185LNCS, p. 527–541, 2013. ISSN 03029743. Citado na página 161.

157 BIZER, C.; SEABORNE, A. D2rq – treating non-rdf databases as virtual rdf graphs. In:Proceedings of the International Semantic Web Conference - ISWC. Hiroshima, Japan: [s.n.],2004. Citado 2 vezes nas páginas 161 e 220.

158 SESAME. Sesame. 2015. Disponível em: <http://rdf4j.org/>. Citado na página 161.

159 Knuth, D.E., Morris, J.H., & Pratt, V.; Morris, Jr., J. H.; PRATT, V. R. Fast patternmatching in strings. SIAM J. Comput., v. 6, n. 2, p. 323–350, 1977. ISSN 0097-5397. Citado 2vezes nas páginas 163 e 228.

160 BATET, M.; SÁNCHEZ, D.; VALLS, A. An ontology-based measure to compute semanticsimilarity in biomedicine. Journal of Biomedical Informatics, Elsevier BV, v. 44, n. 1, p.118–125, feb 2011. Disponível em: <http://dx.doi.org/10.1016/j.jbi.2010.09.002>. Citado napágina 172.

161 BERGMANN, R. On the use of taxonomies for representing case features and localsimilarity measures. Proceedings of the German Workshop on Case-Based Reasoning - GWCBR,1998. Citado na página 172.

162 D’AMATO, C. et al. A semantic similarity measure for expressive description logics. In:Proceedings of the Convegno Italiano di Logica Computazionale - CILC. Roma: [s.n.], 2005.Citado 2 vezes nas páginas 172 e 229.

163 TAIEB, M. A. H.; AOUICHA, M. B.; HAMADOU, A. B. Ontology-based approach formeasuring semantic similarity. Engineering Applications of Artificial Intelligence, Elsevier BV,v. 36, p. 238–261, nov 2014. Disponível em: <http://dx.doi.org/10.1016/j.engappai.2014.07.015>.Citado na página 172.

164 HARISPE, S. et al. A framework for unifying ontology-based semantic similarity measures:A study in the biomedical domain. Journal of Biomedical Informatics, Elsevier BV, v. 48, p.38–53, apr 2014. Disponível em: <http://dx.doi.org/10.1016/j.jbi.2013.11.006>. Citado napágina 172.

165 D’AQUIN, M.; LIEBER, J.; NAPOLI, A. Decentralized case-based reasoning and semanticweb technologies applied to decision support in oncology. The Knowledge Engineering Review,Cambridge University Press (CUP), v. 28, n. 04, p. 425–449, mar 2013. ISSN 0269-8889.Disponível em: <http://dx.doi.org/10.1017/S0269888913000027>. Citado 2 vezes nas páginas173 e 238.

166 LAWLEY, M.; BOUSQUET, C. Fast classification in protégé: Snorocket as an owl 2 elreasoner. In: TAYLOR, K.; MEYER, T.; ORGUN, M. (Ed.). Proceedings of the AustralasianOntology Workshop - AOW. Adelaide: [s.n.], 2010. p. 45–49. ISSN 1878-5883. Citado na página177.

167 PRESTES, E. et al. Towards a core ontology for robotics and automation. Robotics andAutonomous Systems, Elsevier BV, v. 61, n. 11, p. 1193–1204, nov 2013. ISSN 09218890.Disponível em: <http://dx.doi.org/10.1016/j.robot.2013.04.005>. Citado na página 180.

http://rdf4j.org/


http://dx.doi.org/10.1016/j.engappai.2014.07.015


http://dx.doi.org/10.1017/S0269888913000027

http://dx.doi.org/10.1016/j.robot.2013.04.005

Referências 202

168 PEASE, A.; NILES, I.; LI, J. The Suggested Upper Merged Ontology: A Large Ontologyfor the Semantic Web and its Applications. [S.l.], 2002. Citado na página 180.

169 SHAH, N. et al. Ontology for home energy management domain. In: Communications inComputer and Information Science. Springer Science Business Media, 2011. v. 167 CCIS,n. PART 2, p. 337–347. Disponível em: <http://dx.doi.org/10.1007/978-3-642-22027-2_28>.Citado na página 180.

170 ZIEGLER, P.; DITTRICH, K. R. Three decades of data intecration — allproblems solved? In: Building the Information Society. Springer Science BusinessMedia, 2004, (Building the Information Society, v. 156). p. 3–12. Disponível em:<http://dx.doi.org/10.1007/978-1-4020-8157-6_1>. Citado 4 vezes nas páginas 211, 212, 213e 214.

171 PARENT, C.; SPACCAPIETRA, S. Issues and approaches of database integration.Communications of the ACM, Association for Computing Machinery (ACM), v. 41, n. 5es, p.166–178, may 1998. Disponível em: <http://dx.doi.org/10.1145/276404.276408>. Citado napágina 211.

172 HALEVY, A. Y. Answering queries using views: A survey. The VLDB Journal, SpringerScience Business Media, v. 10, n. 4, p. 270–294, dec 2001. ISSN 10668888. Disponível em:<http://dx.doi.org/10.1007/s007780100054>. Citado na página 211.

173 HALEVY, A.; ORDILLE, J. Data integration : The teenage years. In: Proceedings of the32nd International Conference on Very Large Data Bases - VLDB. [S.l.: s.n.], 2006. p. 9–16.ISBN 1595933859. Citado na página 211.

174 LENZERINI, M. Data integration. In: Proceedings of the twenty-first ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems - PODS 02. New York, NewYork, USA: Association for Computing Machinery (ACM), 2002. p. 233. ISBN 1581135076.Disponível em: <http://dx.doi.org/10.1145/543613.543644>. Citado 3 vezes nas páginas 211,212 e 214.

175 OUKSEL, A. M.; SHETH, A. Semantic interoperability in global information systems.ACM SIGMOD Record, Association for Computing Machinery (ACM), v. 28, n. 1, p. 5–12, mar1999. Disponível em: <http://dx.doi.org/10.1145/309844.309849>. Citado na página 214.

176 CALVANESE, D.; GIACOMO, G. D.; LENZERINI, M. Ontology of integration andintegration of ontologies. In: Proceedings of the 2001 Description Logic Workshop - DL. [S.l.:s.n.], 2001. p. 10–19. Citado 2 vezes nas páginas 214 e 218.

177 CALVANESE, D.; GIACOMO, G. D.; LENZERINI, M. A framework for ontologyintegration. In: CRUZ, I. et al. (Ed.). Emerg. Semant. Web - Sel. Pap. from First Semant. WebWork. Symp. [S.l.]: IOS Press, 2002. Citado 2 vezes nas páginas 214 e 215.

178 NOY, N. F. Semantic integration. ACM SIGMOD Record, Association for ComputingMachinery (ACM), v. 33, n. 4, p. 65, dec 2004. ISSN 01635808. Disponível em:<http://dx.doi.org/10.1145/1041410.1041421>. Citado na página 214.

179 UDREA, O.; GETOOR, L.; MILLER, R. J. Leveraging data and structure inontology integration. In: Proceedings of the 2007 ACM SIGMOD international conferenceon Management of data - SIGMOD 07. New York, New York, USA: Association for

http://dx.doi.org/10.1007/978-3-642-22027-2_28

http://dx.doi.org/10.1007/978-1-4020-8157-6_1

http://dx.doi.org/10.1145/276404.276408

http://dx.doi.org/10.1007/s007780100054

http://dx.doi.org/10.1145/543613.543644

http://dx.doi.org/10.1145/309844.309849

http://dx.doi.org/10.1145/1041410.1041421

Referências 203

Computing Machinery (ACM), 2007. p. 449. ISBN 9781595936868. Disponível em:<http://dx.doi.org/10.1145/1247480.1247531>. Citado na página 214.

180 MATE, S. et al. Ontology-based data integration between clinical and research systems.PLOS ONE, Public Library of Science (PLoS), v. 10, n. 1, p. e0116656, jan 2015. Disponível em:<http://dx.doi.org/10.1371/journal.pone.0116656>. Citado na página 214.

181 CRUZ, I.; XIAO, H. The role of ontologies in data integration. Engineering IntelligentSystems, v. 13, n. 4, p. 245–252, 2005. Citado 2 vezes nas páginas 214 e 215.

182 LINKOVá, Z. Ontology-based schema integration. SOFSEM, 2007. Citado 4 vezes naspáginas 214, 215, 217 e 221.

183 KONTCHAKOV, R.; RODRÍGUEZ-MURO, M.; ZAKHARYASCHEV, M. Ontology-based data access with databases: A short course. In: RUDOLPH, S. et al. (Ed.). Reasoning Web.Semantic Technologies for Intelligent Data Access. Springer Science Business Media, 2013.LNCS 8067, p. 194–229. Disponível em: <http://dx.doi.org/10.1007/978-3-642-39784-4_5>.Citado 3 vezes nas páginas 215, 219 e 221.

184 KLEIN, M. Combining and relating ontologies: An analysis of problems and solutions. In:Proceedings of the International Joint Conference on Artificial Intelligence - IJCAI. [S.l.: s.n.],2001. Citado 3 vezes nas páginas 11, 215 e 216.

185 NOY, N. F.; KLEIN, M. Ontology evolution: Not the same as schema evolution. Knowledgeand Information Systems, Springer Science Business Media, v. 6, n. 4, p. 428–440, mar 2004.ISSN 0219-1377. Disponível em: <http://dx.doi.org/10.1007/s10115-003-0137-2>. Citado napágina 217.

186 ALASOUD, A.; HAARSLEV, V.; SHIRI, N. A hybrid approach for ontology integration.In: Proceedings of the International Conference on Very Large Data Bases - VLDB. Trondheim,Norway: [s.n.], 2005. Citado na página 217.

187 WACHE, H. et al. Ontology-based information integration: A survey of existing approaches.In: Proceedings of the International Joint Conference on Artificial Intelligence - IJCAI. Seattle:[s.n.], 2001. p. 108–117. Citado 2 vezes nas páginas 11 e 218.

188 DOAN, A. et al. Learning to map between ontologies on the semantic web. In:Proceedings of the eleventh international conference on World Wide Web - WWW02. Association for Computing Machinery (ACM), 2002. p. 662–673. Disponível em:<http://dx.doi.org/10.1145/511446.511532>. Citado na página 219.

189 DAVID, J. et al. The alignment api 4.0. Semantic Web, IOS Press, v. 2, n. 1, p. 3–10, jan.2011. ISSN 1570-0844. Citado 2 vezes nas páginas 219 e 220.

190 LI, J. et al. Rimom: A dynamic multistrategy ontology alignment framework. IEEETrans. Knowl. Data Eng., Institute of Electrical & Electronics Engineers (IEEE), v. 21, n. 8, p.1218–1232, aug 2009. Disponível em: <http://dx.doi.org/10.1109/tkde.2008.202>. Citado napágina 219.

191 CULLOT, N.; GHAWI, R.; YÉTONGNON, K. Db2owl : A tool for automaticdatabase-to-ontology mapping. In: CECI, M.; MALERBA, D.; TANCA, L. (Ed.). Proceedingsof the 15th Italian Symposium on Advanced Database Systems - SEBD. Torre Cano, Fasano,Italy: [s.n.], 2007. p. 1–4. Citado na página 220.

http://dx.doi.org/10.1145/1247480.1247531


http://dx.doi.org/10.1007/978-3-642-39784-4_5

http://dx.doi.org/10.1007/s10115-003-0137-2

http://dx.doi.org/10.1145/511446.511532

http://dx.doi.org/10.1109/tkde.2008.202

Referências 204

192 EHRIG, M.; STAAB, S.; SURE, Y. Framework for ontology alignment and mapping. In:ASHPOLE, B. et al. (Ed.). Proceedings of the Conference on Knowledge Capture - K-CAP. [S.l.]:CEUR Workshop Proceedings, 2005. v. 156, p. 72–76. Citado na página 221.

193 BRICKLEY, D.; GUHA, R. Rdf schema 1.1. In: W3C. [s.n.], 2014. Disponível em:<https://www.w3.org/TR/rdf-schema/>. Citado na página 222.

194 DOU, D.; MCDERMOTT, D.; QI, P. Ontology translation on the semantic web. J. DataSemant. II, Springer Science Business Media, LNCS 3360, p. 35–57, 2005. ISSN 03029743.Disponível em: <http://dx.doi.org/10.1007/978-3-540-30567-5_2>. Citado na página 223.

195 KETLER, K. Case-based reasoning: An introduction. Expert Systems with Applications,Elsevier BV, v. 6, n. 1, p. 3–8, jan 1993. Disponível em: <http://dx.doi.org/10.1016/0957-4174(93)90014-W>. Citado na página 224.

196 KOLODNER, J. L. An introduction to case-based reasoning. Artificial IntelligenceReview, Springer Science Business Media, v. 6, n. 1, p. 3–34, 1992. Disponível em:<http://dx.doi.org/10.1007/BF00155578>. Citado na página 224.

197 MAIN, J.; DILLON, T. S.; SHIU, S. C. K. A tutorial on case based reasoning. In: GIL, Y. etal. (Ed.). Soft Computing in Case Based Reasoning. Galway, Ireland: Springer Science BusinessMedia, 2001. p. 1–28. Disponível em: <http://dx.doi.org/10.1007/978-1-4471-0687-6_1>.Citado na página 224.

198 SLADE, S.; HENRY, P. Case-based reasoning : A research paradigm. AI Mag., v. 12, n. 1,p. 42–55, 1991. Citado na página 224.

199 WATSON, I. Case-based reasoning is a methodology not a technology. Knowledge-BasedSystems, Elsevier BV, v. 12, n. 5-6, p. 303–308, oct 1999. ISSN 09507051. Disponível em:<http://dx.doi.org/10.1016/S0950-7051(99)00020-9>. Citado na página 224.

200 TULVING, E. Episodic and semantic memory. In: TULVING, E.; DONALDSON, W.(Ed.). Organ. Mem. New York, New York, USA: Academic Press, 1972. cap. 10, p. 381–403.Citado na página 224.

201 SCHANK, R. C.; KOLODNER, J. L. Retrieving information from an episodic memory orwhy computers’ memories should be more like people’s. In: Proceedings of the InternationalJoint Conference on Artificial Intelligence - IJCAI. Tokyo, Japan: Morgan Kaufmann Publishers,1979. p. 766–768. Citado na página 224.

202 SCHANK, R. C.; KOLODNER, J. L.; DEJONG, G. Conceptual information retrieval. In:SIGIR. Dublin: Butterworth & Co. Kent, 1980. p. 94–116. Citado na página 224.

203 SCHANK, R. C. Dynamic Memory: A Theory of Reminding and Learning in Computersand People. New York, NY, USA: Cambridge University Press, 1983. Citado 2 vezes naspáginas 224 e 236.

204 SUSSMAN, G. J. A Computational model of skill acquisition. Cambridge, 1973. Citadona página 224.

205 ALTHOFF, K.; KOCKSKäMPER, S.; FAUPEL, B. Knowledge acquisition in the domainof cnc machining centers: the moltke approach. In: BOOSE, J. H.; GAINES, B. R. (Ed.).Proceedings of the International Conference on Knowledge Engineering and KnowledgeManagement - EKAW. Paris: AFCET, 1989. p. 1–17. Citado na página 225.

https://www.w3.org/TR/rdf-schema/

http://dx.doi.org/10.1007/978-3-540-30567-5_2

http://dx.doi.org/10.1016/0957-4174(93)90014-W

http://dx.doi.org/10.1016/0957-4174(93)90014-W

http://dx.doi.org/10.1007/BF00155578

http://dx.doi.org/10.1007/978-1-4471-0687-6_1

http://dx.doi.org/10.1016/S0950-7051(99)00020-9

Referências 205

206 AAMODT, A. Knowledge-intensive case-based reasoning and sustained learning. In:AIELLO, L. (Ed.). ECAI-90. Stockholm: Pitman Publishing, 1990. p. 1–6. Citado 2 vezes naspáginas 227 e 231.

207 DÍAZ-AGUDO, B.; GONZÁLEZ-CALERO, P. A. An architecture for knowledge intensiveCBR systems. In: Lecture Notes in Computer Science. Springer Science Business Media, 2000,(LNCS, v. 1898). p. 37–48. Disponível em: <http://dx.doi.org/10.1007/3-540-44527-7_5>.Citado 5 vezes nas páginas 227, 234, 235, 238 e 239.

208 MILLE, A. From case-based reasoning to traces-based reasoning. AnnualReviews in Control, Elsevier BV, v. 30, n. 2, p. 223–232, jan 2006. Disponível em:<http://dx.doi.org/10.1016/j.arcontrol.2006.09.003>. Citado na página 228.

209 COVER, T.; HART, P. Nearest neighbor pattern classification. IEEE Trans. Inform. Theory,Institute of Electrical & Electronics Engineers (IEEE), v. 13, n. 1, p. 21–27, jan 1967. Disponívelem: <http://dx.doi.org/10.1109/TIT.1967.1053964>. Citado na página 228.

210 WETTSCHERECK, D.; AHA, D. W. Weighting features. In: Case-Based ReasoningResearch and Development. Springer Science Business Media, 1995. (LNCS, v. 1010), p.347–358. Disponível em: <http://dx.doi.org/10.1007/3-540-60598-3_31>. Citado na página228.

211 BOYER, R. S.; MOORE, J. S. A fast string searching algorithm. Communications ofthe ACM, Association for Computing Machinery (ACM), v. 20, n. 10, p. 762–772, oct 1977.Disponível em: <http://dx.doi.org/10.1145/359842.359859>. Citado na página 228.

212 KARP, R. M.; RABIN, M. O. Efficient randomized pattern-matching algorithms. IBMJournal of Research and Development, IBM, v. 31, n. 2, p. 249–260, mar 1987. ISSN 0018-8646.Disponível em: <http://dx.doi.org/10.1147/rd.312.0249>. Citado na página 228.

213 PLAZA, E. et al. A logical approach to case-based reasoning using fuzzy similarityrelations. Information Sciences, Elsevier BV, v. 106, n. 1-2, p. 105–122, abr. 1998. Disponívelem: <http://dx.doi.org/10.1016/S0020-0255(97)10008-1>. Citado na página 228.

214 SLONIM, T.; SCHNEIDER, M. Design issues in fuzzy case-based reasoning.Fuzzy Sets and Systems, Elsevier BV, v. 117, n. 2, p. 251–267, jan 2001. Disponível em:<http://dx.doi.org/10.1016/S0165-0114(99)00055-X>. Citado na página 228.

215 CHENG, Y.; MELHEM, H. G. Monitoring bridge health using fuzzy case-based reasoning.Advanced Engineering Informatics, Elsevier BV, v. 19, n. 4, p. 299–315, oct 2005. Disponívelem: <http://dx.doi.org/10.1016/j.aei.2005.07.002>. Citado na página 228.

216 RESNIK, P. Using information content to evaluate semantic similarity in a taxonomy. In:Proceedings of the International Joint Conference on Artificial Intelligence - IJCAI. [S.l.: s.n.],1995. v. 1, p. 6. ISBN 1-55860-363-8, 978-1-558-60363-9. ISSN 1045-0823. Citado na página229.

217 PESQUITA, C. et al. Semantic similarity in biomedical ontologies. PLoS Comput Biol,Public Library of Science (PLoS), v. 5, n. 7, p. e1000443, jul 2009. ISSN 1553734X. Disponívelem: <http://dx.doi.org/10.1371/journal.pcbi.1000443>. Citado 2 vezes nas páginas 229 e 242.

218 BENABDERRAHMANE, S. et al. IntelliGO: a new vector-based semantic similaritymeasure including annotation origin. BMC Bioinformatics, Springer Nature, v. 11, n. 1, p. 588,2010. Disponível em: <http://dx.doi.org/10.1186/1471-2105-11-588>. Citado na página 229.

http://dx.doi.org/10.1007/3-540-44527-7_5

http://dx.doi.org/10.1016/j.arcontrol.2006.09.003

http://dx.doi.org/10.1109/TIT.1967.1053964

http://dx.doi.org/10.1007/3-540-60598-3_31

http://dx.doi.org/10.1145/359842.359859

http://dx.doi.org/10.1147/rd.312.0249

http://dx.doi.org/10.1016/S0020-0255(97)10008-1

http://dx.doi.org/10.1016/S0165-0114(99)00055-X

http://dx.doi.org/10.1016/j.aei.2005.07.002

http://dx.doi.org/10.1371/journal.pcbi.1000443

http://dx.doi.org/10.1186/1471-2105-11-588

Referências 206

219 GREGO, T.; COUTO, F. M. Enhancement of chemical entity identification in text usingsemantic similarity validation. PLoS ONE, Public Library of Science (PLoS), v. 8, n. 5, p. e62984,may 2013. ISSN 19326203. Disponível em: <http://dx.doi.org/10.1371/journal.pone.0062984>.Citado na página 229.

220 STAHL, A.; ROTH-BERGHOFER, T. R. Rapid prototyping of CBR applications withthe open source tool myCBR. In: Lecture Notes in Computer Science. Springer ScienceBusiness Media, 2008. v. 5239, p. 615–629. Disponível em: <http://dx.doi.org/10.1007/978-3-540-85502-6_42>. Citado 2 vezes nas páginas 229 e 238.

221 BACH, K. et al. A case-based reasoning approach for providing machine diagnosis fromservice reports. In: Case-Based Reasoning Research and Development. Springer ScienceBusiness Media, 2011, (LNCS, v. 6880). p. 363–377. ISBN 978-3-642-23290-9. Disponível em:<http://dx.doi.org/10.1007/978-3-642-23291-6_27>. Citado na página 229.

222 MANTARAS, R. L. D. et al. Retrieval, reuse, revision and retention in case-based reasoning.The Knowledge Engineering Review, Cambridge University Press (CUP), v. 20, n. 03, p. 215, sep2006. ISSN 0269-8889. Disponível em: <http://dx.doi.org/10.1017/S0269888906000646>.Citado na página 229.

223 KOLODNER, J. L. Case-based reasoning. In: KENT, A.; WILLIAMS, J. (Ed.). Encycl.Comput. Sci. Technol. New York, NY, USA: Marcel Dekker, 1995. cap. Case-based, p. 1–39.Citado 2 vezes nas páginas 229 e 238.

224 CRAW, S.; WIRATUNGA, N.; ROWE, R. C. Learning adaptation knowledge to improvecase-based reasoning. Artificial Intelligence, Elsevier BV, v. 170, n. 16-17, p. 1175–1192, nov2006. Disponível em: <http://dx.doi.org/10.1016/j.artint.2006.09.001>. Citado na página 230.

225 DÍAZ-AGUDO, B. et al. Noticeably new: Case reuse in originality-driven tasks.In: Lecture Notes in Computer Science. Springer Science Business Media, 2008.(LNAI, v. 5239), p. 165–179. ISBN 3540855017. ISSN 03029743. Disponível em:<http://dx.doi.org/10.1007/978-3-540-85502-6_11>. Citado 2 vezes nas páginas 230 e 231.

226 MARKOVITCH, S.; SCOTT, P. D. The role of forgetting in learning. In: Proceedings ofthe International Conference on Machine Learning - ICML. Ann Arbor: Morgan KaufmannPublishers, 1988. p. 459–465. Citado na página 231.

227 SMYTH, B.; KEANE, M. T. Remembering to forget: A competence-preserving casedeletion policy for case-based reasoning systems. In: Proceedings of the 14th international jointconference on Artificial intelligence - IJCAI. Montreal: [s.n.], 1995. p. 377–382. Citado 2 vezesnas páginas 231 e 232.

228 ZHU, J.; YANG, Q. Remembering to add: Competence-preserving case-addition policiesfor case base maintenance. In: Proceedings of the International Joint Conference on ArtificialIntelligence - IJCAI. Stockholm: Morgan Kaufmann Publishers, 1999. p. 234–239. Citado napágina 232.

229 MUNOZ-AVILA, H. Case-base maintenance by integrating case-index revision andcase-retention policies in a derivational replay framework.Computational Intell, Wiley-Blackwell,v. 17, n. 2, p. 280–294, may 2001. Disponível em: <http://dx.doi.org/10.1111/0824-7935.00145>.Citado na página 232.


http://dx.doi.org/10.1007/978-3-540-85502-6_42

http://dx.doi.org/10.1007/978-3-540-85502-6_42

http://dx.doi.org/10.1007/978-3-642-23291-6_27

http://dx.doi.org/10.1017/S0269888906000646

http://dx.doi.org/10.1016/j.artint.2006.09.001

http://dx.doi.org/10.1007/978-3-540-85502-6_11

http://dx.doi.org/10.1111/0824-7935.00145

Referências 207

230 ONTAÑÓN, S.; PLAZA, E. Collaborative case retention strategies for CBR agents. In:Case-Based Reasoning Research and Development. Springer Science Business Media, 2003,(LNAI, v. 2689). p. 392–406. Disponível em: <http://dx.doi.org/10.1007/3-540-45006-8_31>.Citado na página 232.

231 SALAMÓ, M.; LÓPEZ-SÁNCHEZ, M. Adaptive case-based reasoning using retentionand forgetting strategies. Knowledge-Based Systems, Elsevier BV, v. 24, n. 2, p. 230–247, mar2011. ISSN 09507051. Disponível em: <http://dx.doi.org/10.1016/j.knosys.2010.08.003>.Citado na página 233.

232 BERGMANN, R.; KOLODNER, J.; PLAZA, E. Representation in case-based reasoning.The Knowledge Engineering Review, Cambridge University Press (CUP), v. 20, n. 03, p. 209, sep2005. ISSN 0269-8889. Disponível em: <http://dx.doi.org/10.1017/S0269888906000555>.Citado na página 233.

233 GEBHARDT, F. et al. Reasoning with Complex Cases. Boston, MA: Springer US, 1997.250p p. ISBN 978-1-4613-7859-4. Citado na página 233.

234 BAREISS, R.; PORTER, B.; WIER, C. Protos: An Exemplar-Based Learning Apprentice.Austin, Texas, USA, 1987. 1–15 p. Citado 2 vezes nas páginas 234 e 237.

235 GöKER, M. H.; ROTH-BERGHOFER, T. The development and utilizationof the case-based help-desk support system HOMER. Engineering Applications ofArtificial Intelligence, Elsevier BV, v. 12, n. 6, p. 665–680, dec 1999. Disponível em:<http://dx.doi.org/10.1016/S0952-1976(99)00037-8>. Citado na página 234.

236 LENZ, M.; BURKHARD, H.-D. Case retrieval nets: Basic ideas and extensions. In:GöRZ, G.; HöLLDOBLER, S. (Ed.). Lecture Notes in Computer Science. Berlin, Heidelberg:Springer Science Business Media, 1996. (LNCS, v. 1137), p. 227–239. Disponível em:<http://dx.doi.org/10.1007/3-540-61708-6_63>. Citado na página 234.

237 RECIO-GARCÍA, J. A. jCOLIBRI : Una plataforma multi-nivel para la construcción ygeneración de sistemas de Razonamiento Basado en Casos. 335pp. p. Tese (PhD Thesis) —Universidad Complutense de Madrid, 2008. Citado 5 vezes nas páginas 11, 235, 238, 239 e 241.

238 ASSALI, A. A.; LENNE, D.; DEBRAY, B. Case retrieval in ontology-based CBR systems.In: KI 2009: Advances in Artificial Intelligence. Springer Science Business Media, 2009. (LNAI,v. 5803), p. 564–571. Disponível em: <http://dx.doi.org/10.1007/978-3-642-04617-9_71>.Citado na página 235.

239 GUO, Y.; HU, J.; PENG, Y. A CBR system for injection mould design based on ontology:A case study. Computer-Aided Design, Elsevier BV, v. 44, n. 6, p. 496–508, jun 2012. ISSN0010-4485. Disponível em: <http://dx.doi.org/10.1016/j.cad.2011.12.007>. Citado na página235.

240 KOLODNER, J. L. Organizing memory and keeping it organized. In: Proceedings of theFirst National Conference on Artificial Intelligence - AAAI. Stanford: AAAI Press, 1980. p.331–333. Citado na página 236.

241 KOLODNER, J. L. Organization and retrieval in a conceptual memory for events. In:Proceedings of the International Joint Conference on Artificial Intelligence - IJCAI. Vancouver,Canada: [s.n.], 1981. p. 227–233. Citado na página 236.

http://dx.doi.org/10.1007/3-540-45006-8_31

http://dx.doi.org/10.1016/j.knosys.2010.08.003

http://dx.doi.org/10.1017/S0269888906000555

http://dx.doi.org/10.1016/S0952-1976(99)00037-8

http://dx.doi.org/10.1007/3-540-61708-6_63

http://dx.doi.org/10.1007/978-3-642-04617-9_71

http://dx.doi.org/10.1016/j.cad.2011.12.007

Referências 208

242 SIMPSON, R. L. A computer model of case-based reasoning in problem solving: aninvestigation in the domain of dispute mediation (analogy, machine learning, conceptualmemory). Tese (Doutorado) — Georgia Institute of Technology, 1985. Citado na página 236.

243 KOLODNER, J. L.; SIMPSON, R. L. The MEDIATOR: Analysis of an early case-basedproblem solver 4. Cognitive Science, Wiley-Blackwell, v. 13, n. 4, p. 507–549, oct 1989.Disponível em: <http://dx.doi.org/10.1207/s15516709cog1304_2>. Citado na página 236.

244 ALTERMAN, R. An adaptive planner. In: KEHLER, T.; ROSENSCHEIN, S. (Ed.).Proceedings of the Fifth National Conference on Artificial Intelligence - AAAI. Philadelphia:AAAI Press, 1986. p. 65–69. Citado na página 236.

245 BAIN, W. M. A case-based reasoning system for subjective assessment. In: KEHLER,T.; ROSENSCHEIN, S. (Ed.). Proceedings of the Fifth National Conference on ArtificialIntelligence. Philadelphia: AAAI Press, 1986. p. 523–527. Citado na página 236.

246 HAMMOND, K. J. Chef: A model of case-based planning. In: KEHLER, T.;ROSENSCHEIN, S. (Ed.). Proceedings of the Fifth National Conference on ArtificialIntelligence. Philadelphia: AAAI Press, 1986. p. 267–271. Citado na página 237.

247 COUNSELOR, T. HYPO: A Precedent-based legal reasoner. Amherst, Massachusetts,1987. Citado na página 237.

248 KOTON, P. Reasoning about evidence in causal explanations. In: Proceedings of theSeventh National Conference on Artificial Intelligence - AAAI. St. Paul, Minnesota: AAAI Press,1988. p. 256–261. Citado na página 237.

249 AAMODT, A. A Knowledge-Intensive, Integrated Approach to Problem Solving andSustained Learning. 302p p. Tese (Doutorado) — University of Trondheim, 1991. Citado napágina 237.

250 MANAGO, M. et al. Induction and reasoning from cases. In: WESS, S.; ALTHOFF,K.-D.; RICHTER, M. (Ed.). Proceedings of the European Workshop on Case-Based Reasoning -EWCBR. Kaiserslautern, Germany: Springer Verlag, 1993. p. 313–318. Citado na página 237.

251 ABáSOLO, C.; PLAZA, E.; ARCOS, J.-L. Components for case-based reasoning systems.In: Lecture Notes in Computer Science. Springer Science Business Media, 2002, (LNCS,v. 2504). p. 1–16. Disponível em: <http://dx.doi.org/10.1007/3-540-36079-4_1>. Citado napágina 237.

252 MYRHAUG, H. et al. AmbieSense – a system and reference architecture for personalisedcontext-sensitive information services for mobile users. In: Lecture Notes in Computer Science.Springer Science Business Media, 2004, (LNCS, v. 3295). p. 327–338. Disponível em:<http://dx.doi.org/10.1007/978-3-540-30473-9_31>. Citado na página 237.

253 LECH, T. C. et al. The ambiesense multi-agent system: Architecture report. In: . [S.l.: s.n.],2004. p. 1–66. Citado na página 237.

254 BICHINDARITZ, I. Mémoire: A framework for semantic interoperability of case-basedreasoning systems in biology and medicine. Artificial Intelligence in Medicine, Elsevier BV, v. 36,n. 2, p. 177–192, feb 2006. Disponível em: <http://dx.doi.org/10.1016/j.artmed.2005.10.009>.Citado 2 vezes nas páginas 237 e 238.

http://dx.doi.org/10.1207/s15516709cog1304_2

http://dx.doi.org/10.1007/3-540-36079-4_1

http://dx.doi.org/10.1007/978-3-540-30473-9_31

http://dx.doi.org/10.1016/j.artmed.2005.10.009

Referências 209

255 BAHLS, D.; ROTH-BERGHOFER, T. Explanation support for the case-based reasoningtool mycbr. In: Proceedings of the Twenty-Second AAAI Conference on Artificial Intelligence -AAAI. Vancouver, Canada: AAAI Press, 2007. p. 1844–1845. ISBN 1577353234. Citado napágina 237.

256 SCHULZ, S. Cbr-works: A state-of-the-art shell for case-based application building. In:MELIS, E. (Ed.). Proceedings of the German Workshop on Case-Based Reasoning - GWCBR.Würzburg, Germany: University of Würzburg, 1999. p. 166–175. Citado 2 vezes nas páginas237 e 238.

257 BOUQUET, P. et al. Contextualizing ontologies.Web Semantics: Science, Services andAgents on the World Wide Web, Elsevier BV, v. 1, n. 4, p. 325–343, oct 2004. ISSN 15708268.Disponível em: <http://dx.doi.org/10.1016/j.websem.2004.07.001>. Citado na página 238.

258 Esteem Software Incorporated. ESTEEM: Enabling Solutions Through ExperienceModeling. San Mateo, 1995. Disponível em: <http://www.stottlerhenke.com/solutions/decision_support/esteem.htm>. Citado na página 238.

259 The Apache Software Foundation. OpenNLP. 2010. Disponível em: <https://opennlp.apache.org/>. Citado na página 242.

260 CUNNINGHAM, H. et al. Getting more out of biomedical documents withGATEs full lifecycle open source text analytics. PLoS Comput Biol, Public Library ofScience (PLoS), v. 9, n. 2, p. e1002854, feb 2013. ISSN 1553734X. Disponível em:<http://dx.doi.org/10.1371/journal.pcbi.1002854>. Citado na página 242.

http://dx.doi.org/10.1016/j.websem.2004.07.001

http://www.stottlerhenke.com/solutions/decision_support/esteem.htm

http://www.stottlerhenke.com/solutions/decision_support/esteem.htm

https://opennlp.apache.org/

https://opennlp.apache.org/

http://dx.doi.org/10.1371/journal.pcbi.1002854

Parte IV

Apêndices

211

A Integração de Bancos de Dados

De acordo com 170, o problema de integração de dados é decorrente do problema deintegração de informações. A integração da informação é o resultado da combinação de sistemasexistentes de modo a formar um novo, que propicia aos usuários uma ilusão de interação comum sistema único (170). Ainda segundo 170, existem dois motivos principais para realizar aintegração entre sistemas:

1. A visão integrada de sistemas facilita o acesso a informações e reuso, a partir de um pontode acesso único; e

2. É necessário integrar dados de sistemas de informações complementares para satisfazeruma demanda organizacional, de forma a disponibilizar uma fonte mais abrangente.

Ambos os pontos levantados por 170 descrevem a integração de fontes de dados comomeio para alcançar a integração da informação. Especificamente sobre a integração da informação,esta é o processo em que a entrada é um conjunto de BDs, e o produto é uma descrição unificadados esquemas de dados de entrada (171). Adicionados a isso, são incluídas as descrições demapeamentos entre as fontes, de forma a suportar o acesso integrado através de um esquemasimilarmente integrado (171).

Outra visão sobre o que é integração de dados é apresentada por 172, 173. Esses autoresdescrevem que a integração de dados disponibiliza um esquemamediador, permitindo a criação deconsultas. Adicionalmente, para resolver estas consultas é necessária a utilização de mapeamentos,que descrevem as correspondências entre as fontes de dados de uma forma mais abrangente(esquema global, ou mediado) em comparação com os esquemas individuais (ou local) de cadauma das fontes (173).

De acordo com 174, um sistema de integração de dados I construído com a é constituídopor uma tripla < G,S,M > em que:

• G é um esquema global escrito em uma linguagem LG sobre um alfabeto AG. O alfabetocorresponde a um símbolo para cada elemento deG, ou seja, uma classe, seG for orientadoa objeto ou baseado em ontologias, uma relação, se baseado no modelo relacional, entreoutros;

• S são os esquemas fonte, escritos com uma linguagem LS sobre um alfabeto AS; e

• M , os mapeamentos entre G e S, constituído por uma séria de expressões do tipo:

onde qG e qS são duas consultas criadas com a mesma aridade sobre o esquema G e S, respecti-vamente.

Apêndice A. Integração de Bancos de Dados 212

qS qG,qG qS

Consultas qS são criadas em uma linguagem LM , S sobre o alfabeto AS; e, consultas qG

são criadas em uma linguagem LM,G sobre o alfabeto AG (174). Intuitivamente, uma assertivado tipo qS qG descreve que uma entidade representada pela consulta qS sobre as fontescorresponde a uma entidade específica do esquema global, descrito na consulta qG (174). Oinverso também é verdadeiro(174).

A abordagem de integração de dados local, também chamada de Local-as-View (LAV),um mapeamentoM associa para cada membro s de S uma consulta qG sobre o esquema G (174).Dessa forma, a linguagem de consulta LM,S possibilita a criação de, apenas, expressões descritasno alfabeto AS (174). Em outras palavras, isso significa que as consultas são criadas sobre oesquema global tendo, como parâmetros componentes, apenas da fonte local, e os elementos deS são descritos na forma: em que cada elemento s é representado por uma consulta qG.

s qG

Já a abordagem Global-as-View (GAV), o mapeamentoM associa para cada membro gdeG uma consulta qS em S. Em outras palavras, uma consulta escrita na linguagem LM,G permiteexpressões dentro do alfabeto AG. Dessa forma, um mapeamento escrito no Global-as-View éum conjunto de assertivas escritas sobre os elementos de G na forma: em que cada elemento g é

g qS

representado por uma consulta qS .

Do ponto de vista prático, e como descrito por 174, a diferença entre Global-as-View(GAV) e Local-as-View (LAV) reside na complexidade em processar consultas construídassegundo LAV.

Primeiramente, para unir sistemas e permitir que eles conversem para produzir infor-mações de forma integrada, pressupõe a resolução de diferenças existentes entre os diversossistemas. Problemas frequentes de integração de informação têm relação com (170):

• Arquitetura;

• Componentes e funcionalidades do sistema;

• Tipo (alfanumérico, textual, multimídia) e estruturação (semi estruturado, não estruturado,estruturado) de informação gerida pelo sistema;

• Requisitos relacionado à autonomia dos componentes do sistema;

• Utilização que será dada ao sistema integrado;


• Desempenho; e

• Recursos humanos, financeiros, entre outros disponíveis.

Esses problemas são atrelados, diretamente, a heterogeneidade entre os sistemas. Deacordo com 170 a heterogeneidade existente é relacionada, principalmente, a diferenças nosseguintes níveis:

1. Hardware e sistema operacional utilizado;

2. Software de gerenciamento;

3. Modelos de dados, esquemas e semântica;

4. Middleware;

5. Interface do usuário;

6. Regras de negócio; e

7. Restrições de integridade.

O problema de integração entre bases de dados tem ligação direta com os itens 2 e 3. Como surgimento das primeiras abordagens de integração, por volta da década de 1980 (170), elaseram baseadas nas noções de integração de modelos funcionais ou relacionais, disponibilizandosoluções específicas em esquemas globais. A estratégia inicial de integração de dados apresentavalimitações no âmbito de abstrações, classificação e o uso de taxonomias para organização evocabulário compartilhado.

Essas limitações foram minimizadas com a adoção de estratégias de integração orientadasa objeto. A estratégia baseada em objetos possibilitava, além da desejada integração de dados, ahomogeneização estrutural entre diferentes fontes (170). Inicialmente tratando apenas de dadosestruturados, com o crescimento da Internet foi evidenciado o interesse por fontes de dados semiestruturadas - eXtensible Markup Language (XML), JavaScript Object Notation (JSON), entreoutros - ou não estruturadas - textos, áudio, vídeo, entre outros (170).

Entretanto, até esse ponto, o tratamento da semântica dos dados era limitado, permitindoa interpretação equivocada de entidades descritas nos dados. Um exemplo é o uso do termo"pessoa" para descrever o indivíduo que apresenta uma conta bancária, ou que realiza determinadatarefa (mesmo ambos referindo-se ao ser humano). A interpretação sobre o conteúdo incluídonos dados, pela falta de uma representação padronizada, leva a entendimentos diferentes sobreuma entidade por indivíduos diferentes. Até esse ponto, nenhuma abordagem havia trabalhado anoção semântica da integração.


Para contornar essa limitação, foi introduzida a ideia de integração semântica, que érelacionada à criação de mapeamentos entre objetos de um modelo computacional para ummodelo baseado no mundo real, minimizando as diferenças nas interpretações (175). Quanto asolução para os problemas semânticos relacionados à integração de dados, pode ser empregadauma representação exaustiva (i.e. o mais completo quanto é possível) sobre o que a entidaderepresenta no mundo real.

Quanto a representação do conteúdo semântico utilizado para integrar BDs diversos, aliteratura descreve o uso de ontologias como uma possível solução (176, 177, 178, 170, 147, 179,180) para representação de conhecimento em um ambiente de integração.

Na próxima seção, e foco do presente trabalho, serão apresentados os principais conceitosrelacionados à integração de bancos de dados mediados por ontologias.

A.1 Integração semântica

A integração de dados é a área de estudo que tem como problema principal a combinaçãode dados de diferentes fontes e disponibilizar uma visão unificada para os dados (174). 181descreve que a integração de dados permite manipular dados de forma transparente entre múltiplasfontes de dados heterogêneas. Esses sistemas são aplicáveis em diversos contextos, e.g. integraçãode informações corporativas, integração de dados biomédicos, sistemas de informação geográfica,e aplicações de comércio eletrônico (e-commerce) (181).

Uma forma de realizar integração de dados é através da integração semântica, que é oprocesso de utilização de uma representação conceitual (e.g. uma oumais ontologias) para auxiliarna identificação e recuperação de dados, incluindo seus relacionamentos. Com a integraçãosemântica, é possível eliminar possíveis heterogeneidades:

• Terminológica, pela utilização de diferentes vocabulários em dois ou mais BDs;

• Organizacional, por disponibilizar uma representação única para o conteúdo de BDs;

• Conceitual, por utilizar descrições explícitas na descrição das entidades do domínio, bemcomo cada uma é interpretada.

Segundo 181, a forma conceitual de representação mais indicada são as ontologias, devidoàs capacidades já mencionadas nesta tese. De maneira geral, 170, a integração semântica ofereceas capacidades de agrupar, combinar ou completar os dados de diferentes fontes (170). Isso épossível pela representação formal e explícita, evitando que dados semanticamente incompatíveissejam utilizados (170).

Para 182, as ontologias e bancos de dados estão estreitamente relacionados. A principaldiferença é o propósito. Ontologias são utilizadas para descrever o significado dos conceitos de


uma porção do conhecimento (ou de um domínio). Já os bancos de dados apresentam um modelo,geralmente, específico voltado para uma solução (182). O que distingue a integração semânticada integração de dados é a forma como os dados são tratados. Para 183, a descrição formal doconteúdo disponível em ontologias é mais rica, o que aumenta as chances de uma integração sermais bem sucedida (são extraídos dados mais relevantes e precisos).

Entretanto, realizar integração semântica não é uma tarefa trivial. A seguir, são descritosos principais problemas para realizar a integração com ontologias.

A.1.1 Problemas Relacionados

Em um cenário real, diferentes fontes de dados são criadas, organizadas e mantidas pordiferentes organizações, com propósitos diferentes. É de se esperar que dados de mesma natureza(biológico, gerencial, financiero) sejam organizados de maneira diferente em diferentes fontes dedados. De fato, dados podem ser representados de diferentes formas, com níveis de abstraçãodiferentes, gerando heterogeneidade dos dados (177).

Segundo 181, para que seja possível realizar integração semântica, é necessário resolveros seguintes problemas de heterogeneidade:

• Sintaxe — causado pelo uso de diferentes modelos ou linguagens (como UML ou ER);

• Estrutura — diferenças no esquema de dados, com entidades diferentes utilizadas pararepresentar o mesmo dado. Por exemplo, a agregação de instituição ao usuário em um BD,quando devem ser representados separadamente; e

• Semântica — conceitos diferentes sobre o significado ou interpretação de um ou maisdados para contextos. Por exemplo, o cliente e o usuário são conceitos utilizados emcontextos diferentes para descrever uma pessoa.

Segundo 184, há uma série de problemas que interferem no processo de integraçãosemântica (figura 71):

Entre os problemas descritos por 184, alguns são considerados mais relevantes para ocontexto de integração semântica:

• Nível de linguagem. Problemas relacionados à sintaxe podem ocorrer, entretanto, e.g.,construtores ou conceitos disponíveis em uma linguagem (como owl:disjointWith presentena linguagem OWL) podem não existir em outras linguagens (não é possível expressar apropriedade owl:disjointWith com a linguagem RDF); e

• Nível de ontologia. Mesmo quando as fontes estejam descritas sobre a mesma linguagem,problemas ainda podem ser encontrados. Duas ontologias podem apresentar fundamentaçãoem teorias diferentes, o que pode impactar na forma de representar classes entre diversas


Figura 71 – Fatores que afetam a integração semântica (184).

Fatores que afetam tarefas de combinações de ontologias

Problemas práticos Incompatibilidades ontológicas versionamento

Achar alinhamentos

Diagnóstico

Reprodutibilidade

Usabilidade

Fatores sociais de cooperação

Nível de linguagem Nível de ontologia

Sintaxe

Representação lógica

Semântica de primitivos

Expressividade da linguagem

Agregação

Generalização

Conceitualização

Cobertura

Escopo do conceito

Explicação

Terminológico Estilo de Modelagem

Codificação

Sinônimos

Homônimos

Hiper-/hipônimos

Descrição do conceito

Paradigma

Identificação

Traceabilidade

Tradução

ontologias. Como exemplo, a adoção da ontologia GFO para representar tempo apresentadiferenças com a BFO, mais popular para a representação de ontologias formais.

Para exemplificar, a tabela 87 apresenta uma breve comparação entre as ontologias AKTReference Ontology1 e eBiquity Person Ontology2. Ambas descrevem o domínio de congressos eeventos acadêmicos de perspectivas diferentes, mas escritos na mesma linguagem (DL).

Tabela 87 – Comparação entre duas ontologias para detectar problemas de heterogeneidade dosdados.

AKT Reference Ontology eBiquity Person OntologyDiferentes termos para PhD-Student PhDStudentos mesmo conceitosMesmo termo para Project —Apenas o projeto Project — Projetos passados econceitos distintos atual propostas de projetoEscopo Inclui journals e publicações Inclui estudantes e palestrantesDiferentes bases Journal é uma classe journal é uma relaçãoontológicasGranularidade Professor-In-Academia adjunct, affiliated,

associate, principal

Mesmo que duas ontologias simples descrevam o mesmo domínio, elas não estão livresde problemas de heterogeneidade. Por terem sido criadas em OWL, não existem problemas emnível de linguagem. Entretanto, diversos problemas em nível de ontologia são reconhecíveis1 http://swl.slis.indiana.edu/repository/owl/aktportal.owl2 http://ebiquity.umbc.edu/ontology/person.owl


(185). Para minimizar esse tipo de problema, nesta tese, utilizamos ontologias que apresentam amesma fundamentação teórica, no caso a BFO.

Para auxiliar no processo de integração semântica, a literatura descreve algumas soluções.A seguir, uma breve introdução sobre as soluções existentes.

A.1.2 Soluções Existentes

Há duas abordagens principais para a integração de dados (182):

• Materialização — uma nova fonte de dados é criada a partir de uma integração com outrasfontes; e

• Virtualização — os dados são extraídos das fontes.

Na abordagem de integração materializada, uma cópia dos dados é feita (182). Então,quando houver a necessidade de inserir novos dados, os dados previamente copiados precisamser mesclados com os novos. A abordagem de integração virtual tem como base uma interfacepara extração de dados em diferentes fontes (182). Essa abordagem é indicada em integrações degrandes fontes de dados (onde materializar torna-se impraticável) ou fontes de dados que mudamcom bastante frequência (como alterações no esquema ou nos tipos de dados).

Essas duas abordagens descrevem como os dados podem ser integrados e utilizados.Existem outras abordagens que descrevem profundamente como os sistemas de integração devemser construídos, de modo que seja possível extrair dados relevantes das fontes.

A.1.2.1 GAV, LAV e GLAV

As abordagens mais comuns para a integração de semântica são oGlobal-as-View (GAV),Local-as-View (LAV) e Global-Local as View (GLAV) (186). O GAV consiste em mapear osconceitos do esquema global com os conceitos dos esquemas locais. O LAV consiste em definiros esquemas locais como um conjunto de visões que são mapeadas com o esquema global. OGLAV é uma abordagem híbrida. Na figura 72, uma visualização breve das abordagens.

A abordagem GAV (72.a) utiliza uma ontologia global como vocabulário de consultaúnico para diversas fontes. Entretanto, conforme os esquemas locais vão mudando, é necessáriorevisar os mapeamentos.

A abordagem LAV (72.b) permite a troca dos esquemas locais sem afetar o esquemaglobal. Isso acontece pelo fato de que os esquemas locais são definidos como visões sobre as fonteslocais. Entretanto, essa abordagem eleva a complexidade, gerando impacto no processamento deconsultas por necessitar reescrever consultas para as diversas fontes.

O modelo híbrido GLAV (72.c) apresenta uma ontologia global que aglutina ontologiaslocais como vocabulário de consulta e mapeamento para os BDs. Considerando o problema


Figura 72 – Abordagens para integração: a) GAV, b) LAV e c) GLAV (187).

a)Ontologia

global

Banco de Dados_A

Banco de Dados_B

Banco de Dados_N

...

b)

Banco de Dados_A

Banco de Dados_B

Banco de Dados_N

...

Ontologia Local_A

Ontologia Local_B

...Ontologia Local_N

c)

Banco de Dados_A

Banco de Dados_B

Banco de Dados_N

...

Ontologia Local_A

Ontologia Local_B

...Ontologia Local_N

Ontologia global

apresentado nesta tese, o modelo GLAV é o mais indicado, pois permite que seja utilizada umaontologia global (BTL2) para organizar as ontologias que funcionam como vocabulário local(GO, ChEBI e PRO). Assim, a disponibilização de um vocabulário único é simplificado, porpermitir o uso de diversas ontologias para recuperar entidades dos bancos de dados, nas mesmaslinguagens das ontologias locais.

A.1.2.2 OIS e OBDA

Para realizar tarefas de integração semântica, o Ontology Integration System (OIS) foidescrito por 176 como um framework para integração de ontologias. Formalmente, um OntologyIntegration System (OIS) é uma tripla {G,S,MG,S }, ondeG é a ontologia global, S é o conjuntode ontologias locais eMG,S é o mapeamento entreG e S. No Ontology Integration System (OIS)existem três componentes principais:

• Ontologia Global. Fornece uma visão global e unificada das ontologias locais;

• Ontologias Locais. São ontologias heterogêneas e independentes. É onde estão as instân-cias e axiomas; e

• Alinhamentos. Link semântico que relaciona os conceitos da ontologia global com osconceitos das ontologias locais.

Outra abordagem, o Ontology-Based Data Access (OBDA), apresenta a funcionalidadede integração por meio de uma ontologia global como vocabulário para consultar bancos de dados


locais (183), como o GAV e GLAV. A peculiaridade do OBDA é que a ontologia é mapeadacom os bancos de dados, e as consultas feitas para as ontologias são traduzidas em consultasStructured Query Language (SQL). Essas consultas são direcionadas aos BDs correspondentese executadas nos bancos de dados.

De forma simplificada, no OBDA existem três componentes principais:

• Ontologia Global. Fornece uma visão global e unificada dos esquemas dos bancos dedados locais;

• Bancos de Dados Locais. São fontes de dados heterogêneas e independentes. É onde estãoos dados; e

• Mapeamentos. Link semântico que relaciona os conceitos da ontologia global com osesquemas dos bancos de dados locais.

Tanto no OIS, quanto no OBDA, há uma ontologia que representa um esquema global e unificado,as fontes locais (outras ontologias e os BDs) e o link semântico (mapeamentos) entre a ontologiaglobal e as fontes locais.

Nos dois casos, existe uma camada semântica que garante um alto nível representacionalsobre a camada de dados. Por meio dos links semânticos, é possível relacionar os conceitosdo esquema global com os conceitos dos esquemas locais, diminuindo (assim) os problemasrelacionados à heterogeneidade dos dados (188). Essas tarefas de link semântico (alinhamentode ontologias e mapeamento de bancos de dados) serão descritas brevemente na próxima seção.

Neste trabalho, para permitir que a estratégia de KI-CBR recupere casos (e.g. dados)utilizando ontologias, é necessária uma ferramenta que estenda as capacidade do jCOLIBRI2.Para tal, criamos um framework simplificado que permite empregar GLAV e OBDA para realizarKI-CBR altamente heterogêneo.

A.1.2.3 Alinhamento e Mapeamento

Os alinhamentos (matching) representam a correspondência semântica entre elementosde duas ou mais ontologias (classes, propriedades e relacionamentos) (189). Eles podem sercriados manualmente ou (semi-)automaticamente, com o auxílio de ferramentas (189).

Segundo 190, dadas duas ontologiasO1 eO2, o alinhamento encontra, para cada entidadeem O1, uma entidade correspondente em O2. O1 é conhecida como a ontologia fonte e O2 comoontologia alvo.

Uma visão esquemática do processo de alinhamento é apresentada na 73.

A Figura 73 representa o alinhamento entre duas classes (Class1 e Class2) de duas on-tologias (O1 e O2) distintas. Nesse exemplo, a similaridade entre estes recursos é descrita por


Figura 73 – Representação de um alinhamento entre duas classes de ontologias distintas.

meio de edoal : Class. Expressive and Declarative Ontology Alignment Language (EDOAL)é uma linguagem que permite representar a correspondência semântica entre entidades de di-ferentes ontologias (189). A linguagem EDOAL é utilizada por uma ferramenta automatizadapara viabilizar a criação de alinhamentos, a partir da comparação de classes de duas ontologias,a Alignment API (189).

O mapeamento é similar ao alinhamento, tendo como única diferença que o mapeamentoacontece entre as ontologias locais e os bancos de dados locais (em GLAV). De acordo com 191,no processo de mapeamento, os componentes do banco de dados (tabelas, colunas e restrições)são comparados com os conceitos da ontologia (classes, relações e indivíduos), a fim de encontrarsimilaridades.

Nesse contexto, o mapeamento pode ser descrito como um conjunto de correspondênciasentre os componentes do banco de dados e os conceitos da ontologia (191). Uma visão esquemáticado processo de mapeamento é apresentada na Figura 74.

Figura 74 – Representação de um mapeamento entre uma coluna de um banco de dados e umapropriedade de uma ontologia.

No exemplo da Figura 74, é realizado um mapeamento entre a tabela Table1 de um bancode dados e uma classe Class1 de uma ontologia. A similaridade dessa coluna com a propriedadeé descrita com d2rq:PropertyBridge. D2RQ é uma plataforma para acessar bancos de dadosrelacionais por meio de consultas SPARQL (157). Ela possui uma linguagem de mapeamentopara descrever a similaridade entre os conceitos da ontologia com o esquema do banco de dados.


Os alinhamentos e mapeamentos desempenham um papel crucial na reescrita (transfor-mação) de consultas, uma etapa importante no processo de integração semântica (182). Outrafunção dos alinhamentos é mesclar ontologias, assim como os mapeamentos podem ser utilizadospara mesclar bancos de dados (192).

Neste trabalho, disponibilizamos uma solução de integração que reutiliza métodos dealinhamento (Alignment API) e mapeamento (semi)automatizado (a partir do D2RQ). Entretanto,utilizaremos apenas as funções de mapeamento, visto que as ontologias utilizadas obedecem aum mesmo esquema ontológico. Todavia, isso não limita a capacidade de distribuir consultaspara várias fontes. Sobre esse tópico, a próxima seção apresenta brevemente como se dá essatarefa.

A.1.2.4 Mediação de Consultas

Quando duas ou mais fontes de dados precisam ser integradas virtualmente (como emLAV ou GLAV), é preciso criar mecanismos que direcionem as consultas na linguagem dasontologias para a fonte correta. Isso pode aumentar a complexidade da integração (183).

Para evitar a criação de diferentes consultas, existem técnicas para reescrevê-las utilizandoalinhamentos (entre ontologias) ou mapeamentos (entre ontologias e bancos de dados). Esseprocedimento é conhecido como mediação de consultas.

Basicamente, uma consulta é construída e submetida à ontologia global. Em seguida,ela é reescrita para os BDs locais, com a ajuda de um tradutor que utiliza os mapeamentoscomo referência. Essa estratégia permite que uma única consulta possa ser utilizada para extrairinformações de múltiplas fontes heterogêneas de dados (183).

Por exemplo, descrevemos como uma consulta é reescrita para as fontes locais. A ConsultaA.1 ilustra uma consulta SPARQL no vocabulário de uma ontologia fictícia. De forma similar,foi criada uma consulta SQL (Consulta A.3), por meio de um mapeamento entre um BD e aontologia da consulta A.1 (ambas fictícias).

Consulta A.1 – Consulta SPARQL original.

PREFIX s t o r e : < h t t p : / / o n t o l ogy . owl / s t o r e . owl#>SELECT ?name WHERE {?x a s t o r e : Book . ?x s t o r e : name ?name}

Na reescrita da consulta SPARQL, é possível observar que a classe store : Book (daConsulta A.1) foi substituída pela classe bookstore : Textbook (da Consulta A.2), assim como apropriedade store : name foi substituída pela propriedade bookstore : title.

Consulta A.2 – Consulta SPARQL reescrita para ontologia.

PREFIX book s t o r e : < h t t p : / / o n t o l ogy . owl / b o ok s t o r e . owl \# >


SELECT ?name WHERE {?x a book s t o r e : Textbook . ?x book s t o r e : t i t l e ?name}

A classe store : Book (da Consulta A.1) foi substituída pela tabela books (da ConsultaA.3), assim como a propriedade store : name foi substituída pela coluna bookT itle.

Consulta A.3 – Consulta SQL reescrita para banco de dados.

SELECT bookT i t l e AS name FROM books ;

O procedimento de reescrita e distribuição de consultas já realizado de forma automática, porferramentas como o D2RQ.

Utilizaremos essa estratégia para distribuir as consultas para os BDs no vocabulário daontologia de forma automática.

A.1.3 Aplicações de Integração Semântica

A seguir, e para ilustrar os conceitos relacionados à integração semântica, serão breve-mente descritas algumas soluções existentes.

A.1.3.1 OnTop

O OnTop (13) é um framework de integração semântica baseado nos conceitos de OBDA.No OnTop, há a utilização de uma terminologia escrita em Resource Description FrameworkSchema (RDFS)(193) ou OWL e dados registrados em BDs relacionais.

Considerando as bases no OBDA, o OnTop associa a cada termo do nível conceitual, umaconsulta às fontes de dados. Como descrito por 13, o núcleo do OnTop é um engenho (chamadopelo nome Quest) capaz de reescrever consultas SPARQL para SQL.

O OnTop é distribuído em 3 formas principais:

• Plugin para o Protégé;

• Biblioteca escrita em Java; e

• Uma interface de consulta SPARQL.

Do ponto de vista prático, o OnTop funciona como uma aplicação intermediária (mediadapelo usuário) que possibilita o mapeamento do conteúdo de um ou mais bancos de dados para umaontologia. Dessa forma, o usuário detém controle sobre o conteúdo mapeado e (necessariamente)tem que conhecer, tanto a estrutura da ontologia, quanto a estrutura dos bancos de dados. Paraessa estrutura resultante é disponibilizada uma interface de consulta em SPARQL ao usuário.


A.1.3.2 OntoGrate

147, 136 descreveu a necessidade pela criação de uma estratégia de integração quepermita entender, consultar e processar resultados de consultas sem a necessidade (do usuário)conhecer toda a heterogeneidade. Além disso, tem como ideal a concepção que as fontes dedados e ontologias utilizadas são variadas e em grande quantidade. Assim, e pela ausência de umframework unificado (à época), 136 propôs a criação do OntoGrate.

A concepção do OntoGrate é relacionada à geração de uma "ontologia do banco dedados". A partir dela, é possível criar consultas utilizando a linguagem OWL-QL, posteriormentetraduzida em SQL e o resultado convertido para alguma linguagem relacionada à Web semântica.Um dos focos principais do OntoGrate é o OntoEngine (194), capaz de realizar a tradução deconsultas conjuntivas e a descoberta de mapeamentos.

O funcionamento do OntoGrate consiste em minerar ontologias e bancos de dadosrelacionados, para definir como o conteúdo de ambos é mapeado. Esse mapeamento é, então,utilizado pelo OntoEngine para construir a integração semântica de facto. Entre as ontologias eas regras de mineração de dados, há wrappers que realizam conversões de linguagem. O mesmose aplica aos mapeamentos definidos e o OntoEngine para tradução de consultas criadas em níveldas ontologias e traduzidas em consultas SQL para os BDs utilizados. Um procedimento peculiardo OntoGrate é a transformação, através de heurísticas, da estrutura de um ou mais bancos dedados e a utilização dela no processo de consulta (i.e. mapeamentos).

A.1.3.3 OntoFusion

O OntoFusion (138) é uma ferramenta de integração semântica capaz de realizar mapea-mento e unificação. Na tarefa de mapeamentos, cada BD é mapeado para um esquema virtual,e.g. ontologias. No processo de unificação, os esquemas virtuais são unidos no sentido de formarum esquema virtual único.

No OntoFusion, o processo de criação de esquemas virtuais é realizado a partir deontologias de domínio relacionadas especificamente ao que é descrito nos dados. Por exemplo,um BD sobre animais é mapeado para uma ontologia que representa animais. Para cada esquemadefinido (com o auxílio do usuário), é criado um arquivo na linguagem XML.

O processo de unificação, i.e. união de dois ou mais esquemas virtuais, é realizado deforma automatizada. O usuário seleciona as fontes que pretende integrar, os esquemas virtuaisdefinidos e as ontologias necessárias. A unificação é realizada a partir de um algoritmo queverifica, dentro da hierarquia das ontologias, correspondências entre classes e relações. Consultassão criadas utilizando operadores específicos para valores inteiros (>, <, >=, <=, =!) e para cadeiasde caracteres (AND, OR). Resultados são computados como indivíduos da ontologia unificada.

224

B Raciocínio Baseado em Casosde Conhecimento Intensivo

Nesta seção será apresentado o estado da arte relacionado aos métodos de RaciocínioBaseado em Casos (RBC), especificamente sobre os de conhecimento intensivo (RBC-CI).Adicionalmente, como parte integrante da estratégia de RBC-CI utilizada neste trabalho, descre-veremos, de forma breve, a integração de bancos de dados mediada por ontologias.

B.1 Raciocínio Baseado em Casos - RBC

Raciocínio Baseado em Casos1 é conceituado como um ou mais métodos que visamapresentar soluções para problemas apresentados pelo usuário, a partir de uma memória de casospassados (195, 196, 197, 198, 199).

O RBC é concebido de forma associada a estudos da psicologia e da Inteligência ArtificialIA, de maneira a apresentar soluções para descrever o conteúdo da memória semântica2 e amemória episódica3 (200). 201, 202, 203 desenvolveram uma teoria baseada na lembrança, i.e.novas situações lembram casos passados. Em outras palavras, problemas atuais podem ter sidoproblemas em tempo anterior (198).

Na prática, uma aplicação que utiliza métodos de RBC recebe os problemas apresentadospelo usuário e verifica, em uma base de problemas (ou de casos), quais problemas antigos sãoequivalentes ou próximos ao problema atual, aplicando soluções soluções (ou modificando-as)para solucionar o problema do usuário (figura 75). Ao final, é apresentada uma solução ao usuário.Por exemplo, um sistema dessa natureza (aplicável no contexto de um restaurante) deve ser capazde identificar que uma pessoa não gosta de macarrão e, automaticamente, sugerir pratos em queesse carboidrato não esteja presente.

Uma das primeiras aplicações em RBC foi descrita por 204. Esse trabalho descreve osistema Hacker, concebido para resolução de problemas. O Hacker foi construído como umabiblioteca de procedimentos identificados por índices, capaz de receber o problema do usuário eretornar uma solução (204).

Os métodos de RBC são estruturados em torno de uma estratégia que relaciona a Recu-peração, Reuso, Revisão e Retenção de soluções para o problema do usuário. Em cada umadessas quatro dimensões do processo de RBC, há procedimentos específicos que constituem a1 Do inglês, Case-based reasoning (CBR)2 necessária para o uso da linguagem3 fatos temporários

Apêndice B. RBC-CI 225

?

Usuário

Base de soluçõesBase de problemas

P1

P2

P3

P4

P5

S13

S589

S307

S4

S981

Aplicação

problema

resposta

Pusuário

equivalente

solução

Figura 75 – Resumo esquemático de uma aplicação que utiliza uma base de problemas e umabase de soluções para resolver problemas apresentados pelo usuário.

metodologia em si. Adicionalmente, os problemas e como resolvê-los ensejam a descrição ideale como os casos são representados.

Nos próximos tópicos, descreveremos o processo de RBC, como os casos são represen-tados, tanto da forma clássica, quanto em sistemas que utilizam conhecimento descrito comontologias (i.e.RBC-CI), e as principais aplicações de RBC descritas na literatura e pela indústria.O foco desta seção é sobre os métodos de RBC-CI e a utilização de ontologias, tendo em vista oobjetivo definido para a tese.

B.1.1 Processo de RBC

A estrutura clássica de um Raciocínio Baseado em Casos foi definida inicialmente por205, no final da década de 1980. Estes autores descrevem que o processo de RBC deve serconstruído sobre as seguintes tarefas:

• RECUPERAR o(s) caso(s) mais similar(es) ao problema;

• REUSAR a informação e o conhecimento guardado como princípio para resolver o pro-blema;

• REVISAR a solução identificada, avaliando a sua aplicabilidade, até sugerindo substitui-ções; e


• RETER as partes da solução e do problema que podem ser úteis no futuro.

Essas tarefas estão ilustradas na figura 76.

C o n h e c im e n to G e r a l

B a se d e C a so s

N o v o C a s o

N o v o C a s o

C a s o R e c u p e r a d o

C a s o R e s o lv id o

C a s o Te s ta d o e R e p a r a d o

C a s o A p r e n d id o

P ro b le m a

S o lu ç ã o C o n f irm a d a S o lu ç ã o S u g e r id a

Figura 76 – Processo de RBC, por 150.

O processo de RBC é iniciado quando um novo problema é apresentado (também chamadode novo caso). Para solucionar o problema, outro(s) caso(s) é(são) RECUPERADO(s). Porexemplo, um indivíduo se dirige a um restaurante para fazer uma refeição. O fato de o indivíduoser intolerante à lactose exclui quase que completamente todas as opções do cardápio (todascontêm traços de derivados lácteos). Para não perder o cliente, o atendente do restaurante prometeir verificar (na cozinha) uma ou mais sugestões de modificação ou prato exclusivo para o cliente,de forma a ganhar sua confiança. Outra maneira de exemplificar a recuperação, é um indivíduo(iluminador de eventos) tentando comprar uma lâmpada específica com 450 lúmens4 para iluminaruma festa, tendo que decidir entre o custo das lâmpadas e a economia de energia entre modelosincandescentes e Light Emitting Diode (LED).

No RBC, havendo uma solução imediata para o caso, ela é REUTILIZADA. Por exemplo,pode-se substituir os queijos utilizados nas saladas e sopas por tofu, ou remover o queijo eadicionar torradas de cortesia, ambas as soluções existentes na cozinha do restaurante. Caso sejado agrado do cliente, o prato é preparado de imediato. Do contrário, podem ser realizadas outrasmodificações na estrutura do prato, com adições, substituições ou remoção de ingredientes. No4 Unidade de medida de fluxo luminoso.


caso das lâmpadas, o LED consome menos eletricidade, mas apresenta custo elevado, enquantoa lâmpada incandescente tem um custo menor, mas consome muita energia.

No RBC, isso cabe à tarefa de REVISAR. Um ou mais testes são realizados para gerarnovas sugestões (adaptações). Por fim, com a nova solução (modificação nos pratos no exemplodo restaurante), o problema inicial é RETIDO de forma que fique disponível para ser utilizadoem problemas futuros (150). No exemplo do restaurante, ficam as sugestões de alteração decardápio ou modificação de receitas, caso outro cliente intolerante à lactose seja recebido. Jáno exemplo das lâmpadas, a economia de energia pode ser um critério menor, favorecendo alâmpada incandescente como solução.

Uma parte crucial do processo de RBC são as interações com o conhecimento geral emtodos os momentos do ciclo. O conhecimento geral pode ser formado, tanto a partir de uma basede casos, quanto com um modelo genérico para representar alguma parte do conhecimento dodomínio. Exemplos de modelo genérico são listas predefinidas para realizar modificações oua decisão gerada, a partir de regras. O conhecimento geral de um RBC auxilia na definição decomo as tarefas do ciclo de RBC serão realizadas.

206 propôs uma evolução ao modelo clássico, sobre o pressuposto que um RBC, alémde resolver problemas reais, pode aprender com isso. Para que isso seja possível, é necessárioutilizar uma representação do domínio para capturar o comportamento como uma estratégiade aprendizado. Assim, o formalismo de representação empregado deve ser capaz de descreverexplicitamente o conhecimento utilizado por um sistema ou aplicação RBC.

Para implementar essa proposta, 206 utilizou frames para capturar a semântica e descrevero domínio da aplicação do CREEK. A utilização de representações semânticas do domínio paraauxiliar métodos de RBC deu origem ao que hoje é conhecido por Raciocínio Baseado em Casosde Conhecimento Intensivo (RBC-CI).

Durante o final da década de 1990 e o início dos anos 2000, as ontologias passaram a serutilizadas como o formato de descrição do domínio, por apresentar formalização e possibilidadede utilizar raciocínio. Assim, o modelo clássico (figura 76), que apresentava conhecimento geral,foi modificado para incluir uma Knowledge Base (KB). Dessa forma, sistemas que utilizamRBC-CI passaram a incluir não só o conhecimento do domínio, mas também um modelo mentale a representação do comportamento interno do RBC como uma ontologia (44).

A principal vantagem em utilizar RBC-CI e ontologias é o fato de organizar e declarar abase de conhecimento de maneira formalizada, extensível, e ainda proporcionar um vocabuláriode consulta padronizado (44, 20). Vários trabalhos descrevem a utilização de Raciocínio Baseadoem Casos de Conhecimento Intensivo e ontologias para auxiliar o usuário. Exemplos são ostrabalhos de 206, 207, 44, 149, 20. Neste trabalho, utilizaremos uma estratégia de RBC-CI naconstrução de um protótipo para auxiliar o usuário no processo de interpretação de ontologias. ORBC-CI será utilizado para recuperar indivíduos nos BDs, conforme a representação ontológica


definida no capítulo 4.

Para descrever com mais detalhes como funciona o processo de RBC-CI, os próximostópicos descreverão como funciona cada etapa de recuperação, reuso e revisão, e retenção.

B.1.1.1 Recuperação

A primeira tarefa de um RBC-CI é a recuperação de casos, que é realizada a partir darecuperação de outros casos similares ao problema do usuário, a partir de uma base de casos (208).Assim, é necessário empregar uma medida de similaridade entre o problema e os casos-solução.

Desde os métodos de RBC clássicos, uma das formas mais utilizadas para a definição desimilaridade é com a aplicação de algoritmos que atribuem pesos aos componentes do problema(208). Um dos algoritmos mais utilizados é o k-Nearest Neighbor (kNN) (k vizinhos próximos,em tradução livre), descrito em 1967 por 209.

Com kNN, a definição de similaridade é determinada como a distância entre os conceitosdo problema e dos casos resposta. Formalmente, pode ser descrito como: dada uma consultaq e uma base de casos (ou biblioteca de casos) L, kNN recupera o conjunto K dos casos k’smais similares a q (i.e. o menos distante) em L, e prediz a maioria das classes através de pesospredeterminados como membros da classe de q. Objetivamente, em k-Nearest Neighbor (kNN)cada caso x = x1, x2, ..., xn, vc é definido como um conjunto de n (numéricas ou simbólicas)características, das quais vc representa os valores assumidos pela classe x. Assim, a distância édefinida como (210):

distância (x, q) =√√√√ n∑

f=1× diferença (xf , qf )2

A diferença é estimada segundo a equação:

diferença (x, q) =

|xf − qf | se f é numérico

0 se a característica é simbólica, e xf = qf

1, do contrário

significando que, se os valores das características f forem numéricos (N ), a diferença entre xe q é determinada pela subtração de seus valores. Se a mesma característica f existir em x e q,ambas serão iguais e não haverá diferença; e, assume o valor 1 do contrário (210).

A literatura descreve diversas abordagens que podem ser aplicadas ao cálculo de similari-dade. Como por exemplo:

• Métodos clássicos de substring matching (211, 159, 212), para definição de similaridadeentre palavras das consultas com extratos de texto ou em registros de bancos de dados;

• 213, 214, 215 utilizam lógica nebulosa (fuzzy logics, do inglês) para definir a similaridadeentre o problema e a base de casos;


• Métodos de similaridade semântica (216, 162, 217, 218, 219), baseados na similaridadeentre nós, utilizando classes e relações, definindo uma superclasse comum e representativa,análise de grafos, entre outros.

Para facilitar a escolha e aplicação dos métodos de similaridade na etapa de recuperaçãodo ciclo de RBC-CI, (220) propõe a ferramenta myCBR, que implementa diversos métodos emuma única aplicação, como uma biblioteca, disponibilizando diversos métodos de similaridadeoff-the-shelf para o desenvolvedor. Aplicações recentes de RBC-CI, como o trabalho apresentadopor 221, apresentam um sistema de suporte ao usuário sobre problemas em veículos utilizando omyCBR.

Após descrever o procedimento de recuperação e os métodos de similaridade, a próximaetapa é a descrição de como casos são reutilizados e revisados.

B.1.1.2 Reuso e Revisão

O procedimento relacionado ao reuso de casos pode ser simples, se uma ou mais soluçõespara um problema forem aplicadas diretamente. Entretanto, pode se tornar uma tarefa complexade resolver se existirem diferenças entre o problema e as soluções candidatas (222).

Nesses casos, é necessário permitir e sugerir uma ou mais adaptações nas soluçõesrecuperadas. De acordo com 223, até meados da década de 1990, existiam os seguintes mé-todos de adaptação de soluções (considerando apenas valores numéricos para a descrição decaracterísticas):

• Métodos de Substituição – tem como princípio básico a alteração de uma variável do casosolução com uma variável do caso problema:

– Re-instanciação – instanciar soluções antigas com novos objetos, por exemplo comomodificar uma receita de carne com arroz, por outra com feijão;

– Ajuste de Parâmetros – heurísticas de ajuste numérico nos parâmetros de recupe-ração, relacionando diferenças nas especificações do problema e da solução, porexemplo a modificação do valor de uma multa de trânsito pela gravidade da infração;

– Pesquisa Local – permite a utilização de uma fonte de conhecimento auxiliar (basede casos local ou do usuário) para recuperar valores novos, os quais possam substituirvalores antigos identificados como inapropriados para solucionar um dado problema,como por exemplo, a modificação do transporte utilizado em translado de ônibus portáxis entre o aeroporto e o hotel, por não haver ônibus disponíveis;

– Memória de Consulta – permite, tanto a utilização de fontes de conhecimentoauxiliares, como a base de casos para recuperar soluções que se apliquem ao problema.Por exemplo, o uso de uma ontologia externa a um sistema RBC para auxiliar narecuperação de casos;


– Busca Especializada – utiliza uma fonte de conhecimento auxiliar e uma base decasos, utiliza-os a fim de recuperar casos, mas auxiliado por heurísticas de buscaespecializadas;

– Substituição baseada em casos – de acordo com os resultados recuperados de umabase de casos utiliza estes para sugerir substituições para solucionar o problema (oprato principal é Yakisoba, entretanto por não haver ingredientes, outro prato Chinês,como o Yakimeshi, pode substituir o cardápio);

• Métodos de Transformação – modificação de um caso antigo para ser utilizado comosolução de um novo problema:

– Transformação de senso comum – baseado no uso de heurísticas de senso comumpara substituir, remover ou adicionar componentes a uma solução (mudança de umcomponente, como alterar o mouse de laser vermelho para laser azul);

– Reparo guiado por modelo – transformação mediada por um modelo causal (causa↔ efeito), por exemplo, em casos de doenças que se comportam segundo um modelopreestabelecido;

• Adaptação e reparo de propósito especial – utilizada para realizar adaptações específi-cas em domínios os quais não são suportados por um dos métodos anteriores (utilizadogeralmente em sistemas críticos);

• Repetição derivacional – utiliza o modelo que gerou a derivação de um caso antigopara derivar uma solução de um novo caso (modificar automaticamente uma solução dedrenagem para uma localidade, comparando com o regime pluviométrico da região deestudo).

De maneira geral, adaptações em valores numéricos são relacionadas à realização decálculos, muitas vezes para identificar as diferenças entre os valores no caso problema e apossível solução (224). Como descrito por 225, o processo de reuso é um tipo de problema debusca. Os métodos de reuso e adaptação são classificados em dois tipos mais utilizados: reusotransformacional, e reuso construtivista.

O reuso transformacional é considerado a técnica mais utilizada. Nela, o caso maissimilar é recuperado a partir da memória, cópia e aplicação de uma solução. Nesse meio, podeser necessário realizar uma modificação a partir da busca de outras soluções similares para oproblema. Esse processo frequentemente é suportado, tanto por conhecimento do domínio, quantopelo derivado dos próprios casos. Modificações podem ser geradas, até que seja definida umasolução ótima para reuso pelo usuário. (225)

Já o reuso construtivista é baseado na construção de uma nova solução para o novo casoa partir da base. O reuso construtivista é caracterizado por uma família de métodos baseados


em heurísticas de busca associadas à similaridade dos casos. A técnica do reuso construtivista ébaseada na representação do problema como um estado que pode ser modificado. A modificaçãode estados é realizada a partir de buscas por soluções parciais que, juntas, formarão a soluçãopara o problema.(225)

Nesta tese, não será utilizada nenhuma estratégia de reuso e revisão de casos, visto queo processo de recuperação é seguido diretamente pelo procedimento de retenção, como umainterpretação do BD. A seguir, uma breve descrição sobre os métodos de retenção de casosdescritos na literatura.

B.1.1.3 Retenção

O procedimento de retenção dos casos (descrito também como de aprendizado (206)) éuma etapa "fim". Após o usuário realizar a recuperação, mensurar como uma solução pode serutilizada sobre o problema e realizar as devidas adaptações, é pertinente utilizar uma estratégiapara definir o que será guardado na base de casos. Reter casos também significa enriquecer oconhecimento do RBC-CI para aplicar em problemas futuros.

226 foram os primeiros a considerar a forma como casos devem ser guardados. Demaneira geral, a maioria das abordagens torna disponível apenas uma parte da base de casos, jáque a aplicação da similaridade exclui o acesso a uma parte da base. Em sistemas que utilizamRBC, são empregadas técnicas baseadas em heurísticas para aprender casos específicos ou deletarcasos similares para evitar redundância (227).

227 apresentaram uma abordagem para executar a tarefa de retenção de casos. De acordocom esses autores, deve existir uma definição sobre os tipos de casos que compõem a base decasos, com referência à representatividade de cada um diante do todo (i.e. a base de casos). 227classificam os casos de acordo com os seguintes graus de importância:

• Pivô: problemas extremos, os quais só podem ser resolvidos por soluções únicas, comopor exemplo a definição de uma chave em uma fechadura;

• Abrangente: caso sejam removidos, diminuem as competências do sistema, pois são casosque auxiliam na ligação de conglomerados de casos sobre um mesmo tópico central, e.g.casos mais genéricos que auxiliam na resolução de problemas sobre um domínio, comotentar modificar um vegetal por outro, em uma salada;

• Suporte: caso especial do Abrangente em que todos os casos de um conglomerado re-presentam uma solução proporcional (i.e. semelhante) para um mesmo problema, comomodificar uma receita de feijão preto por outro, de mesma variedade e valor nutricional; e

• Auxiliar: apenas contribuem para o desempenho do sistema. É considerado Abrangentequando existe um caso na base mais genérico e que o engloba.


Tais competências são determinadas pela cobertura da base de casos e o quão simples éacessá-los. De acordo com 227, as competências dos casos devem ser computadas na inicializaçãode um sistema de RBC, e atualizadas apenas quando adicionado um novo caso na base.

227 descrevem (ainda) um método para realizar a retirada de novos casos da base decasos. O processo, chamado de footprint deletion (deleção por rastro, em tradução livre), defineos casos que podem ser removidos da base, e.g. removendo os casos que apresentam a menorcompetência (auxiliares) e, em último caso, os de maior competência (pivô).

Entretanto, de acordo com Zhu e Yang 228, a estratégia de deleção apresentada pelotrabalho de 227 é motivada pela necessidade em manter as competências da base de casos, pormeio da deleção. 228, 227 não apresentam uma distinção clara sobre como os casos auxiliaresdevem ser excluídos primeiro, em relação às outras classes, o que não garante as competênciasda base de casos (como um todo).

Por tais motivos, 228 propuseram um método de retenção de casos por meio de adições.Se casos e soluções novas forem identificadas (aumentando a cobertura da base sobre o domínio),estes devem ser adicionados. A similaridade entre os casos novos e os já presentes na base foiutilizada como critério. Assim, para um novo caso ser adicionado à base, sua adição deverá elevara cobertura da base, sobre os problemas apresentados, acima do nível de corte (63%).

229 descreveu o processo de retenção de casos como uma política baseada na contribuiçãoque os casos recuperados apresentam em relação à adaptação sobre as soluções existentes. Deacordo com o autor, esse processo pode ser realizado, levando em consideração o tamanhodo espaço de busca que foi percorrido para resolver o problema. O tamanho do espaço debusca percorrido, que (nesse caso) é definido tomando como princípio a quantidade de decisõesplanejadas para resolver o problema. Casos são retidos apenas se houver detrimento com os jáexistentes, dentro de um limite estipulado pelo usuário (threshold) (229).

230 descreveram como um agente (construído com RBC) pode utilizar-se da retençãopara aprender um novo caso. Para tal, o processo de retenção é dividido em duas principaisestratégias: retenção individual e processo de oferta. O primeiro é responsável por decidir se umcaso deve ser retido ou não; e o segundo, se o caso poderá ser passado para outro agente (em umambiente multi agentes) ou não.

O processo de retenção individual apresentado por 230 ainda pode ser subdividido naexecução de três tarefas:

• “Retenção por falha”: se houver diferenças entre o caso e a solução, o caso deve ser retido;

• “Nunca reter”: sem diferenças entre o caso e a solução, portanto significa que não há umcaso novo; e

• “sempre reter”: quando o sistema, independente de diferenças e semelhanças, entre asolução e o problema, armazena na base de casos.


231 propuseram realizar a retenção de casos, através da mensuração da discordância entreos casos recuperados (de uma base de casos para ser utilizada como solução) e o caso problema,sem a intervenção do usuário. Considerando que discordâncias geram resultados errôneos, elasdevem ser mantidas junto com as possíveis soluções, para ajudar o sistema a refinar (através dadistância entre a solução e o problema) com melhor qualidade a recuperação de casos no futuro(231).

Ainda no trabalho de 231, são apresentados outros dois métodos, os quais consideramquão bom é o conjunto de casos recuperados, e quando não reter um caso. O primeiro reside emdefinir quando um caso deve ser aprendido (guardado). Se a solução identificada apresenta poucaproximidade com a média de casos que é próxima à solução, então a solução nova deve ser retida,para aumentar a diversidade de soluções na base de casos.

Outro método apresentado, por 231, realiza a retenção de casos baseados simplesmenteem erros de classificação. De acordo com os autores, durante a etapa de recuperação, todos oscasos que não forem classificados (similaridade com outros da base) são automaticamente retidos.

A literatura descreve diversas soluções para retenção. Entretanto, os trabalhos oferecemsolução apenas para adição ou remoção de casos à base. Nesta tese, o problema (i.e. o novo caso)é retido a partir da propagação da interpretação do domínio e geração de um conjunto de classese axiomas para representar os dados (compreendidos também como casos).

B.2 Casos e formas de representação

Para que seja possível realizar as 04 tarefas básicas do processo de RBC, várias abordagensnecessitam que o caso seja representado de maneira adequada, devendo permitir o fácil acessoà aplicação, tanto de métricas de similaridade, quando de estratégias de reuso e revisão. Nestaseção serão descritas as principais abordagens de representação de casos, principalmente as queutilizam ontologias para RBC-CI.

B.2.1 Representação de Casos em RBC

232 descrevem que os trabalhos clássicos não apresentam uma definição clara de comoos casos são representados. Entretanto, (inicialmente) casos eram representados de forma nãoestruturada, e.g. como uma simples listagem atributo-valor (tuplas) entre o caso e a respectivasolução 233.

De acordo com 232, existem as abordagens simples:

• Representação característica-vetor: como uma lista predeterminada indicando como cadacaso pode ser classificado de acordo com as soluções. Esse tipo de representação dividesoluções de problemas em categorias, cada uma chamada de exemplar. A análise do caso


para achar uma solução é realizada diretamente pela classificação do problema, como parteda categoria. Esse tipo de representação é utilizada no sistema PROTOS (234);

• Representação baseada em frames, descrita anteriormente;

• Representação orientada a objeto: similar à representação por frames, mas os casos sãorepresentados como uma coleção de objetos, cada um descrito por um par atributo-valorclassificado hierarquicamente (235);

• Representação textual: apresenta uma estrutura composta por palavras e frases as quaissão organizadas, segundo a relevância para o conjunto de casos disponíveis na base. Abase de casos é organizada como uma rede em que os relacionamentos, entre os nós,são determinados pela similaridade entre o “caso problema” e o “caso solução”. Essarepresentação utiliza o mecanismo por palavras-chave ou frases que identificam o conteúdorelevante para auxiliar na recuperação de casos (236);

E as abordagens complexas:

• Representação Hierárquica: caso representado em múltiplos níveis de abstração e/oumúltiplos vocabulários. Utiliza vários níveis para representar o caso, de acordo com acomplexidade e especificidade da informação, semelhante à estrutura de uma ontologia;

• Generalização de Casos: casos genéricos possibilitam a utilização de soluções mais genéri-cas para os casos apresentados aos sistemas baseados em RBC. Esse tipo de representaçãoapresenta a peculiaridade de ser semelhante à estratégia clássica (representação em tuplas),mas apresentando variáveis as quais podem indicar as possibilidades inerentes às restriçõespresentes nos casos. Em comparação com as abordagens citadas, esta permite a introduçãode variáveis; e

• Representações particulares: são vinculadas a um determinado sistema ou tarefa, como asaplicações em RBC voltadas para a definição de planejamentos.

Como foco do presente trabalho, abordaremos a estratégia de representação hierarquizada,com o auxílio de ontologias.

B.2.2 Representação de Casos em aplicações de RBC-CI

Uma forma de representação de casos para RBC-CI foi apresentada por 207. Ontologiasforam propostas para representar o conhecimento do domínio e a estrutura de um sistema baseadoem RBC-CI.

A representação com ontologias ocorre a partir da definição de quatro passos principais(207):


(a) Idealização do domínio e identificação de outras ontologias, as quais podem ser reutilizadascomo base para a representação. Por exemplo, para modelar o domínio dos seres vivose processos biológicos, é necessário representar as características gerais dos seres vivos,organização anatômica, entre outros aspectos;

(b) As ontologias que irão compor o domínio deverão ser integradas de maneira a possibilitara hierarquização de classes e relações;

(c) Identificação de partes das ontologias que irão ser reutilizadas e exclusão de termos erelações não relevantes para o que se planeja recuperar do domínio, pois podem influenciarno desempenho geral do sistema;

(d) Permitir que mecanismos para incrementar ontologias possam ser utilizados, de forma acomplementar as definições do domínio.

Vários trabalhos (207, 43, 237, 20, 238, 239) se utilizam de ontologias para representaralgum aspecto do domínio, componentes do sistema, ou ainda a descrição de como se comportaum sistema em RBC-CI.

207, 43 propuseram a criação da CBROnto, servindo para integrar as ontologias dodomínio e o processo de RBC-CI; e, ser empregado como um framework genérico para criaraplicações em RBC-CI.

A CBROnto foi criada utilizando (como base) a Description Logics (DL), com o intuitode auxiliar na resolução da lacuna existente entre métodos de resolução de problemas e oconhecimento do domínio (43).

Além disso, a CBROnto incorpora conhecimento do domínio sobre as tarefas envolvidasem RBC-CI e sobre resolução de problemas, evidenciando aspectos gerais de sistemas baseadosem RBC-CI e as tarefas e métodos envolvidos (43). A CBROnto, por sua vez, foi concebida comoparte integrante do framework COLIBRI (43), o qual foi posteriormente atualizado para a versão2.0 como JCOLIBRI (237, 20).

O trabalho desenvolvido por 238 apresentou outra abordagem. Os autores propuseram acriação de uma ontologia baseada na descrição de “Caso”. Essa ontologia descreve os tipos decasos que estão presentes no sistema; “Descrição”, com a representação das principais partesque são esperadas como resultado pelo sistema; e, “Índice” como um modelo geral que podeser utilizado para integração de classes do domínio e as descrições dos casos. Em comparação aoutras abordagens que utilizam apenas classes e relações, 238 utilizam indivíduos para representarum caso como parte da ontologia.

239 apresentaram uma abordagem de RBC-CI com ontologias para auxiliar na recupera-ção de casos e indicar a solução. O domínio de exemplificação apresentado por esses autores foi


a criação de moldes injetáveis5. Para tal, os autores criaram uma ontologia de tarefa em framespara descreverem, de forma detalhada e hierarquizada, os possíveis componentes dos problemase dos casos disponíveis na base.

B.3 Aplicações em RBC

Uma das primeiras aplicações relacionadas ao desenvolvimento de uma solução baseadaem RBC remonta ao Computerised Yale Retrieval and Updating System (CYRUS) (240, 241).O CYRUS, tinha como principal função, recuperar fatos sobre alguns políticos estadunidenses.Um dos pontos cruciais desse sistema é a recuperação de eventos (descrito nessa proposta como’casos’) a partir da memória (ou banco de casos) e a reorganização da base de casos. A organizaçãoda memória do CYRUS foi baseada na teoria de memória de 203.

Durante o desenvolvimento do CYRUS, havia a preocupação de como a base de casos secomportaria. Para tal, era empregado o controle de indexação e a avaliação de similaridades, paraque a base de casos não crescesse de forma descontrolada (241). Interessantemente, a memória doCYRUS era organizada em Episodic Memory Organization Packets (E-MOP) (ou simplesmenteMOP) (241). O MOP apresenta uma estrutura organizada de forma parecida com uma rede. OE-MOP apresenta (241):

• Informação generalizada sobre os casos; e

• Estrutura em forma de árvore para indexar os eventos (i.e. casos) e as diferenças entre eles.

Além do CYRUS, muitos outros sistemas com objetivos acadêmicos foram desenvolvidos.A saber, alguns exemplos:

• MEDIATOR (242) apud (243). Um dos primeiros sistemas baseados emRBC. A principaltarefa do MEDIATOR era prover aconselhamento (com senso comum) sobre a resoluçãode disputas, analisando as demandas das partes e determinando áreas de concordância;

• PLEXUS (244). Sistema planejador adaptativo, o qual avalia uma situação e determinaa melhor solução para alcançar um objetivo. O sistema se utilizava de uma rede de co-nhecimento responsável por incluir representações taxonômicas, partonômicas, causal epapéis;

• JUDGE (245). Sistema desenvolvido para avaliar sentenças para crimes, incluindo assas-sinatos, assaltos e homicídios. O sistema utilizava generalizações e diferenciação de regraspara definir as sentenças;

5 Moldes injetáveis funcionam como um modelo para o molde definitivo na confecção de uma determinada peça.Por exemplo, para a confecção de um molde de arcada dentária, é utilizado um polímero plástico para reproduzira forma dos dentes de um indivíduo. Este molde, então, servirá para a confecção de um modelo final, idêntico àarcada dentária do indivíduo.


• CHEF (246). Sistema desenvolvido para desenvolver novas receitas, adaptando as tradici-onais da culinária chinesa para o paladar do consumidor;

• HYPO (247). Sistema desenvolvido para analisar aspectos de leis sobre transações secretas;

• CASEY (248). Sistema que avalia o registro médico de pacientes em busca de explicarproblemas cardíacos;

• PROTOS (234). Sistema de aprendizado para tarefas de classificação de heurísticas. Comoprincípio, o PROTOS se utiliza de um mecanismo geral de classificação de conhecimentoao mesmo tempo que promove assistência ao usuário;

• CREEK (249, 44). Ferramenta a qual tinha como propósito resolver problemas e aprenderem ambientes ricos em conhecimento, baseado em método de RBC. Utilizava frames comobase para representar conhecimento;

• INRECA (250). Solução baseada na combinação de regras de indução (KATE) e RBC(PATDEX). O INRECA serve para auxiliar na definição de tarefas de diagnóstico clínico.Entretanto, os autores afirmam que a solução é adaptável a situações diversas, em queseja necessário aproveitar o melhor das regras de indução e das análises de similaridadeprovidas pelos métodos de RBC;

• CAT-CBR (251). Plataforma de desenvolvimento de sistemas baseados em métodos deRBC. O CAT-CBR apresenta uma biblioteca de componentes estruturados hierarquica-mente. Cada componente é descrito tomando como base a Universal Problem SolverLanguage (UPML);

• AmbieSense (252, 253). Sistema multi agentes que realizava uma análise do contexto quecircunda o usuário e apresenta informações em sistema móvel. RBC era utilizado pararecuperar informações sobre a situação atual do usuário. Em 2005, o AmbieSense se tornouuma empresa6;

• Mémoire (254). Framework responsável por compartilhar e distribuir bases de casos e asrespectivas ontologias (no âmbito biomédico) utilizando a OWL, que é usada como basepara a troca de informações entre ontologias e sistemas baseados em métodos de RBC paraa biologia e medicina;

• myCBR (255, 149). O myCBR foi concebido como um aditivo acoplável (plugin) ao editorde ontologias Protégé. Baseado no CBR-WORKS (256), o myCBR utiliza instâncias declasses como base de casos, e classes como fonte de conhecimento primário, de formaque ambos sejam manipulados unicamente pelo próprio Protégé. Os pontos altos são aadição de diversos tipos de medidas de similaridade, ou a construção automatizada de umamedida de similaridade, caso nenhuma exista;

6 http://www.ambiesense.com/


• JCOLIBRI (207, 237, 20). Plataforma de assistência à implementação para usuários deRBC-CI. O JCOLIBRI provê arquitetura de referência para o desenvolvimento de sistemasbaseados em métodos de RBC-CI. Um dos pontos cruciais dessa abordagem é a utilizaçãode uma ontologia (CBROnto) como vocabulário intermediário entre a aplicação baseadaem métodos de RBC-CI e a ontologia de domínio a ser utilizada;

• KASIMIR (165). Sistema de suporte à decisão médica (oncologia) o qual emprega DLcomo linguagem de representação de conhecimento; Context OWL (C-OWL) (257) paracodificar a representação; e, métodos de RBC.

Também há a descrição de soluções provenientes da indústria. Alguns exemplos a con-siderar são: CBR-Express7, ESTEEM (258), K-Commerce8, Rete++9, CBR-Works (256), entreoutros.

Considerando os tópicos tratados pelos trabalhos desenvolvidos, é possível definir catego-rias (tópicos genéricos) de sistemas RBC. Essas categorias auxiliam na identificação da naturezade aplicação dos métodos desenvolvidos em RBC (Figura 77).

Os métodos de RBC podem ser classificados em:

• Planejamento (de ações), tomando como base os problemas e as possíveis ações a seremexecutadas;

• Design, resolução de problemas de modelagem com modificação e adaptação dos casospara atingir objetivos semelhantes;

• Aprendizado;

• Jurisprudência, sobre definições para aplicação de leis;

• Avaliação situacional (ou diagnóstico); e

• Ferramentas e Frameworks.

Uma análise semelhante foi realizada por 223.

Entre as aplicações listadas, há aplicações específicas em RBC-CI. As ferramentasCREEK (44), Mémoire (254), myCBR (220), Kasimir (165) e o JCOLIBRI (20) são soluçõesconstruídas para RBC-CI. Como parte desta tese, detalharemos de forma breve a ferramenta JCO-LIBRI2, utilizada como base para a o processo de interpretação ontológica (semi) automatizada.7 Desenvolvido pela Inference Corporation. A empresa foi adquirida pela EGAIN no ano 2000.8 Sistema desenvolvido por David Skyrme. Várias referências podem ser encontradas em

http://www.skyrme.com/kmarticles/index.htm9 Desenvolvido pela Haley Enterprise, Inc.


Métodos de Raciocínio Baseado

em Casos

Planejamento

Design

Jurisprudência

Aprendizado

Avaliação Situacional

Framework/Ferramenta

Plexus

CHEF

Protos

Judge

INRECA

HYPO

MEDIATOR

CASEY

MÉMOIRE

KASIMIR

Creek

CAT-CBR

AmbieSense

MyCBR

jCOLIBRI

Figura 77 – Classificação de métodos de Raciocínio Baseado em Casos por natureza da aplicação.

B.3.1 JCOLIBRI

O JCOLIBRI (207, 237, 20) é uma plataforma de suporte à implementação (frameworkem Java) de aplicações RBC-CI. Um dos pontos cruciais dessa abordagem é a utilização de umaontologia (CBROnto), como vocabulário intermediário entre a aplicação baseada em métodos deRBC-CI e a ontologia de domínio a ser utilizada.

O framework dispõe de duas versões:


• JCOLIBRI 1: primeira versão, composta de uma interface gráfica completa que orienta ousuário na concepção de um sistema de RBC-CI, sem a necessidade de conhecimento emlinguagens de programação e codificação;

• JCOLIBRI 2: uma nova arquitetura implementada em duas camadas: uma orientada paradesenvolvedores e outra orientada para designers. A nova estrutura é um framework abertopara desenvolvedores utilizarem RBC-CI em suas aplicações.

O JCOLIBRI2 foi construído a partir da ideia básica de separar tarefas e métodos deRBC-CI (RECUPERAR, REUSAR, REVISAR e RETER) que indicam os objetivos que o sistemadeve alcançar e, portanto, guiam a execução do sistema. O projeto em geral possui algumascaracterísticas relevantes:

• A curva de aprendizado necessária para o início do desenvolvimento de aplicações utili-zando o framework;

• Documentação e publicações;

• Arquitetura simplificada com a abstração de algumas funções aproveitadas de outrasbibliotecas;

• Código fonte aberto e escrito em Java, facilitando a integração com diversas bibliotecas;

• Uso da base de casos e ontologia por meio de connectors específicos; e

• Suporte à implementação dos mais variados tipos de aplicações de RBC (tabela 88).

Tabela 88 – Tipos de aplicações RBC suportados pelo JCOLIBRI2

Nome SintaxeEstruturas para a organizaçãoda base de casos

- Plana;- Hierárquica (com ontologias)- Baseada em aprendizagem de máquina;

Meios de persistência física paraa base de casos

- MySQL;- RACER- eXtensible Markup Language (XML);- etc;

Combinações de tarefas e métodosde similaridade e recuperação

- Disponibilizados a partir do reuso domyCBR

Tipos de representação para casos - Textos;- Par atributo-valor;- Representações orientadas a objetos;- Representações semi estruturadas;- Ontologias

As facilidades descritas sobre o JCOLIBRI2 motivaram a sua utilização neste trabalho.A seguir, será descrita a arquitetura do JCOLIBRI2 e o processo de RBC-CI.


B.3.1.1 Arquitetura do JCOLIBRI2

As funcionalidades do JCOLIBRI2 são descritas na arquitetura (figura 78).

APLICAÇÃO CBR

EXTENSÕES

CBR Textual

AVALIAÇÃO

EXEMPLOS TEXTUAIS

Recomendadores

Visualização

OntoBridge

Lucene

Carrot2

WordNet

Stemmer

GATE

OpenNLP

IE

CONNECTORS

Bancos de Dados(Hibernate)

TextoOntologia

(OntoBridge)

Camada de Persistência

Recuperar

Reter

Reusar

Revisar

Core

Base de Casos

Man

uten

ção

Pré-ciclo

Pó

s-ciclo

Figura 78 – Arquitetura JCOLIBRI2 (20, 237).

A arquitetura é composta de 2 níveis. A parte inferior (Persistência) é responsável pelogerenciamento das conexões com fontes externas de conhecimento, como bancos de dados,arquivos de textos ou ontologias. A parte superior (Aplicação) é responsável pela manipulaçãodos casos para a recuperação de resultados pela consulta do usuário.

A camada de aplicação é responsável por realizar a gestão do ciclo de etapas de RBC-CI,as sub etapas de comportamento da aplicação, a base de casos e o core da abordagem. Este últimoengloba as classes e interfaces de implementação mais importantes da solução. Na camada deaplicação, o desenvolvedor pode manipular a base de casos para a recuperação de informações eestender novas funcionalidades a partir do core.


É no nível de aplicação que o processo de RBC-CI é realizado, disponibilizando interfacespara outros sistemas ou extensões. Por exemplo, o JCOLIBRI2 provê interfaces para ferramentasde processamento de texto, como o OpenNLP (259) e o GATE (260).

B.3.1.2 Processo de CBR do JCOLIBRI2

Além de comportar as quatro etapas que formam o processo clássico de CBR (RECU-PERAR, REUSAR, REVISAR e RETER), as aplicações CBR desenvolvidas com jCOLIBRIpossuem ainda uma segmentação em três sub etapas (pré-ciclo, ciclo e pós-ciclo) no seu compor-tamento:

• Pré-ciclo —Carrega os casos e prepara a execução do aplicativo CBR;

• Ciclo — Executa uma etapa CBR utilizando a consulta (query) dada; e

• Pós-ciclo — Encerra a aplicação juntamente com o connector.

A tarefa de recuperação realizada pelo JCOLIBRI2 ocorre com a aplicação de medidasde similaridade, a fim de recuperar os casos mais adequados como solução para o problema dousuário. Na abordagem atual, é realizada quando a base de caso é avaliada de acordo com asrestrições descritas em medições de consulta do usuário e similaridade, capazes de lidar com asclasses da ontologia e indivíduos, de acordo com a consulta submetida pelo usuário.

Reutilizar está relacionado à tarefa de aplicar a solução recuperada mais adequada paraao problema do utilizador, por meio da execução de métodos de similaridade. Por vezes, durantea reutilização, é necessária alguma adaptação, a fim de modificar a solução recuperada maisadequada para o caso de satisfazer os requisitos do utilizador de uma forma mais específica. Ou,para melhorar a originalidade, e.g. avaliar o problema, e derivando novas soluções, de acordocom a pesquisa do utilizador.

Para o cálculo de similaridade, serão reutilizadas as métricas existentes no JCOLIBRI2que, além de serem orientadas a ontologias, são orientadas a aplicações de RBC-CI. De acordocom os requisitos descritos por 217, a métrica de similaridade aplicável ao problema a que sedestina esta tese é direcionada para a avaliação de cadeias de caracteres que definem classes (dasontologias) com as anotações disponíveis em registros de bancos de dados.

Um fator importante sobre o JCOLIBRI2 é a capacidade de utilizar raciocínio DL paravalidar a consistência das soluções apresentadas. Entretanto, isso requer uma representaçãoontológica ricamente axiomatizada, e os dados devem ser incluídos como indivíduos no corpo daontologia, diretamente. Nesta tese, propomos uma modificação na estratégia de recuperação eavaliação dos casos, de forma que seja possível utilizar diversos bancos de dados e ontologiasbiológicas.


A modificação a ser descrita no capítulo 6 inclui a utilização de integração de BDsbaseados em ontologias, permitindo o acesso e a fácil recuperação e aplicação da ontologia noprocesso de RBC-CI. Essa funcionalidade não é incluída em nenhum outro método de RBC-CIdescrito na literatura, sendo uma das contribuições deste trabalho.

No JCOLIBRI2, a etapa de Revisão é responsável pela verificação e aplicabilidadedo processo escolhido como uma solução para o problema do usuário; e reter, no sentido dearmazenar o problema e a solução aplicada.

O JCOLIBRI2, quando manipulando o conhecimento de bases de conhecimento comoontologias, retem casos de duas formas. A primeira, chamada de persistência mista, guardaos casos como uma colação de atributos na ontologia. Nessa estratégia, casos são guardadoscomo bancos de dados e os atributos são incluídos na ontologia como descrições de indivíduos.Ao acessar casos utilizando essa abordagem, indivíduos são recuperados em uma estratégia deintegração mediada por ontologias incluídas no OntoBridge.

A segunda forma de retenção é chamada de persistência completa. Esse método inclui omapeamento completo das instâncias para a ontologia, a partir de um conector específico, dispo-nível no JCOLIBRI2. Esse procedimento requer que o caso esteja completamente representadona ontologia como indivíduos e os respectivos atributos. Isso considerando que bases de casospodem ser formados por bancos de dados tradicionais.

Em nossa abordagem, a etapa de revisão é responsável por recuperar os componentesontológicos (classes e relações) derivados da interpretação dos registros dos bancos de dados.Assim, a retenção é feita a partir da geração de um novo arquivo de ontologia (OWL2) contendoa interpretação derivada do domínio.

B.4 Padrão de conversão OWL2SPARQL

Os padrões de conversão entre expressões escritas DL para a SPARQL segue um conjuntode padrões definidos por (155, 154). Estes padrões são recuperados diretamente do projetoOWL2SPARQL10 e utilizados para a conversão de consultas no IntegrativO CBR.

O processo de conversão entre expressões escritas em DL e SPARQL é baseado natradução direta de expressões. Para maiores detalhes sobre a formalização e a prova de que asemântica da DL ALC é correspondente à SPARQL, C.f. 155.

Para exemplificar, é assumida a existência de duas classes A e B, e relações arbitráriaschamadas por r e s. A seguir, alguns são disponibilizados axiomas em DL e o respectivo padrãode conversão.10 https://github.com/AKSW/OWL2SPARQL


B.4.1 Consultas

Tabela 89 – Axioma ASELECT DISTINCT ?xWHERE

{ ?x rdfs:type <http://onto.com/uri/A>}

Tabela 90 – Axioma ∃r.BSELECT DISTINCT ?xWHERE

{ ?x <http://onto.com/uri/r> ?s0 .?s0 rdfs:type <http://onto.com/uri/B>. }

Tabela 91 – Axioma B u ∃r.BSELECT DISTINCT ?xWHERE

{ ?x rdfs:type <http://onto.com/uri/B> .?x <http://onto.com/uri/r> ?s0 .?s0 rdfs:type <http://onto.com/uri/B>

}

Tabela 92 – Axioma A tBSELECT DISTINCT ?xWHERE

{ ?x rdfs:type <http://onto.com/uri/A>UNION?x rdfs:type <http://onto.com/uri/B>

}

Tabela 93 – Axioma ∃r. {a}

SELECT DISTINCT ?xWHERE

{ ?x <http://onto.com/uri/r> <http://onto.com/uri/a>}

Tabela 94 – Axioma ∀r.BSELECT DISTINCT ?xWHERE

FILTER NOT EXISTS {?x <http://onto.com/uri/r> ?s1FILTER NOT EXISTS {?s1 rdfs:type <http://onto.com/uri/B>}} }


Tabela 95 – Axioma {b} t {a}


{ ?x ?p ?oFILTER ( ?x IN (<http://onto.com/uri/b>, <http://onto.com/uri/a>) )}

Tabela 96 – Axioma ∃r. ({b} t {a})


{ ?x <http://onto.com/uri/r> ?s0FILTER ( ?s0 IN (<http://onto.com/uri/b>, <http://onto.com/uri/a>) )}

Tabela 97 – Axioma A u (∃r.self)


{ ?x rdfs:type <http://onto.com/uri/A> .?x <http://onto.com/uri/r> ?x}

Tabela 98 – Axioma ¬BSELECT DISTINCT ?xWHERE

{ FILTER NOT EXISTS {?x rdfs:type <http://onto.com/uri/B>}}

Tabela 99 – Axioma A u ¬BSELECT DISTINCT ?xWHERE

{ ?x rdfs:type <http://onto.com/uri/A>FILTER NOT EXISTS {?x rdfs:type <http://onto.com/uri/B>}}

Tabela 100 – Axioma B u (∃r (C u (∃s.A)))


{FILTER NOT EXISTS {?x a <http://onto.com/uri/A> .}?x <http://onto.com/uri/r> ?s0 .?s0 <http://onto.com/uri/s> ?s1 .FILTER NOT EXISTS {?s1 a <http://onto.com/uri/B> .}}

246

C Configuração do Gryphon Frameworkno IntegrativO CBR

O Código-fonte C.1 descreve a configuração do Gryphon Framework para acessar onto-logias e bancos de dados.

Consulta C.1 – Configuração do Gryphon Framework.

GryphonConfig . s e tWo r k i n gD i r e c t o r y (new F i l e ( " my I n t e g r a t i o n " ) ) ;GryphonConfig . s e tLogEnab l ed ( t rue ) ;GryphonConfig . setShowLogo ( t rue ) ;Gryphon . i n i t ( ) ;

Onto logy g l ob a lOn t = new Onto logy ( " g l o b a lOn t o l o gy " ,u r iToG loba lOn to l ogy ) ;Onto logy l o c a lOn t 1 = new Onto logy ( " l o c a lOn t o l o g y1 " ,u r iToLoca lOn to l ogy1 ) ;Onto logy l o c a lOn t 2 = new Onto logy ( " l o c a lOn t o l o g y2 " ,u r iToLoca lOn to l ogy2 ) ;Da t aba se localDB1 = new Database ( " l o c a l h o s t " , 3306 ," username " , " password " , " db1 " , Gryphon .DBMS.MySQL ) ;Da t aba se localDB2 = new Database ( " l o c a l h o s t " , 3306 ," username " , " password " , " db2 " , Gryphon .DBMS. PostgreSQL ) ;

Gryphon . s e tG l o b a lOn t o l o gy ( g l o b a lOn t ) ;Gryphon . addLoca lOn to logy ( l o c a lOn t 1 ) ;Gryphon . addLoca lOn to logy ( l o c a lOn t 2 ) ;Gryphon . addLoca lDa t aba s e ( loca lDB1 ) ;Gryphon . addLoca lDa t aba s e ( loca lDB2 ) ;

Os parâmetros "globalOntology", "localOntology1" e "localOntology2" recebem umaou mais ontologias de entrada. Em seguida, há a descrição e a conexão com os bancos de dadoslocais (db1 e db2).

C.1 Alinhamento e Mapeamento no IntegrativO CBR

O Código-fonte C.2 exemplifica a segunda etapa.

Apêndice C. Configuração do Gryphon Framework no IntegrativO CBR 247

Consulta C.2 – Método para alinhamento e mapeamento.

Gryphon . alignAndMap ( ) ;

C.2 Consultas no Gryphon Framework

O Código-fonte C.3 descreve a interface de consulta do Gryphon Framework, além dadefinição do formato de saída.

Consulta C.3 – Interface de consulta e definição de formato de saída.

S t r i n g s t rQu e r y ="PREFIX r d f : < h t t p : / /www.w3 . org /1999/02 /22− r d f−syn t ax−ns#> "+"SELECT ?x ?y "+"WHERE { ?x r d f : t y p e ?y } " ;Gryphon . que ry ( s t rQue ry , Re su l t Fo rma t . JSON ) ;

Os resultados das consultas podem ser salvos nos formatos JSON, XML e CSV.

248

D Implementação do IntegrativO CBR

Neste apêndice serão descritas as adaptações realizadas sobre a abordagem de RBC-CIdo jCOLIBRI2 no objetivo de alcançar as funcionalidades esperadas no integrativO CBR.

D.1 Interface de Consulta e Recuperação

A interface de consulta foi estendida a partir da ferramenta Gryphon de modo que asconsultas do usuário fossem traduzidas de DL para SPARQL, possibilitando assim a recuperaçãodos indivíduos. A seguir a modificação responsável por realizar o a conversão de DL paraSPARQL (figura 79).

Figura 79 – Parser em Java SPARQL—OWL2.

A conversão permite a recuperação dos dados que podem ser aplicados como solução doproblema.

D.1.1 Configuração

As ontologias e o banco são configurados com uma simples alteração das linhas noGryphon, descritas na figura 80.

Figura 80 – Configuração Gryphon para o integrativO CBR.

Em seguida, a consulta apresentada pelo usuário e recuperada pelo Gryphon é executadae recuperada no formato JSON, por exemplo (figura 81).

Os resultados retornados serão tratados posteriormente pelo integrativO CBR.

Apêndice D. Implementação do IntegrativO CBR 249

Figura 81 – Requisição para aplicação de consulta e disponibilização dos resultados no formatoJSON.

D.2 Reuso e Seleção de Casos

Aplicações RBC-CI desenvolvidas com o framework jCOLIBRI2 implementam ou esten-dem uma interface padrão denominada StandardCBRApplication(). Esta interface segmentao comportamento de uma aplicação RBC-CI nas seguintes etapas (figura 82):

• Pré-ciclo — Carrega os casos e prepara a execução do aplicativo CBR. Eventualmentepode ser utilizado para compilar algoritmos que exigem um maior grau de processamento;

• Ciclo — Executa uma etapa CBR utilizando a consulta (query) dada;

• Pós-ciclo — Encerra a aplicação juntamente com o connector.

Figura 82 – Interface padrão do jCOLIBRI2 para aplicações CBR.

Além destas três etapas, a interface StandardCBRApplication() implementa um quartométodo denominado configure() que é responsável pelas configurações básicas da aplicaçãoRBC-CI (base de casos, connectors, entre outros).


Nesta etapa de REUSO se faz necessário que os métodos configure() e precycle()estejam implementados para a aplicação RBC-CI. Tais métodos possibilitam o carregamentodos casos da persistência na memória. O método precycle() carrega os casos e armazena-os noobjeto “_caseBase” da classe principal da aplicação.

Uma vez recuperadas as instâncias, de sujeito e objeto que possam ser aplicadas na con-sulta, os métodos de similaridade do jCOLIBRI2 podem ser aplicados. Os parâmetros utilizadospara as avaliações de cada classe são as instâncias recuperadas a partir das triplas (Sujeito-Predicado-Objeto) no arquivo RDF ou JSON resultante das consultas realizadas através doGryphon framework.

Considerando que os dados referenciam classes das ontologias escolhidas (GO, ChEBI,PRO e BTL2), o método de similaridadeMaxString() foi utilizado como recurso para avaliação.Este método de similaridade é fruto de uma integração entre as ferramentas jCOLIBRI2 emyCBR3. Neste caso, teremos como parâmetros dois objetos: dois ou mais nomes de classe(labels) provenientes da consulta, e os labels proveniente do registro de BD.

O que o métodoMaxString() faz é comparar a escrita das classes na ontologia e nosregistros de BDs, recuperando as classes (necessariamente subclasses das definidas no axiomade interpretação) mais similares aos indivíduos recuperados (figura 83).

Figura 83 – Método de Similaridade MaxString ( ).

Em seguida, é aplicado ummétodo de kNN para determinar as combinações que oferecemmaior similaridade (figura 84). Os de maior similaridade, dentro de um intervalo definido pelousuário, serão propagados no passo seguinte (figura 85).

Figura 84 – Avaliação da similaridade pelo método de k-NN, recuperado a partir do GryphonFramework.

Os resultados obtidos são recuperados de forma aninhada, considerando todas as combi-nações possíveis em um mesmo registro e de acordo com o axioma, como descrito no capítulo


5.

Figura 85 – Recuperação de resultados similares.

Assim, segue-se para cada cycle(), obtendo o maior resultado para cada subclasse, como fim de obter a métrica de similaridade de todas as subclasses em relação aos resultados obtidosda consulta ao Gryphon.

Os resultados obtidos a cada execução do método cycle() alimenta uma lista, contendo oindivíduo e a classe analisada com a similaridade, além do cálculo da métrica em si.

Logo após, os dados contidos na lista são categorizados que pode variar entre 0 e 1, deacordo com a similaridade calculada.

D.3 Retenção

Como resultado do processo de RBC-CI executado pelo integrativOCBR, são recuperadase listadas todas as classes que podem ser substituídas na consulta inicialmente submetida pelousuário. À consulta original escrita em DL (Manchester Syntax e OWL2) são adicionados asclasses identificadas pelo método de similaridade e propagadas posteriormente. Este processo foidescrito no capítulo 5 e o código referente à este trecho (por ser muito longo) está disponível norepositório do projeto (http://www.cin.ufpe.br/˜integrativo).

252

E Código OWL dos Axiomas de Exemplo- Experimento IntegrativO CBR

E.1 Código axioma 1

• URI

– PRO: http://purl.obolibrary.org/obo/PR

– BTL2: http://purl.org/biotop/btl2.owl

– NCBI Taxonomy: http://purl.bioontology.org/ontology/NCBITAXON/

<EquivalentClasses><Class IRI="PR_000004742_NCBITAXON/10090"/>

<ObjectIntersectionOf><Class IRI=".../PR_000004742"/>

<ObjectSomeValuesFrom><ObjectProperty IRI=".../btl2.owl#isPartOf"/><Class IRI="...NCBITAXON/10090"/>

</ObjectSomeValuesFrom></ObjectIntersectionOf>

</EquivalentClasses>

Apêndice E. Código OWL gerado pelo integrativO CBR 253


• URI

– GO: http://purl.obolibrary.org/obo/GO



– NCBI Taxon: http://purl.bioontology.org/ontology/NCBITAXON/

<EquivalentClasses><Class IRI="GO_0033477_PR_000004742_NCBITAXON/10090"/>

<ObjectIntersectionOf><Class IRI=".../GO_0033477"/>

<ObjectSomeValuesFrom><ObjectProperty IRI=".../btl2.owl#hasParticipant"/>

<Class IRI=".../PR_000004742"/></ObjectSomeValuesFrom><ObjectSomeValuesFrom>

<ObjectProperty IRI=".../btl2.owl#isIncludedIn"/><Class IRI=".../NCBITAXON/10090"/>

</ObjectSomeValuesFrom></ObjectIntersectionOf>

</EquivalentClasses>



• URI

– CHEBI:http://purl.obolibrary.org/obo/CHEBI



<EquivalentClasses><Class IRI="CHEBI_17230_NCBITAXON/10116"/>

<ObjectIntersectionOf><Class IRI=".../CHEBI_17230"/>

<ObjectSomeValuesFrom><ObjectProperty IRI=".../btl2.owl#isPartOf"/>

<Class IRI=".../NCBITAXON/10116"/></ObjectSomeValuesFrom>




• URI




– GO: http://purl.obolibrary.org/obo/GO

<EquivalentClasses><Class IRI="NCBITAXON/9606_PR_000004742_GO_0071267"/><ObjectIntersectionOf><Class IRI=".../NCBITAXON/9606"/>

<ObjectSomeValuesFrom><ObjectProperty IRI=".../btl2.owl#hasPart"/>

<ObjectIntersectionOf><Class IRI=".../PR_000004742"/>

<ObjectSomeValuesFrom><ObjectProperty IRI=".../btl2.owl#isParticipantIn"/>

<Class IRI=".../GO_0071267"/></ObjectSomeValuesFrom>

</ObjectIntersectionOf></ObjectSomeValuesFrom>


filipe santana da silva - ufpe

Documents