ingénierie des ontologies du web sémantique par...

Ingénierie des Ontologies du Web Sémantique

par Ontologie Fusion et Classification

Résumé. Le Web Sémantique constitue un environnement dans lequel les agents humains

et machine vont communiquer selon une base sémantique. Le Web Sémantique utilise la

notion d'ontologies pour la conceptualisation et l’extraction des connaissances du domaine et

les stocke en termes de concepts et de propriétés dans la machine d'une

manière compréhensible et traitable. En raison de leurs capacités de décidabilité et

d'expressivité, les ontologies ont joué un rôle fondamental pour décrire la sémantique

des données non seulement dans le web sémantique émergents, mais aussi dans l'ingénierie

des connaissances traditionnelles et les systèmes de traitement de l'information. Néanmoins,

l’augmentation du nombre d'ontologies développées et maintenues sur le web, exige une

multitude de nouvelles techniques pour la réalisation de la vision du Web sémantique. Cette

thèse traite deux tâches de gestion d'ontologies multiples sur le web sémantique, c'est à dire la

fusion d'ontologies hétérogènes et leur classification.

Aujourd’hui, les ontologies sont développées pour des fins, des besoins et des exigences

multiples. Les mêmes ontologies partagent des domaines de connaissance qui se

chevauchent et peuvent êtres utilisées pour l'annotation de sources de données multiples

telles que les pages Web, les référentiels XML, les bases de données relationnelles, etc. Une

telle utilisation d'ontologies représente un moyen de fournir une compréhension

partagée / commune de divers domaines ce qui permet d’avoir un certain

degré d'interopérabilité entre ces sources de données. Afin répondre à ces exigences,

l'alignement d'ontologies, la cartographie et les systèmes de fusion ont fait leur

apparition. Ces techniques sont les solutions les plus répondues dans les domaines

d'application puisqu’elles établissent des collaborations qui impliquent le partage des

données, des connaissances et des ressources entre les sociétés modernes. Elles aident aussi

à développer une nouvelle ontologie existante en réutilisant des ontologies ouvertes et réduire

considérablement le coût de la construction d'une nouvelle ontologie. Bien, qu’il ya un grand

effort réalisé, néanmoins, la fusion des définitions axiomatiques des concepts

reste une question de recherche encore ouverte. En outre, l’état de l'art des systèmes de fusion

d'ontologies est semi-automatique qui réduit uniquement le fardeau de la création manuelle et

la maintenance des mappings et des besoins d'intervention humaine pour leur validation.

Cette thèse présente des travaux de recherche concernant la fusion sémantique, DKP, qui

proposent des méthodes nouvelles pour la détection automatique des incohérences

sémantiques, la fusion des définitions axiomatiques et les stratégies de résolution des conflits

dans le processus de fusion d’ontologies. L’objectif principal est de vérifier l'exactitude et la

cohérence sémantique d'applications, et d'assurer la satisfiabilité de l'ontologie

fusionnée. Pour atteindre cet objectif, d'abord, ce travail utilise une stratégie hybride pour

détecter d’éventuels mapping en suivant diverses correspondances individuelles. Puis, il

emploie des critères de test qui détectent les incohérences sémantiques à partir de la liste des

mappings initiaux en exploitant toutes sortes de connaissances dans les ontologies locales. Il

vérifie que les concepts lexicalement similaires, au sein de l'ontologie locale source, ne se

contredisent pas tout en respectant le jeu d'axiomes (subsomption, disjonction, etc.). Les

mappings initiaux entre les concepts des ontologies locales sont marqués en fonction du degré

de différence ou de conflit dans le schéma individuel. Le module de vérification de cohérence

agit comme un filtre à l'étape initiale de fusion en vérifiant l'ensemble des conditions de base

avant d'autoriser les axiomes d'être ajouté à l'ontologie globale. En outre, nous avons conçu

un nouvel algorithme qui construit l'espace de recherche pour la cartographie basée sur des

partitions disjointes dans des ontologies source. Rechercher dans les partitions disjointes

minimise l'espace de recherche dans le processus de recherche de mappings. Cette action

permet par conséquent de réduire la complexité d'exécution de la fusion d'ontologies. Le cadre

d’étude proposé est mis en œuvre et évalué sur différents cas réels de test avec des résultats

encourageants qui ont prouvé empiriquement ses avantages. Notre cadre permet d’exploiter

plus la sémantique fournie dans les ontologies sources et d’utiliser des critères de test pour les

mappings initiaux trouvés. De plus notre approche améliore la précision de la fusion

d’ontologies, minimise l'intervention humaine un pas de plus vers le bas pendant le processus

de fusion, et produit une ontologie globale cohérente et complète à partir d’ontologies locales

hétérogènes. De cette façon, il forme une couche globale à partir de laquelle plusieurs

ontologies locales hétérogènes peuvent être consultées et donc pourront faire l'échange

d'information dans les moeurs sémantiquement.

Nous avons appliqué la méthodologie de fusion d'ontologies sur l'intégration de données

pour vérifier son efficacité et son efficience. L'intégration de données fait apparaitre le

problème de formation d’une vue unifiée des sources de données distribuées et

hétérogènes. La nécessité de tels systèmes est nécessaire lorsque deux entreprises allaient

être fusionnées ou des pièces différents unités de l'entreprise adoptent des

systèmes différents pour gérer leurs données critiques. Un de ces cas est l'entreposage de

données, où le système extrait, transforme et charge des données provenant de plusieurs

sources dans un schéma unique interrogeable. Cette approche (ETL) donne les meilleurs

résultats des requêtes puisque les données résident ensemble dans un référentiel unique,

mais, engendre un coût énorme lorsque les sources locales de données sont actualisées. Pour

remédier à cet inconvénient, la tendance est favorisée par la construction d'un entrepôt virtuel

basé sur un médiateur dans les dernières années. L’intégration virtuelle des données facilite

le placement physiquement dans les sources de données originales et laisse le choix à

l'utilisateur de localiser les sources locales pertinentes pour une requête, d'interagir

avec chacun d'eux indépendamment et de combiner manuellement les données provenant de

sources multiples. En fait, il existe plusieurs problèmes liés à l'intégration de

données virtuelles, mais dans notre étude de cas, nous nous sommes intéressés à l’analyse et

la construction de critères de qualité pour améliorer les résultats des requêtes. Les principales

composantes de l'étude de cas est la correspondance des schémas pour construire un schéma

global, le calcul des correspondances sémantiques entre les schémas individuels,

et l’exécution de la requête pour récupérer les résultats par la réécriture de

requêtes, l’obtention des réponses locales, et enfin la construction de réponses

globales. L'utilisateur formule une requête en fonction du schéma global générée par

notre outil de fusion d’ontologies (DKP) et le médiateur adopte des mécanismes pour

exécuter la requête afin d'apporter des réponses significatives. Pour cela, il traduit

une requête formulée sur le schéma médiation en une requête dédiée directement à des

schémas dans les sources de données.

Les résultats d'intégration de données générés souffrent souvent d'incohérence,

d'incomplétude et de redondance. Toutefois, à partir de cette étude de cas, nous avons trouvé

que la qualité du schéma global a un lien fort avec les résultats obtenus des requêtes, parce

que lorsque le schéma global comporte des incohérences relatives à des

informations incomplètes de la source locale ou des redondances, les résultats à la

requête serait fortement compromis. Une information globale redondante dans le schéma

global entraine l’accès à des informations inutiles par le médiateur et l'exécution des requêtes

peut prendre beaucoup plus de temps. L'incomplétude du schéma global ne donne pas à

l'utilisateur une vue complète unifiée sur des données distribuées sur laquelle la requête peut

être effectuée. De même, l'incohérence dans le schéma global fournit des résultats vides,

contradictoires et inexactes. Notre étude de cas a permis d'améliorer le mécanisme de réponse

à des requêtes. Ce mécanisme de réponse est basé sur la sémantique des ontologies sous-

jacentes et fournit un mécanisme pour trouver des informations plus implicites sur les

sources de données. Le mapping sémantique des concepts a permis l'extraction inférée

d'autres types d'information implicite à partir de plusieurs chemins sémantique entre sources

de données. Les requêtes des utilisateurs sont transformées en requêtes qui peuvent

fournir des résultats plus significatifs afin de mieux répondre aux intentions de

l'utilisateur. Nous avons conclu que les critères de qualité basés sur la détection d'incohérence,

l'incomplétude et la redondance est un modèle approprié pour soutenir l'entrepôt virtuel.

Cette thèse explore une autre tâche essentielle de la classification des ontologies Web.

L’intérêt du web sémantique avec le nombre de plus en plus important d'ontologies, où les

ontologies multiples associées à un même domaine / concept semble être assez fréquent, sont

d'une importance immense pour classer les ontologies Web en hiérarchies de domaine

respectifs. Il aide les humains et les agents Web pour trouver l'ontologie correcte et souhaitée

(ou concept) sur le web et soutient les processus d'ingénierie ontologique. La classification

d’ontologies est également essentielle pour de nombreuses autres tâches telles que le

développement des répertoires d’ontologie sur le web, la focalisation sur la récupération

d’ontologies, le concept d'analyse spécifique d’ontologies modulaires, l'amélioration de la

qualité de la recherche, etc. Dans le but de relever le défi réel de la recherche et la

récupération d'ontologies, cette thèse a proposé une approche basée ontologie pour la

classification d’ontologies. Nous pensions que les ontologies une fois classées correctement,

elles sont recherchées de manière sémantique dans les applications basées ontologies sur le

Web sémantique. Pour construire une approche de classification sémantique, nous avons

utilisé notre méthodologie de correspondance d'ontologies et remplacé l'approche de

classification de texte par l'approche d’ontologie spécifique pour le classement des ontologies

Web. Nous avons réalisé une étude de cas et nous sommes conscients que l'approche basée

sur d’ontologie fonctionne mieux pour faire chevaucher les ontologies qui se croisent en

raison de leurs hétérogénéités sémantiques et l'exigence de la structure des connaissances lors

de la modélisation du domaine. La classification d’ontologies, fondée sur une approche de

correspondance d’ontologies, exploite la correspondance de la connaissance du contexte

spécifique qui résulterait d'une ontologie de classification arbitraire dans une catégorie

appropriée, avec la distribution de probabilité sur l'ensemble des catégories. L'utilisation de la

correspondance d'ontologies pour la classification d’ontologie a donné une plus grande

précision du processus de classification en particulier dans le cas des ontologies qui se

chevauchent, où les algorithmes de classification texte ne fonctionnent pas bien dans les

portails actuels du web sémantique. Ce travail de classification des ontologies Web peut

contribuer à la construction, l'entretien et l'expansion des répertoires d’ontologies sur le web

sémantique. Actuellement, les répertoires d’ontologies sont maintenus par des éditeurs

humains qui facilitent aux utilisateurs d’explorer des ontologies au sein d'un ensemble

prédéfini de catégories. Le classificateur d’ontologies fait ce travail fastidieux de façon

automatique en remplaçant les efforts manuels pour aider à actualiser et élargir ces annuaires.

1. Introduction au problème de la recherche Le Web sémantique fournit des communautées virtuelles qui permettent aux agents logiciels

et les utilisateurs à extraire, utiliser et partager les connaissances. Il utilise la notion

d'ontologie pour la conceptualisation et l'élicitation des connaissances du domaine et le stocke

en termes de concepte et de propriétés dans la machine d'une manière compréhensible et

traitable. En raison de leurs capacités de décidabilité et d'expressivité, les ontologies ont joué

un rôle fondamental pour la description sémantique des données non seulement sur le web

sémantique émergente, mais aussi dans l'ingénieurie des connaissances traditionnelles, et

d'agir comme une épine dorsale à base de connaissances et d'information fondés sur la

sémantique les systèmes de traitement. Plusieurs tâches telles que le stockage, le traitement, la

récupération, la prise de décision, etc., par de tels systèmes sont effectués sur la base

d'ontologie. Mais, le nombre d'ontologies étant développés et maintenus sur le web augmente

considérablement, ce qui exige de nouvelles techniques différentes pour le stockage de

l'ontologie, la classification, le classement, la réutilisation, la recherche, etc. Même que le web

actuel, la recherche de la connaissance pertinente est l'un des principaux problèmes pour le

web sémantique émergent. Ainsi, pour la réalisation de la vision du Web sémantique, il a

besoin de beaucoup d'efforts supplémentaires nécessaires pour remplir ses promesses.

Comme le web actuel syntaxique, les données sur le web sémantique sera distribué et

hétérogène. Sémantique des données est représenté par des ontologies afin que la machine

peut accéder et de les traiter pour assurer l'interopérabilité sur le Web sémantique.

Consortiums différents se développent ontologies dans les domaines qui couvrent les

différents aspects et les informations de chevauchement. Par conséquent, le nombre explosive

des ontologies (où beaucoup d'entre eux contiennent des chevauchement des connaissances)

sur le web sémantique, deux défis majeurs ont besoin d'attention pour la réalisation de sa

vision convaincante. Tout d'abord, le problème de la fusion pour les ressources du web

sémantique existe en tant que l'un de ses défi majeur pour permettre l'interopérabilité

automatique et intelligente entre les agents et les applications hétérogènes. Il est également

essentiel pour la construction des ontologies pour les domaines en constante évolution,

interdisciplinaires et spécifiques. Ontologies pour les domaines en évolution aller sur les

changements que le domaine évolue. Il a besoin de fusionner des ontologies différentes

versions de base pour produire des nouvelles ontologies les plus riches. L’ontologies

interdisciplinaires peuvent avoir besoin d'être créé par la fusion de tâches existantes

spécifiques au domaine des ontologies. L’ontologies spécifiques peuvent également être

fusionnées avec les ontologies plus généraux et les nouvelles informations peuvent devoir être

fusionnée avec des ontologies existantes. Par conséquent, l'ontologie fusion semble être un

défi pour l'accomplissement de la vision du web sémantique. Le second défi majeur appartient

à la facilitée de gestion d'ontologies multiples sur le web sémantique, que même domaine /

association concept avec les ontologies multiples semblent être tout à fait commun. Ce

dilemme nécessite la classification des ontologies Web afin qu'ils puissent mieux recherchés

par des agents et des personnes. Il ya beaucoup d'autres motivations pour ontologie fusion et

la classification (développé dans les sections suivantes), par conséquent, nous considérons

qu'il est d'une importance immense pour étudier et les résoudre.

1.1 Ontologie Fusion - Description du problème

L’ontologie fusion est la création de l'ontologie unique à partir des ontologies différentes

sources (Bruijn et al., 2006). Il est basé sur deux étapes principales. Tout d'abord, les

ontologies sources sont regardé en place des similitudes entre eux. Deuxièmement, sans

doublons union des ontologies de source est réalisé sur la base des similarités établies. Les

ontologies source contiennent chevauchement connaissance du domaine, mais peut contenir

différents types d'hétérogénéités sémantiques qui créent des conflits lorsque vont être

fusionnés (M. Klein, 2001). La nouvelle ontologie fusionnée, qui est entraîné par l'union des

ontologies source, devrait fournir une vue unifiée et cohérente sur les ontologies source.

L’ontologie fusion hérite des problèmes de schéma de fusion et de recherche sémantique

intégration dans la communautée de base de données (Doan et Halévy, 2005). Dans la

littérature scientifique, il existe deux grandes catégories d'approches de fusion (Bruijn et al.,

2006), représenté schématiquement à la Figure 1.1. Dans la première approche, processus de

fusion résulte d'une ontologie de sortie unique qui contient les ontologies sources

individuelles. Les exemples de cette approche sont Prompt (Noy et Musen, 2000), Chimère

(McGuinness et al., 2000), etc. Dans la seconde approche, la fusion des résultats des

processus d'une ontologie pont qui importe les ontologies source et comprennent des axiomes

de ponts ou d'articulation règles qui représentent les mappages sur les concepts des ontologies

source. Les exemples de cette approche sont OntoMerge (Dou, McDermott & Qi 2002),

ONION (Mitra et Wiederhold, 2002), etc.

Dans les deux approches de fusion, le principal obstacle réside dans l'identification et la

résolution des hétérogénéités sémantiques qui se produisent en raison des différences dans

l'interprétation de domaine et la modélisation de la connaissance dans les ontologies, donnant

élever à différents types de déséquilibres et des conflits (Pottinger et Berstain, 2001). Visser et

al. fournir une analyse des disparités ontologiques et hétérogénéités qui peuvent appartenir à

niveau de langage et l'ontologie niveau (Visser et al., 1997). Hétérogénéité linguistique ou

décalages de niveau de langue se produire lorsque les ontologies qui ont été développées dans

différentes langues sont fusionnés, car elles diffèrent dans la syntaxe et la sémantique des

primitives. Les disparités de niveau d'ontologies sont ensuite divisés en deux groupes, et se

produise lorsque la fusion d'ontologies de source est effectuée et qui sont développés dans les

langues identiques ou différents, mais diffèrente dans la manière dont la connaissance du

domaine est interprétée ou modélisée. Le premier groupe, les inadéquations de

conceptualisation peut se produire à la suite d'une différence dans la façon dont les

connaissances du domaine est interprétée. L'autre groupe, les inadéquations explication sont

les différences dans la façon dont les connaissances du domaine est représentée ou modélisée.

Dans les sections suivantes, nous allons discuter de ces impasses en détail et comment

identifier et résoudre les cours du processus de fusion d'ontologies hétérogènes.

Figure 1.1. Types d'ontologie Fusion

Il existe de nombreux scénarios d'application qui peuvent bénéficier de la recherche

ontologie fusion, tels que l'unification de l'instance, l'intégration de base de données,

réutilisation d'ontologies, la conception d'entrepôts de médiation basé sur l'interopérabilité

automatique sur le web sémantique, etc. Il ya quelques autres problèmes d'intégration

sémantique tels que l'intégration catalogue, le schéma et l'intégration des données, peer to

peer intégration de l'information, la composition de services web, transformation de données,

etc, ce qui peut prendre directement ou indirectement un avantage de l'ontologie fusion.

1.2 Ontologie Classification-Description du problème

La classification est traditionnellement définie comme un problème d'apprentissage supervisé

dans lequel un ensemble de données étiquetées est utilisé pour entraîner un classifieur qui

peut être utilisé pour étiqueter les exemples futurs [Mitchell, 97]. Classification ontologie est

un problème de classification difficile pour la gestion efficace et efficiente l'ontologie et la

récupération pour le Web sémantique et ontologie des applications métiers de l'entreprise.

Avant la classification ontologie, beaucoup de travail a été fait pour le classement page Web

qui vise à attribuer une page Web à une ou plusieurs étiquettes de catégories prédéfinies

[Chakrabarti, 02]. Le web actuel est une infrastructure hétérogène contenant des données non

structurées ou semi-structurées de différents types. Cela ouvre un certain nombre d'autres

problèmes de recherche classement, comme, classification des sites web, classement page

web, classement blog, classification des données multimédia. Défis de la recherche pour la

classification des documents Web sémantique peut être élaborée que la classification

ontologie, RDF référentiel classification, etc Maintenant-un-jour, pour un domaine spécifique,

il existe plusieurs ontologies disponibles qui ont été développés par les différentes

communautés en fonction de leurs besoins. Par conséquent, les ontologies multiples associées

à un même domaine/concept semble être assez commun sur le Web sémantique. Par exemple,

comme mentionné dans l'une des études de recherche sur le développement de web

sémantique, portail Swoogle recherches de plus de 300 termes distincts qui semblent tenir

uniquement pour la "personne" concept [Ding, 05]. Il est probable que de grandes ontologies

et complexe exigera une nouvelle solution et index central des ontologies pour la réalisation

de la vision du Web sémantique sonore.

En raison de la nature expressive du ontologies OWL, ils sont plus que les documents texte ou

des pages web HTML. Par conséquent, la classification en texte clair qui bénéficient le

document ou la page Web de classification ne sont pas très utiles pour la classification

ontologie et la recherche sur le Web sémantique. Pour cette raison, une classification

ontologie est non seulement important, mais aussi distinguer les techniques de classification

traditionnels, et mérite donc plus d'efforts de recherche. Il ya beaucoup de points de vue

différents de la classification ontologie, comme onotlogy ou les tâches de gestion de concept

sur le Web sémantique, la promotion exploration plus ciblée et la construction, l'entretien ou

l'expansion des répertoires d'ontologies sur le Web sémantique.

2. Ontologie Fusion Défis et Solutions

Il y’a plusieurs défis tels que l'hétérogénéité sémantique et ontologique Erreurs dans les

ontologies de source, fusionnent les exigences, la détection de correspondances, etc.

2.1 L'hétérogénéité sémantique dans les ontologies

L'hétérogénéité sémantique origine comme une incohérence dans la façon dont le domaine est

interprétée et modélisée. Les catégories d'hétérogénéités sémantiques sont la langue et le

niveau de l'ontologie. Hétérogénéité linguistique ou décalages de niveau de langue se produit

lorsque les ontologies écrites en langages ontologiques différents, tels que OWL, RDF

Schema, DAML, LOOM, etc, sont combinées car elles diffèrent dans la syntaxe, la

représentation logique, sémantique des primitives et expressivité langue (Chalupsky, 2000 ).

Ces types de mésappariements peuvent être réparés en fournissant des mécanismes de

traduction d'une langue à une autre représentation (Klein, 2001).

Les disparités de niveau ontologie se produisent lors de la fusion est effectuée entre les

ontologies qui sont écrites dans les langues identiques ou différents, mais diffèrent dans la

façon dont le domaine est modélisée ou interprété (Klein, 2001). Ces disparités sont encore

divisées en deux groupes. Le premier groupe, les inadéquations de conceptualisation peut se

produire à la suite d'une différence dans la façon dont le domaine est interprété. L'autre

groupe, les inadéquations d’explication sont les différences dans la façon dont la

conceptualisation est spécifiée ou modélisée dans l'ontologie. Inadéquations d’explication se

produit lorsque les ontologistes utilisent des termes synonymes ou l'homonyme de la

représentation des mêmes concepts, les différents formats de codage des valeurs de concept

ou ils sont dus à des styles de modélisation différents (Visser, 1997; Wiederhold, 1994). Ces

discordances peuvent être réparées en utilisant des algorithmes de chaînes correspondant,

chercher thésaurus des synonymes ou des termes homonymes, et l'analyse logique de la

description des définitions des concepts dans les sources d’ontologies. Ces relations inter-

ontologies lors de trouver des correspondances dans les ontologies sont définies comme étant

: Synonyme (même sens avec des noms différents), homonyme (même nom avec une

signification différente), hyponyme (terme plus précis) et hyperonyme (plus générale). Les

inadéquations de conceptualisation se produisent en raison des différences sémantiques qui

peuvent être dues à la différence dans le cahier des charges ou dans l'interprétation du

domaine (Chalupsky, 2000). Qui désigne le mode de conceptualisation d'un domaine

interprété, ce qui se traduit par différents concepts d’ontologiques ou différentes relations

entre ces concepts. Les différences sont dues à la conceptualisation et la couverture étendue

du domaine. L'inadéquation de couverture se pose lorsque les ontologistes ne couvrent que

certains aspects du domaine, et laissent certains aspects ou détails sur les concepts du

domaine (Klein, 2001).

2.2. Assurance de la qualité des ontologies

L’assurance de la qualité des connaissances modélisées dans les ontologies source avant leur

fusion est très importante. Le point qui a le souci de notre recherche est l'assurance de la

qualité du contenu dans les ontologies de source en ce qui concerne les principes de

conception. Avec cet aspect (principes de conception), Gomez-Perez (2001) a formulé l’erreur

de la taxonomie lors de l'évaluation du contenu des connaissances taxonomiques sur les

ontologies et les systèmes à base de connaissances. Ces dernières années, d'autres études sont

faites à propos de l'évaluation du contenu des connaissances taxonomiques sur des ontologies.

Noshairwan et al. (2007) a analysé que le manque de connaissances suffisantes sur les

concepts dans l'ontologie d'application porte atteinte aux mécanismes de raisonnement et

disjoints redondantes entre les concepts de compromettre leur concision. Fahad et al. (2008a)

donne un aperçu des erreurs ontologiques pour l'évaluation de ces matières, et a prolongé

l’erreur de la taxonomie ontologique existante . Fahad et al. (2007a) a identifié diverses autres

formes d'incohérences sémantiques en raison de mauvaises définitions axiomatiques et les a

classées en trois catégories. Sur la base de l’erreur de la taxonomie de Gomez-Perez et

extensions faites, Fahad et al. (2008b) ont proposé un cadre intégré pour l'évaluation de RDF

(S) et des ontologies OWL. En outre, le cadre intégré, les différentes versions de raisonneurs

DL sont évaluées pour montrer qu'ils ne répondaient pas à toutes les exigences pour

l'évaluation des ontologies (Fahad et al., 2009). En outre, les algorithmes de ces erreurs sont

conçues et le cadre intégré est mis en œuvre en tant que prototype OntCheck. Détail de ces

travaux peuvent être trouvés dans mon travail précédent (Fahad, 2008c) et hors de la portée de

cette thèse. La chose importante ici pour la fusion de l'ontologie est la référence sur la base

de ces erreurs, ce qui facilite la vérification des ontologies de source, la validation des

applications pendant les étapes initiales de l'ontologie de fusion et d'assurer l'exactitude de

l'ontologie fusionnée en appliquant des critères de qualité de l'ontologie intégrée. Par

conséquent, l’erreur de la taxonomie proposée par Gomez et al. (2001, 2004) et les

extensions faites dans ma recherche précédente sert de référence pour la vérification du

contenu dans des ontologies. Ce point de référence est fondé sur la cohérence, l'exhaustivité et

concision.

2.3 Analyse des Systèmes Fusion d'ontologie

Dans la littérature scientifique, il existe de nombreuses approches différentes, des techniques

et des systèmes pour la fusion d'ontologies hétérogènes. Nous avons des études FCA-Merge,

Prompt Suite, Ontomorph, Chimère, ONION, ministère de l'Agriculture, ATOM, iMerge,

ContentMap, HCONE-Merge et OMerSec. Nous avons défini des critères d'analyse et de

construire la matrice d'évaluation pour l'analyse des lacunes dans les travaux existants. Les

paramètres d'analyser si l'approche à utiliser; String, Synonyme, instance, Axiom, similarité

des voisins, structure de l'ontologie, le niveau d'automatisation, des ressources

supplémentaires, la cohérence similitude initiale, contrôle d'erreur et de rétroaction, de

prétraitement et des experts requis. Figure 1.2 Analyse des résumés de l'ontologie fusion de

systèmes sur la base des paramètres ci-dessus mentionnés.

Notre objectif pour l'approche automatique est de construire l’algorithme bien défini qui

maintient les contrôles de cohérence possibles, couvre tout type d'information dans les

ontologies de sources, capables de fusionner les définitions axiomatiques des concepts,

maintient la concision de la connaissance dans l'ontologie fusionnée et préserve la résolution

des conflits lors de la construction ontologique est fusionnée sur la volée avec cohérence

maximale, la cohérence et l'exhaustivité. En outre, il conserve un fichier de contraintes qui

stocke les conflits individuels et le mécanisme de résolution adoptée à fournir une sorte de

flexibilité. En cela, les applications dynamiques peuvent voir le potentiel de conflits et peut

prendre des décisions en cas de besoin. Nous mettons l'accent sur l'approche hybride pour la

détection et la cartographie NLT, utiliser la technique pour identifier le sens voulu de

concepts dans les ontologies. Pour la conception des outils, nous nous concentrons également

sur les services graphiques pour suivre les processus de l'ontologie toute fusion et d'équiper

plusieurs algorithmes de cordes pour fournir la flexibilité et l'utilisation dans le système

d'ontologies fusion.

Figure 1.2 Analyse des Systèmes Fusion d'ontologie

3 Principes de l'ontologie Fusion

3.1 Revisiter Exigences de fusion

Euzenat et Shvaiko (2007) fournissent une exigence cohérente de l'algorithme de fusion,

comme (i) il conserve les conséquences des deux ontologies source (O1, O2), (ii) concerne

toutes les correspondances trouvées au cours de leur correspondance, et (iii) ne pas entraîner

des conséquences plus que celles spécifiées. Pottinger et Bernstein (2003), en tant que

chercheur pionnier sur les problèmes d'intégration, abordés dans divers types de détail de

fusionner exigences lors de différents modèles sont fusionnés basée sur les correspondances

indiquées. Depuis le travail est effectué au début de 2003 quand il y avait un concept

d'ontologies légères (avant normalisation OWL), donc nous revisitons les exigences de notre

proposition de fusion des critères de qualité (cohérence, l'exhaustivité et concision) et en

fournissant des extensions gardant à l'esprit la fusion d'expression ontologies OWL lourds.

Nous avons présenté quelques-unes de ces exigences dans ICSEA conférence (M. Fahad et

al., 2009). Ces exigences sont la préservation des éléments, les relations. Axiomes, les

instances, les contraintes, la similitude et l'égalité des connaissances modélisées dans les

ontologies. Il est également souhaitable d'éviter élément parasite et de stratifier les méta-méta-

modèle des contraintes.

3.2 Critères d'identification de cartographie

Pour trouver des similitudes entre les étiquettes de concepts et de propriétés dans des

ontologies source, l'appariement appariement base à cordes stratégies d'appariement

Synonyme sont suivies. L’ontologie est composée de nombreuses constructions. Au cours de

mise en correspondance, chacune des constructions doit être assorti avec les autres pour

produire des correspondances entre les constructions d'ontologie. Une discussion détaillée sur

les différents types de critères de correspondance est fourni dans Euzenat et Shvaiko (2007).

Nous avons conçu un mécanisme hybride de produire des concepts candidats appariés en

fonction de leurs étiquettes, les attributs, les relations, les concepts voisins et les définitions

axiomatiques.

3.3 Benchmark pour obtenir une précision de résultat

Il est évident que les ontologies sources inexactes peuvent affecter le processus de fusion de

l'ontologie. Par conséquent, l'évaluation des ontologies source par rapport à un point de repère

(initialement proposée par Gómez-Pérez (2001) et prolongée par Fahad et al. (2008)) doit être

appliqué pour que le résultat ne devrait pas souffrir de sources primaires. Cependant, même si

les ontologies sources sont exempts d'erreurs, ils peuvent entraîner une ontologie fusionnée

qui peuvent avoir des erreurs ontologie. La source de ces erreurs dans l'ontologie fusionnée

est sous-jacente calcul de la similarité et la génération de mappings erronés. Il ya différents

critères qui peuvent être utilisés pour identifier les mappages ontologie comme une première

phase de l'ontologie fusion. Ces différents critères peuvent trouver des applications qui

peuvent être vraies, fausses ou peuvent avoir un effet sur la précision de l'ontologie fusionnée.

Ici, nous présentons certaines situations où les ontologies individuelles sont exempts d'erreurs,

mais lors du calcul de similarité, certains des mappages définis conduire vers des situations

erronées produisant ces types d'erreurs dans l'ontologie fusionnée. Pour la construction de

l'ontologie efficace fusion algorithme, il est essentiel d'intégrer contrôle d'erreur ontologique

lors de la validation du processus de cartographie ontologie.

Par exemple, considérons ontologies locales dans la Figure 1.3, où Désigner et Programmeur

sont disjoints concept de l'ontologie O1 ingénieur logiciel pour éviter la situation où une

même personne peut concevoir et programmeur de manière erronée, mais dans l'ontologie O2,

ils se chevauchent et concepts ont un intérêt commun Testeur de classe entre eux. Mesure de

similarité sous-jacente suggère les trois mappages; MappingsO1, O2 (SoftwareEngineer1,

SoftwareEngineer1), (Programmeur2, Programmeur2), (Désigner2, Désigner2). Ici, les

mappages initiaux MappingO1, O2 (Désigner, Désigner) et MappingO1, O2 (programmeur,

programmeur) créer une situation erronée en tant que concepteur et programmeur sont

disjoints dans O1, mais il ya une classe commune entre eux en O2. O3 ontologie Il en résulte

fusionné souffre de classe commune entre l'erreur de décomposition disjointe (voir O3 dans la

figure 1.4). Similarité, il peut y avoir plusieurs possibilités d'erreurs dans l'ontologie fusionnée

qui se produisent lorsque deux concepts dans l'ontologie O1 sources sont disjointes mais qui

se chevauchent dans l'ontologie O2, c'est à dire, il ya une classe commune, relation

d'équivalence, relation parent-enfant, instance commune entre eux, etc.

Par conséquent, nous pensons que le concept de l'ontologie comme référence erreurs de

validation de la cartographie ontologie est très important de produire des résultats de la fusion

précis. Surtout pour les utilisateurs qui ne sont pas experts dans des ontologies beaucoup de

construction et inconnus à l'erreur ontologique, mais, intéressé à construire des ontologies

pour leur domaine grâce à la réutilisation des ontologies existantes domaine plusieurs. Dans le

cas contraire, l'utilisateur peut faire face à divers problèmes et les conséquences qu'il peut ne

pas être familier avec des erreurs ontologiques de ce genre.

Figure 1.3. Inconsistent Merged Ontology O3

4. Notre système Fusion: DKP-AOM

4.1 DKP-AOM en bref

Notre conception d'ontologie Fusion automatique (AOM) System, DKP, est composé de trois

éléments principaux (Fahad et al., 2010 et 2011). La Figure 1.4 montre les principales

composantes du DKP-AOM. Tout d'abord, il génère des modèles intermédiaires (OWL-DL

graphiques) d'ontologies source en utilisant l'API Jena. L'utilisation de ces graphiques,

MatchManager, qui comprend un ensemble de différents algorithmes d'appariement, exécute

la tâche de premier niveau initial trouver la linguistique, et traduire des mappages basés sur

axiomatiques entre les concepts. L'analyse linguistique des labels des concepts et des

propriétés se fait avec la MorphAdorner (version 1.0). Traduire similitude est détectée à l'aide

d'JWNL (version 1.4.1) qui facilite l'accès au WordNet (version 3.0) dictionnaire.

MorphAdorner est utile dans divers cas particulier du processus de lemmatisation vaut utile

pour détecter les mots de base des termes et des verbes irréguliers utilisés dans les ontologies

locales. Par exemple, le concept de «étudiants» au lemme «étudiant» et propriétés

(«Accepté», «accepter», «Accepter» et «accepte») à leur base "accepter".

Figure 1.4 Méthodologie sémantique du DKP-AOM

MatchManager propage les mappages initiaux ConsistencyChecker pour leur validation.

ConsistencyChecker est muni de détecteurs qui rendent la validation de chaque cartographie

dans la phase initiale de sorte que l'ontologie fusionnée reste constante, en référence aux

sources ontologies. Lorsque les mappages initiaux passer le test de cohérence,

ConsistencyChecker passe les mappages à l'Reasoner. Enfin, les agrégats Reasoner la sortie

de différentes mesures de similarité, résout les conflits et fusionne correspondances initiales

de générer mondiale ontologie fusionnée. Enfin, il compile la sortie comme ontologie globale

fusionnée automatiquement ou liste définitive des mappages cohérents tel que requis par

l'utilisateur final. Dans cette étape, il assure l'objectif ultime de parvenir à la satisfiabilité de

l'ontologie fusionnée en vérifier l'exactitude et la cohérence des concepts, propriétés et

axiomes de l'ontologie produite. Pour la génération semi-automatique de l'ontologie globale

de la liste de cartographie, il est équipé mode semi-automatique de DKP (Fahad et al., 2007).

Semi-Automatique montre les mappages à l'utilisateur une liste de propositions initiales, et

demande l'avis des utilisateurs. Dans ce mode, il suit l'approche cyclique que d'autres

systèmes de fusion (par exemple, Prompt) pour générer une ontologie fusionnée.

4.2 Ontologie Fusion Process

Notre ontologie fusion approche est basée sur les étapes suivantes du modèle de processus.

Ces étapes sont expliquées ci-dessous pour les deux modes de fonctionnement fusion, c'est à

dire, semi-automatique et entièrement automatique. Nous comparons également notre

processus de fusion avec le processus de fusion de l'ontologie semi-automatique fusion du

système Prompt (Noy et Musen, 2003).

4.2.1 Ingénierie d'entité

L'ontologie se fusionner cadre ontologies OWL pour leur but fusion. A l'étape initiale, il doit

effectuer certaines tâches telles que la fusion peut être réalisée facilement. Ces tâches sont la

formulation des graphes d'ontologie et de pré-traitement des étiquettes de concepts. Il

comprend la formulation de graphes OWL e et de prétraitement des termes ontologiques.

4.2.2 Identification des mappages

La tâche désirée de l'ontologie fusion nécessite l'identification de fusionner les candidats sur

la base de correspondances entre les concepts d'ontologies. Identification des applications est

basée sur les étapes suivantes.

4.2.2.1 Sélection de l'espace de recherche

Ceci est très important pour construire l'espace de recherche pour la recherche de

correspondances entre ontologies. En général, il nécessite une analyse exhaustive (ou

comparaison complète) pour le calcul de la similarité entre les concepts d'ontologies, où

chaque concept c de l'ontologie est Oa adaptés à chaque concept c 'ontologie de l'Ob. Cela

nécessite n1xn2 comparaisons pour trouver les candidats au mapping des concepts de

concepts n1 et n2 Oa Ob de. Ceci est similaire aux méthodes existantes de systèmes de fusion

d'ontologies, par exemple, l'invite. Mais, nous avons développé une approche diviser pour

régner pour construire l'espace de recherche avec l'aide de partitions disjointes. Par exemple,

considérons une ontologie Vertébrés à la Figure 1.5, où la partition axiome disjoint les

vertébrés en deux partitions disjointes, c'est à dire, des oiseaux et des animaux.

Figure 1.5. Partitions disjointes dans les vertébrés ontologies

Lorsque notre algorithme obtenu les correspondances entre les concepts (oiseaux et Oiseaux)

et (Animaux et Animaux), il va chercher les mappages de leurs concepts enfants de moins de

leur hiérarchie et non dans la partition disjointe ou dans toute l'ontologie. Cette restriction

réduit l'espace de recherche pour la cartographie rechercher.

4.2.2.2 Calcul de similarité

Ontologies hétérogènes besoin de différents types de mesures de similarité pour

l'identification des candidats au mapping. Invite utilise la correspondance de chaîne pour

trouver uniquement des étiquettes identiques. Mais, nous l'avons vu dans la section

précédente, cette technique ne correspondant chaîne n'aborde pas tous la situation des

hétérogénéités sémantiques. Par conséquent, notre calcul de similarité est basée sur de

nombreux paramètres (syntaxique, sémantique, axiomatique, etc.) Chacun des paramètres a sa

propre valeur, et cette valeur peut varier en fonction de la perception que les ontologistes. La

valeur la plus haute est pour l'étiquette de concepts, mais, cette étiquette ne correspond pas

seulement à la sémantique du concept. Ainsi, le mécanisme de pondération est ajusté qui

définit la valeur de ces paramètres au cours du calcul de similarité.

4.2.2.3 Agrégation de similarité

Lorsque des similitudes entre les concepts des ontologies de source sont calculés, l'agrégation

est effectuée pour trouver les similitudes entre les concepts combinés. Invite exploite

seulement une mesure de similarité qui ne nécessite pas l'agrégation. Comme notre méthode

exploite de nombreux facteurs de calcul de similarité, par conséquent, l'agrégation est

nécessaire pour trouver les meilleurs candidats au mapping possibles. Pour adaptateur de

similitude m (Simmch), où chaque adaptateur individuel est associé à poids Wg, l'agrégation de

similarité pour le concept (Simcon) de l'ontologie est effectuée comme ci-dessous. La

similitude totale (SimTol) entre ontologies source avec un nombre n de concepts est

l'agrégation des similitudes entre tous les concepts des ontologies.

4.2.2.4 Interprétation

Lorsque les couples candidats sur la base de mesures de similarité sont calculées, il est

nécessaire de définir des paires d'interprétation pour obtenir les meilleurs candidats de

mappages qui conduisent vers la génération de l'ontologie fusionnée. Un critère est de définir

une valeur seuil comme dans le cas de Prompt. Les paires de candidats ayant une valeur de

similarité dessus d'un seuil défini sont considérés comme des candidats fusionner, et présenté

à l'utilisateur sous la forme d'une liste de suggestions pour leur fusion. Dans notre

méthodologie de fusion, la validation est la partie fondamentale de faire des interprétations au

sujet du candidat réunis des paires. Par conséquent, l'interprétation est basée sur la validation

des applications et seuls les mappages validées servir les candidats à la fusion.

4.2.3 Validation des mappages

Validation de la cartographie est nécessaire pour obtenir la consistance et la précision de

l'ontologie fusionnée. Il ya plusieurs facteurs sur la base desquels, le processus de fusion peut

valider les mappages de sorte que l'ontologie fusionnée reste cohérente, complète et

cohérente. Plus tard, au cours des prochaines section, nous aborderons différents facteurs pour

la validation des applications en détail.

4.2.4 Fusion des mappages candidats

Opération de fusion nécessite la liste des mappages validés à ce que chaque mappages

candidats sont fusionnés. Il ya deux considérations principales dans cette étape, c'est à dire, le

mécanisme de résolution des conflits et de l'exécution de l'opération de fusion. En mode semi-

automatique, la résolution des conflits et la sélection des candidats fusion est basée sur les

commentaires des utilisateurs. En Prompt, pour chaque conflit ou de l'asymétrie, le système

demande à l'utilisateur de gérer la situation. Puis, avec la connaissance de la matière et

l'intelligence de l'utilisateur, paire candidate sont choisis parmi la liste des suggestions et

fusionnées pour produire une ontologie fusionnée. Dans notre méthodologie, où il ya une

préférence donnée à l'ontologie, la plupart des conflits sont résolus en fusion doit suivre la

sémantique de l'ontologie préféré. Par exemple, envisager de fusionner des propriétés lors de

propriété Montant: flotteur en Oa et montant: double dans l'ontologie préféré Ob vont être

fusionnés. Le processus de fusion résout automatiquement les conflits tels sur la base de la

préférence. Dans un autre cas, où la préférence n'est pas donné, il recherche dans la table de

résolution ou ne s'appliquent mécanismes d'inférence pour la résolution des conflits au cours

de l'opération de fusion.

4.2.5 Vérification de l'ontologie fusionnée

Une fois l'ontologie fusionnée est généré, il est très important de vérifier son exactitude. Il est

possible que l'ontologie fusionnée contient des incohérences, des erreurs et / ou de

licenciements. Existant raisonnement DL ontologie ou d'outils d'évaluation peuvent être

utilisés pour vérifier la vérification de l'ontologie fusionnée. Nous construisons nos critères

d'évaluation basés sur des critères cohérence, l'exhaustivité et de la redondance pour la

vérification de l'ontologie fusionnée.

4.2.6 Itération

Le processus de génération de l'ontologie fusionnée a une très grande complexité. L'ensemble

du processus, depuis l'identification de cartographie pour la validation de cartographie et de

résolution des conflits de génération de l'ontologie fusionnée peut être source d'erreurs. En

outre, pour les produits semi-automatique de l'ontologie fusion, il est nécessaire d'effectuer

des itérations pour permettre améliorations manuelles dans les étapes sous-jacentes. Lorsque

l'utilisateur sélectionne les candidats à la fusion de concepts, concept issue de la fusion est

généré dans l'ontologie fusionnée, et le système effectue une itération de voir l'impact des

concepts fusionnées, vérifie sa cohérence et de précision, et met à jour la liste de suggestions

pour les paires de candidats pour la fusion à venir. Mode entièrement automatique de

l'ontologie fusion exige aussi itération, de vérifier et d'analyser l'exactitude de l'ontologie

fusionnée. Il vérifie que l'ontologie fusionnée unifie toutes les informations présentes dans les

ontologies sources de manière cohérente et concise.

4.3 Problèmes potentiels et la résolution de conflits

L'objectif principal du module ConsistencyChecker de DKP-AOM est d'assurer la

satisfiabilité de l'ontologie fusionnée mondiale qui est généré par la suite mappages initiaux,

de sorte que Tbox (boîte terminologique) et Abox (boîte de assertionnel) de l'ontologie

globale comprennent de série cohérente du concept généralisé inclusions (par exemple, le

GCI: C ⊑ D reste constante selon ontologies locales), et d'autres axiomes ontologiques et

définitions.

Plusieurs détecteurs incohérence, l'intérieur du composant ConsistencyChecker, sont

responsables de trouver les incohérences sémantiques dans les cartographies initiales trouvés.

Chacun des détecteurs fonctionne indépendamment en utilisant l'algorithme spécifique de

sorte que les mappages ne cohérentes et exactes sont générés pour construire l'ontologie

fusionnée satisfiable. Quand un détecteur découvre une cartographie incompatibles, il notifie

à la ConsistencyChecker qui met en garde contre les situations incompatibles, ce qui pourrait

se produire dans l'ontologie globale fusionnée par la suite incompatible cartographie initiale.

Par conséquent, il réduit l'intervention humaine en validant l'ontologie fusionnée

automatiquement. Il existe différents types d'incohérences, l'incomplétude et les licenciements

qui peuvent survenir dans une ontologie, et dans l'ontologie fusionnée ainsi en soulignant la

similarité et processus de fusion. Par conséquent, nous exploitons un critère de qualité basé

sur la cohérence, l'exhaustivité et la concision de l'ontologie fusionnée. Les sous-sections

suivantes élaborer cet aspect en détail.

4.3.1. GCIs incohérentes de définitions axiomatiques

Mondiale ontologie fusionnée, GO, est destiné à être sémantiquement cohérent quand son

Tbox répond à tous l'ensemble des Inclusions concept généralisé (DCG) de locaux ontologies

hétérogènes, et tous les concepts suivre les critères de subsomption à l'égard de la

connaissance dans les ontologies locales. Lorsque DCG locale de conflit ontologies

hétérogènes les uns aux autres, puis l'ontologie globale fusionnée souffre de divers types

d'incohérences sémantiques. Formellement, les définitions suivantes exprimer la règle de

subsomption pour l'ontologie globale et les mappages incompatibles.

Définition: Pour GO ontologie globale, une interprétation répond à un GCI C ⊑ D si et

interprétation est un modèle de Tbox , si elle satisfait à toutes les GCIs dans la TBox .

Définition: Cartographie (C, C') et cartographie (D, D') sont sémantiquement incompatibles

car elles violent la règle de subsomption à l'égard de GCIs locale ontologies O1 et O2, de

sorte que dans O1, C ⊑ D par rapport Tbox locale et dans tous les modèles , Et en

O2, D '⊑ C' par rapport Tbox locale et dans tous les modèles .

4.3.2. Incohérence circulaire dans la hiérarchie fusionnée

La définition suivante explique comment l'incohérence circulaire peut se produire dans la

hiérarchie fusionnée.

Définition : Mapping (A, M) et de la cartographie (B, O) créer incohérence cyclique lorsque

dans O1 A ⊑ B, et en O2 O ⊑ M. incohérence cyclique tel peut se produire au niveau 0, 1 ou

n lors de la fusion d'ontologies source.

4.3.3. conflit d'alignement entre les relations disjointes

Mondiale GO ontologie fusionnée est exempt de conflit d'alignement entre les relations

disjointes lorsque tous les concepts dans sa TBox satisfaire tous l'ensemble des axiomes

locales présentes dans les ontologies hétérogènes, et tous les concepts suivre les critères de

satisfiabilité par rapport au disjoints ou se chevauchant connaissances dans les ontologies

locales. Il existe plusieurs possibilités de conflit entre l'alignement des relations entre

disjoints ontologies locales qui surviennent lorsque deux concepts dans l'ontologie O1

sources sont disjointes mais qui se chevauchent dans l'ontologie O2, c'est à dire, il ya une

classe commune, relation d'équivalence, relation parent-enfant, instance commune entre les .

4.3.4. Redondance de disjonction

Lors de la fusion d'ontologies hétérogènes, les axiomes disjoints dans des ontologies sources

méritent une attention particulière. D'un côté, leur omission créer incomplétude dans

l'ontologie globale et de l'autre côté, ils créent inconciseness et des licenciements. Il peut y

avoir deux situations pour la redondance de disjonction, directement ou indirectement entre

les concepts disjoints. Redondance de disjonction directe / indirecte se produit, lorsque dans

l'ontologie fusionnée, il ya des axiomes disjoints entre les concepts qui sont déjà disjoints par

eux-mêmes directement ou leur héritage parent.

4.3.5. Définitions identiques et redondants

Mondiale ontologie fusionnée devrait conceptualiser et unifier l'information des ontologies

source sans aucun licenciement. Tous les concepts et les propriétés doivent avoir des noms

uniques et des définitions. Mais, lors de la fusion d'ontologies hétérogènes, différents types de

conflits de noms et de définitions identiques peuvent se produire entre les concepts des

ontologies, des propriétés de type de données, les propriétés des objets. Dans certains cas,

conflit de nom peut se produire entre le concept et les propriétés de type de données ainsi.

Pour résoudre ce conflit, DKP sélectionne l'une (préférentiel) à partir des noms

contradictoires, et éviter de créer des définitions formelles identiques ou noms de construire

l'ontologie dans l'ontologie fusionnée.

4.3.6. Classification incomplète des concepts

Classement notion incomplète ou une granularité d'information se produit lorsque le

processus de fusion a ignoré certaines constructions liées à des concepts ou des propriétés

d'ontologies source dans l'ontologie fusionnée. Cette conceptualisation résulte incohérente de

la connaissance du domaine et de l'incomplétude des définitions dans l'ontologie fusionnée.

4.3.7. Redondance la sous-classe des axiomes

Inconciseness dans l'ontologie fusionnée peut se produire lors de la fusion d'ontologies

source.

Définition: Mapping (A, M), de cartographie (B, N), puis de cartographie (C, O) créer

subsomption redondante lorsque dans O1 C ⊑ B ⊑ A, et en O2 N ⊑ M, O M ⊑, mais O ⊑¬ N

(ici C, B, O, N ne sont pas satisfiable en GO) et il est un type spécial de conflit satisfiabilité.

Inconciseness in merged ontology can occur during the merging of source ontologies.

4.4 Résultats expérimentaux et les évaluations

Cette section présente les résultats expérimentaux et l'évaluation de notre approche et des

algorithmes de fusion d’ontologies.

4.4.1 Accès importance des axiomes disjointes et les partitions disjointes lookup

Pour trouver la meilleure correspondance de tout concept de l'ontologie O1 on a besoin d'une

analyse exhaustive de tous les concepts de l’ontologie O2. Le résultat est alors n1*n2

comparaisons où n représente le nombre de concepts de l'ontologie. Les axiomes disjoints

séparent la connaissance dans des mandrins distincts et permettent la liaison des concepts à

l'intérieur des frontières de la sous-hiérarchie de l’hiérarchie de concepts de l'ontologie.

Lorsque les axiomes disjoints sont correctement placés dans des hiérarchies de classes

l’exécution en temps réel sera réduite. Par exemple, dans les ontologies Vertebrates et

Vértébrés, lorsque Birds sont reliés au concept Oiseaux et Animal reliés au concept Animaux,

ça veut dire que ces concepts sont disjoints dans des ontologies individuelles, alors

l'algorithme de fusion devrait consulter les correspondances des sous-concepts de Birds sous

les sous-concepts du concept Oiseaux et non dans toute l'ontologie. Ce concept de recherche

dans les partitions disjointes réduit considérablement l'espace de recherche de l'algorithme.

Nous avons testé les ontologies multilingues avec et sans axiomes disjoints pour mesurer

l'efficacité de l'algorithme de fusion. Le test est effectué sur 4 ensembles d'ontologies et la

complexité d'exécution est mesurée à chaque fois.

Figure 1.6. Temps estimé consommé avec et sans axiomes disjoints

rechercher dans les ontologies source

Sur la base de ces ensembles de données, le temps est mesuré pour mesurer l'importance des

axiomes disjoints dans les ontologies source. La figure 1.6 présente les statistiques obtenues à

partir des tests réalisés avec des axiomes disjoints (WDA) et avec l’approche sans axiomes

disjoints (WODA) pour la recherche de la cartographie. A partir du temps estimé, nous

concluons que la stratégie de recherche des partition disjointes fonctionne bien pour la

construction d’un espace de recherche pour l'identification des correspondances entre les

ontologies hétérogènes. Une fois les concepts de niveau supérieur sont mis en

correspondance, la recherche pour leurs enfants doit être procédée dans leurs hiérarchies

basses, plutôt que dans l'ensemble de l'ontologie. Cette technique de recherche sert à réduire

la complexité temps et les ressources de la mémoire, surtout quand les ontologies sources

possèdent de nombreux concepts.

4.4.2. Fusion ontologies de conférence

Nous avons évalué l’implémentation du prototype de recherche et effectué des tests sur les

différentes ontologies Web appartenant à 5 catégories différentes, à savoir, l'Université, la

publication, livre, voyage et à la Conférence. Dans ce travail, nous élaborons les résultats

expérimentaux sur les ontologies Voyage et Conférence développées avec OWL des

communautés différentes. Les ontologies Conférence sont PCS, CRS_DR et CMT, ils sont

librement disponibles sur Internet. Ces ontologies répondent à la demande croissante de la

communauté universitaire pour le système de gestion des conférences, et bien adapté à nos

tests.

Dans cette expérience, nous avons vérifié manuellement les constructions d’ontologie OWL

dans l'ontologie principale fusionnée pour mesurer la cohérence, l'exhaustivité et la

cohérence. Le résultat expérimental peut être positive ou négative en fonction de la précision

de l'algorithme de fusion. Le résultat de l'expérience pour chaque concept peut ou peut ne pas

correspondre aux résultats des tests manuels, ce qui entraîne quatre cas différents, c'est à dire

vrai positif (TP), vrai négatif (TN), faux positifs (FP) et de faux négatifs (FN). Sur la base de

ces quatre cas, précision = TP / (TP + FP) et du rappel = TP / (TP + FN) les valeurs sont

calculées et visualisées dans la Figure 1.7.

Figure 1.7 Précision et rappel sur les ontologies de conférence

5. Classification des ontologies Web

Parfaitement similaire au web actuel, la recherche de la connaissance pertinente est l'un des

principaux problèmes pour le Web sémantique. Pour la réalisation de la vision du Web

sémantique, il y’a eu beaucoup d'efforts supplémentaires nécessaires pour tenir les promesses

de haute précision grâce à l'utilisation de la sémantique disponible et le raisonnement sur les

ontologies, ainsi que la récupération de résultats précis avec le rang et les relations entre eux.

Ce dilemme exige une bonne définition des ontologies Web, ce qui est également essentiel

pour de nombreuses autres tâches telles que le développement de répertoires d'ontologies sur

le web [Dmoz, 07], la concentration rampant sur la récupération de l'ontologie [Ehrig, 05; Su,

05], l’analyse d’ontologie modulaire et spécifique du concept [Seidenberg, 06], l'amélioration

de la qualité de la recherche [Pan, 06], etc.

La classification est traditionnellement définie comme un problème d'apprentissage supervisé

dans lequel un ensemble de données étiquetées est utilisé pour entraîner un classificateur qui

peut être utilisé pour étiqueter les prochains exemples [Mitchell, 97]. La classification

d’ontologies est un problème de classification difficile pour la gestion et la récupération

d'ontologie efficace et efficiente pour le Web sémantique et les applications métiers de

l'entreprise basées sur les ontologies. Le Figure 1.8 montre un exemple de classification

d’ontologies.

Figure 1.8: Exemples de l'ontologie Classification (a) à catégories multiples, seule étiquette et

de la classification de l'ontologie dur, (b) Binary Classification des ontologies

De nombreux recherches accomplies pour la construction de portails web sémantique, il est

devenu évident qu'il y’a un degré très élevé de redondance dans le web sémantique. Les

recherches menées au cours de la construction de Watson ont révélé que 20% du contenu

sémantique collecté est redondant [Aquin, 2007b]. En outre, Swoogle a obtenu 119 résultats

pour la requête « student university researcher » [Aquin, 2007b]. De plus, Swoogle a

recherché plus de 300 termes distincts qui apparaissent uniquement pour le concept " Person"

[Ding, 05].

Par conséquent, nous suggérons que ces contenus sémantiques redondants doivent être

regroupés ensembles dans des répertoires Web afin que les tâches d'ingénierie d'ontologies

soient accélérées. Afin de relever le défi réel de recherche et de récupération d’ontologies,

nous avons construit une approche basée sur l'ontologie pour la classification d’ontologie qui

facilite de telles tâches (Fahad et al., 2010 et 2011). Nous pensons qu'une fois que les

ontologies sont correctement classées, elles seront fouillées d'une manière sémantique saine

dans une application basée sur les ontologies ou dans le Web sémantique. Pour la

construction, OntClassifire, nous bénéficions de notre approche existante de cartographie des

ontologies développée avec plusieurs modifications et élaborée dans les sections suivantes.

5.1 Classifier d'ontologie sémantique

Cette section présente notre classificateur d’ontologies sémantique, OntClassifire, et aborde le

calcul de similarité sémantique pour la classification d’ontologies entre le domaine et les

ontologies arbitraires. Il vise à classifier les ontologies arbitraires dans une ou plusieurs

catégories prédéfinies qui sont représentés par des étiquettes de classe pour la gestion et la

recherche efficace de l'ontologie.

Figure 1.9. Entrée et sortie du classificateur d'ontologie

OntClassifire calcule un rang de correspondance sur la base d'un algorithme de

correspondance d'ontologies (voir la figure 1.9), et de cette façon les résultats de la

classification la plus précise des ontologies arbitraires comme le contexte de concepts, de

propriétés et de la structure de la connaissance est adapté et analysé. Il exploite les techniques

de correspondance schématiques existantes (c’est-à-dire linguistique, synonyme et

axiomatique) pour le calcul de rang de la correspondance. Nous travaillons avec les

ontologies OWL, mais la méthodologie peut être appliquée aussi pour le calcul de la

similarité et la classification d’autres ontologies. Les sous-sections suivantes permettent

d’élaborer la méthodologie, de montrer son utilisation, et de discuter des résultats de

l'expérimentation.

5.2 Les calculs correspondent Classement par OntClassifire

Le ontClassifire obtient une ontologie arbitraire Oa dans le but de la classifier. Il commence le

calcul de la similarité sémantique entre Oa et les ontologies de domaine Od1, Od2,…,Odn

appartenant aux catégories prédéfinies. Pour le calcul de la similarité, chacun des concepts des

ontologies est analysé. Par exemple, le concept «livre» est jugé sur la base de son étiquette,

les attributs (par exemple, l'ISBN, Titre), les relations (par exemple, l'auteur written_by,

éditeur published_by) et son voisinage sémantique (par exemple, les parents et les enfants des

concepts). Par conséquent, le modèle proposé utilise toutes les connaissances syntaxiques,

structurelles et sémantiques présentes dans les ontologies pour calculer le rang de

correspondance pour qu'une ontologie arbitraire doive être affectée à une étiquette précise de

catégorie prédéfinie.

Pour les deux ontologies Od et Oa, pour lier un concept c de Od avec le concept c' de Oa, il

exploite plusieurs paramètres de similitude sémantiques inter-ontologies pour calculer si le

concept c est similaire à c'. Enfin, ontClassifire agrège les similitudes constatées entre les

concepts des ontologies, calcule le rang de correspondance, et lui attribue une étiquette à une

ontologie Oa arbitraire.

Sim_ agrégat = αSimlab+βSimdp+γSimop+µSimprt+ΘSimchd+ΩSimaxm

Wg_ agrégat = α+β+γ+µ+Θ+Ω

Sim (o, o’) = Sim_ agrégat /Wg_ agrégat …………………… (1)

Lorsque, SimLab (similitude de l’étiquette du concept), Simdp (similitude des propriétés du

type de données), Simop (similitude des propriétés de l'objet), Simprt (similitude des parent

des concepts), Simchd (similitude des enfants des concepts), Simaxm (DL similitude des

axiomes) entre les concepts c et c '.

Une fois que les similitudes entre les concepts de l'ontologie de domaine Od et une ontologie

arbitraire Oa sont calculés, OntClassifire calcule ensuite un rang de correspondance entre

l'ontologie Od et Oa en agrégeant les poids des concepts, par example voir la Figure 1.10.

Comme les catégories qui se chevauchent partagent les vocabulaires communs, d'où des poids

avec les concepts des ontologies de domaine dominent les attributs spécifiques de chaque

catégorie. L'utilisateur peut configurer ces poids (α, β, γ, µ, Θ, Ω) qui permettent d'évaluer les

paramètres de similarité sémantique. En outre, l'utilisateur peut ajuster les poids de la

similarité linguistique et la similitude des synonymes. Les facteurs de calcul de similarité sont

les mêmes que dans le cas de la fusion de l'ontologie, mais diffèrent dans la manière dont ils

sont calculés.

Figure 1.10 Mécanisme de classification de l'ontologie

5.3 Evaluation de OntClassifire

Nous avons effectué un test pour déterminer l'efficacité de l'approche ontologique pour la

classification des ontologies Web avec les approches ontologiques simples et pondérés. Nous

avons également comparé ces approches avec le critère de classification populaire Naïve

Bayes qui a été choisi comme le meilleur algorithme pour le OntoKhoj. Pour la réalisation de

l'expérience, d'une part, nous avons construit l'ontologie hiérarchique qui contient plusieurs

catégories, par exemple, l'Université, ComputerScience_Department et publication. La

catégorie de publication est en outre classée en plusieurs sous-catégories, comme livre,

Conference_Proceeding, Journal, Thèse, magazine, journal, etc. D'autre part, chacune des

catégories est élaboré avec l'ontologie de domaine qui enrichit la sémantique et différencie les

catégories en elles-mêmes. Ces catégories se chevauchent et donc les ontologies de domaine

partagent un vocabulaire commun en termes de concepts (par exemple, auteur, éditeur, etc.),

de propriétés (ISBN, titre, prix, etc.) et de relations (par exemple, collection des, formatType,

etc.) entre eux. Par conséquent, les axiomes, les concepts et les propriétés différenciés entre

ces catégories sont affectés par une pondération dans les ontologies de domaine, de sorte que

le classement peut être fait avec plus de précision sur la base des aspects spécifiques de

différenciation de chaque catégorie.

Lorsque l'ontologie arbitraire Oa est disponible, OntClassifire calcule les similitudes entre les

ontologies de domaine et l'ontologie arbitraire. Enfin, sur la base d'un rang de correspondance

calculé le plus élevé, une étiquette est attribuée à une ontologie arbitraire

Conference_Proceeding (proc.), et le rang de correspondance est conservé dans la base de

connaissances qui serait utilisé pour les futures réponses de requête pour récupérer l'ontologie.

Nous concluons après ces tests que les différents paramètres possèdent des valeurs différentes

pour juger les correspondances entre les ontologies. Il n'y a pas un seul paramètre qui est

considéré comme efficace lorsque les ontologies sont développées par des communautés

différentes ayant des perspectives différentes et des besoins dans le domaine. Seule la

correspondance hybride basée sur les mesures de similarité combinés entres les étiquettes, les

attributs, les relations et les descriptions de classe peut produire le meilleur résultat.

Les résultats expérimentaux montrent que l'approche ontologique pour la classification des

ontologies Web est la meilleure approche basée sur l'analyse comparative entre la

classification texte du Bayer Naive et les approches ontologiques, voir la Figure 1.11.

Figure 1.11 Comparaison des OntClassifire avec l'algorithme de classification de texte

Les résultats obtenus avec l’approche ontologique simple sont meilleurs que l'algorithme

de classification de texte, et en promettant lorsque certains poids sont fixés sur les ontologies

de domaine qui dominent considérablement le vocabulaire de chaque catégorie. De plus, les

ontologies qui se chevauchent, partageant les vocabulaires communs sont correctement

classés par l'approche ontologique pondérée. La plupart des classifications erronées par

l'algorithme de texte sont observés avec la catégorie de publication, qui est la catégorie de

base et subdivisée en trois autres sous-catégories, c'est à dire, Livre, Conference_Proceeding

et Journal. Lorsque l'algorithme de classification texte trouvé des points communs entre la

terminologie clé d'une ontologie arbitraire Oa et la catégorie Publication ontology, il attribue

une ontologie arbitraire Oa qui est le label le plus général. En outre, en raison de l'hypothèse

d'indépendance naïve bayer, à savoir, la présence d'une caractéristique n'est pas liée à la

présence d'autres fonctionnalités. Mais, il est évité par les approches ontologiques en utilisant

une analyse structurelle combinée via des définitions axiomatiques et des associations entre

les concepts.

ingénierie des ontologies du web sémantique par...

Documents