ingénierie des ontologies du web sémantique par...
TRANSCRIPT
Ingénierie des Ontologies du Web Sémantique
par Ontologie Fusion et Classification
Résumé. Le Web Sémantique constitue un environnement dans lequel les agents humains
et machine vont communiquer selon une base sémantique. Le Web Sémantique utilise la
notion d'ontologies pour la conceptualisation et l’extraction des connaissances du domaine et
les stocke en termes de concepts et de propriétés dans la machine d'une
manière compréhensible et traitable. En raison de leurs capacités de décidabilité et
d'expressivité, les ontologies ont joué un rôle fondamental pour décrire la sémantique
des données non seulement dans le web sémantique émergents, mais aussi dans l'ingénierie
des connaissances traditionnelles et les systèmes de traitement de l'information. Néanmoins,
l’augmentation du nombre d'ontologies développées et maintenues sur le web, exige une
multitude de nouvelles techniques pour la réalisation de la vision du Web sémantique. Cette
thèse traite deux tâches de gestion d'ontologies multiples sur le web sémantique, c'est à dire la
fusion d'ontologies hétérogènes et leur classification.
Aujourd’hui, les ontologies sont développées pour des fins, des besoins et des exigences
multiples. Les mêmes ontologies partagent des domaines de connaissance qui se
chevauchent et peuvent êtres utilisées pour l'annotation de sources de données multiples
telles que les pages Web, les référentiels XML, les bases de données relationnelles, etc. Une
telle utilisation d'ontologies représente un moyen de fournir une compréhension
partagée / commune de divers domaines ce qui permet d’avoir un certain
degré d'interopérabilité entre ces sources de données. Afin répondre à ces exigences,
l'alignement d'ontologies, la cartographie et les systèmes de fusion ont fait leur
apparition. Ces techniques sont les solutions les plus répondues dans les domaines
d'application puisqu’elles établissent des collaborations qui impliquent le partage des
données, des connaissances et des ressources entre les sociétés modernes. Elles aident aussi
à développer une nouvelle ontologie existante en réutilisant des ontologies ouvertes et réduire
considérablement le coût de la construction d'une nouvelle ontologie. Bien, qu’il ya un grand
effort réalisé, néanmoins, la fusion des définitions axiomatiques des concepts
reste une question de recherche encore ouverte. En outre, l’état de l'art des systèmes de fusion
d'ontologies est semi-automatique qui réduit uniquement le fardeau de la création manuelle et
la maintenance des mappings et des besoins d'intervention humaine pour leur validation.
Cette thèse présente des travaux de recherche concernant la fusion sémantique, DKP, qui
proposent des méthodes nouvelles pour la détection automatique des incohérences
sémantiques, la fusion des définitions axiomatiques et les stratégies de résolution des conflits
dans le processus de fusion d’ontologies. L’objectif principal est de vérifier l'exactitude et la
cohérence sémantique d'applications, et d'assurer la satisfiabilité de l'ontologie
fusionnée. Pour atteindre cet objectif, d'abord, ce travail utilise une stratégie hybride pour
détecter d’éventuels mapping en suivant diverses correspondances individuelles. Puis, il
emploie des critères de test qui détectent les incohérences sémantiques à partir de la liste des
mappings initiaux en exploitant toutes sortes de connaissances dans les ontologies locales. Il
vérifie que les concepts lexicalement similaires, au sein de l'ontologie locale source, ne se
contredisent pas tout en respectant le jeu d'axiomes (subsomption, disjonction, etc.). Les
mappings initiaux entre les concepts des ontologies locales sont marqués en fonction du degré
de différence ou de conflit dans le schéma individuel. Le module de vérification de cohérence
agit comme un filtre à l'étape initiale de fusion en vérifiant l'ensemble des conditions de base
avant d'autoriser les axiomes d'être ajouté à l'ontologie globale. En outre, nous avons conçu
un nouvel algorithme qui construit l'espace de recherche pour la cartographie basée sur des
partitions disjointes dans des ontologies source. Rechercher dans les partitions disjointes
minimise l'espace de recherche dans le processus de recherche de mappings. Cette action
permet par conséquent de réduire la complexité d'exécution de la fusion d'ontologies. Le cadre
d’étude proposé est mis en œuvre et évalué sur différents cas réels de test avec des résultats
encourageants qui ont prouvé empiriquement ses avantages. Notre cadre permet d’exploiter
plus la sémantique fournie dans les ontologies sources et d’utiliser des critères de test pour les
mappings initiaux trouvés. De plus notre approche améliore la précision de la fusion
d’ontologies, minimise l'intervention humaine un pas de plus vers le bas pendant le processus
de fusion, et produit une ontologie globale cohérente et complète à partir d’ontologies locales
hétérogènes. De cette façon, il forme une couche globale à partir de laquelle plusieurs
ontologies locales hétérogènes peuvent être consultées et donc pourront faire l'échange
d'information dans les moeurs sémantiquement.
Nous avons appliqué la méthodologie de fusion d'ontologies sur l'intégration de données
pour vérifier son efficacité et son efficience. L'intégration de données fait apparaitre le
problème de formation d’une vue unifiée des sources de données distribuées et
hétérogènes. La nécessité de tels systèmes est nécessaire lorsque deux entreprises allaient
être fusionnées ou des pièces différents unités de l'entreprise adoptent des
systèmes différents pour gérer leurs données critiques. Un de ces cas est l'entreposage de
données, où le système extrait, transforme et charge des données provenant de plusieurs
sources dans un schéma unique interrogeable. Cette approche (ETL) donne les meilleurs
résultats des requêtes puisque les données résident ensemble dans un référentiel unique,
mais, engendre un coût énorme lorsque les sources locales de données sont actualisées. Pour
remédier à cet inconvénient, la tendance est favorisée par la construction d'un entrepôt virtuel
basé sur un médiateur dans les dernières années. L’intégration virtuelle des données facilite
le placement physiquement dans les sources de données originales et laisse le choix à
l'utilisateur de localiser les sources locales pertinentes pour une requête, d'interagir
avec chacun d'eux indépendamment et de combiner manuellement les données provenant de
sources multiples. En fait, il existe plusieurs problèmes liés à l'intégration de
données virtuelles, mais dans notre étude de cas, nous nous sommes intéressés à l’analyse et
la construction de critères de qualité pour améliorer les résultats des requêtes. Les principales
composantes de l'étude de cas est la correspondance des schémas pour construire un schéma
global, le calcul des correspondances sémantiques entre les schémas individuels,
et l’exécution de la requête pour récupérer les résultats par la réécriture de
requêtes, l’obtention des réponses locales, et enfin la construction de réponses
globales. L'utilisateur formule une requête en fonction du schéma global générée par
notre outil de fusion d’ontologies (DKP) et le médiateur adopte des mécanismes pour
exécuter la requête afin d'apporter des réponses significatives. Pour cela, il traduit
une requête formulée sur le schéma médiation en une requête dédiée directement à des
schémas dans les sources de données.
Les résultats d'intégration de données générés souffrent souvent d'incohérence,
d'incomplétude et de redondance. Toutefois, à partir de cette étude de cas, nous avons trouvé
que la qualité du schéma global a un lien fort avec les résultats obtenus des requêtes, parce
que lorsque le schéma global comporte des incohérences relatives à des
informations incomplètes de la source locale ou des redondances, les résultats à la
requête serait fortement compromis. Une information globale redondante dans le schéma
global entraine l’accès à des informations inutiles par le médiateur et l'exécution des requêtes
peut prendre beaucoup plus de temps. L'incomplétude du schéma global ne donne pas à
l'utilisateur une vue complète unifiée sur des données distribuées sur laquelle la requête peut
être effectuée. De même, l'incohérence dans le schéma global fournit des résultats vides,
contradictoires et inexactes. Notre étude de cas a permis d'améliorer le mécanisme de réponse
à des requêtes. Ce mécanisme de réponse est basé sur la sémantique des ontologies sous-
jacentes et fournit un mécanisme pour trouver des informations plus implicites sur les
sources de données. Le mapping sémantique des concepts a permis l'extraction inférée
d'autres types d'information implicite à partir de plusieurs chemins sémantique entre sources
de données. Les requêtes des utilisateurs sont transformées en requêtes qui peuvent
fournir des résultats plus significatifs afin de mieux répondre aux intentions de
l'utilisateur. Nous avons conclu que les critères de qualité basés sur la détection d'incohérence,
l'incomplétude et la redondance est un modèle approprié pour soutenir l'entrepôt virtuel.
Cette thèse explore une autre tâche essentielle de la classification des ontologies Web.
L’intérêt du web sémantique avec le nombre de plus en plus important d'ontologies, où les
ontologies multiples associées à un même domaine / concept semble être assez fréquent, sont
d'une importance immense pour classer les ontologies Web en hiérarchies de domaine
respectifs. Il aide les humains et les agents Web pour trouver l'ontologie correcte et souhaitée
(ou concept) sur le web et soutient les processus d'ingénierie ontologique. La classification
d’ontologies est également essentielle pour de nombreuses autres tâches telles que le
développement des répertoires d’ontologie sur le web, la focalisation sur la récupération
d’ontologies, le concept d'analyse spécifique d’ontologies modulaires, l'amélioration de la
qualité de la recherche, etc. Dans le but de relever le défi réel de la recherche et la
récupération d'ontologies, cette thèse a proposé une approche basée ontologie pour la
classification d’ontologies. Nous pensions que les ontologies une fois classées correctement,
elles sont recherchées de manière sémantique dans les applications basées ontologies sur le
Web sémantique. Pour construire une approche de classification sémantique, nous avons
utilisé notre méthodologie de correspondance d'ontologies et remplacé l'approche de
classification de texte par l'approche d’ontologie spécifique pour le classement des ontologies
Web. Nous avons réalisé une étude de cas et nous sommes conscients que l'approche basée
sur d’ontologie fonctionne mieux pour faire chevaucher les ontologies qui se croisent en
raison de leurs hétérogénéités sémantiques et l'exigence de la structure des connaissances lors
de la modélisation du domaine. La classification d’ontologies, fondée sur une approche de
correspondance d’ontologies, exploite la correspondance de la connaissance du contexte
spécifique qui résulterait d'une ontologie de classification arbitraire dans une catégorie
appropriée, avec la distribution de probabilité sur l'ensemble des catégories. L'utilisation de la
correspondance d'ontologies pour la classification d’ontologie a donné une plus grande
précision du processus de classification en particulier dans le cas des ontologies qui se
chevauchent, où les algorithmes de classification texte ne fonctionnent pas bien dans les
portails actuels du web sémantique. Ce travail de classification des ontologies Web peut
contribuer à la construction, l'entretien et l'expansion des répertoires d’ontologies sur le web
sémantique. Actuellement, les répertoires d’ontologies sont maintenus par des éditeurs
humains qui facilitent aux utilisateurs d’explorer des ontologies au sein d'un ensemble
prédéfini de catégories. Le classificateur d’ontologies fait ce travail fastidieux de façon
automatique en remplaçant les efforts manuels pour aider à actualiser et élargir ces annuaires.
1. Introduction au problème de la recherche Le Web sémantique fournit des communautées virtuelles qui permettent aux agents logiciels
et les utilisateurs à extraire, utiliser et partager les connaissances. Il utilise la notion
d'ontologie pour la conceptualisation et l'élicitation des connaissances du domaine et le stocke
en termes de concepte et de propriétés dans la machine d'une manière compréhensible et
traitable. En raison de leurs capacités de décidabilité et d'expressivité, les ontologies ont joué
un rôle fondamental pour la description sémantique des données non seulement sur le web
sémantique émergente, mais aussi dans l'ingénieurie des connaissances traditionnelles, et
d'agir comme une épine dorsale à base de connaissances et d'information fondés sur la
sémantique les systèmes de traitement. Plusieurs tâches telles que le stockage, le traitement, la
récupération, la prise de décision, etc., par de tels systèmes sont effectués sur la base
d'ontologie. Mais, le nombre d'ontologies étant développés et maintenus sur le web augmente
considérablement, ce qui exige de nouvelles techniques différentes pour le stockage de
l'ontologie, la classification, le classement, la réutilisation, la recherche, etc. Même que le web
actuel, la recherche de la connaissance pertinente est l'un des principaux problèmes pour le
web sémantique émergent. Ainsi, pour la réalisation de la vision du Web sémantique, il a
besoin de beaucoup d'efforts supplémentaires nécessaires pour remplir ses promesses.
Comme le web actuel syntaxique, les données sur le web sémantique sera distribué et
hétérogène. Sémantique des données est représenté par des ontologies afin que la machine
peut accéder et de les traiter pour assurer l'interopérabilité sur le Web sémantique.
Consortiums différents se développent ontologies dans les domaines qui couvrent les
différents aspects et les informations de chevauchement. Par conséquent, le nombre explosive
des ontologies (où beaucoup d'entre eux contiennent des chevauchement des connaissances)
sur le web sémantique, deux défis majeurs ont besoin d'attention pour la réalisation de sa
vision convaincante. Tout d'abord, le problème de la fusion pour les ressources du web
sémantique existe en tant que l'un de ses défi majeur pour permettre l'interopérabilité
automatique et intelligente entre les agents et les applications hétérogènes. Il est également
essentiel pour la construction des ontologies pour les domaines en constante évolution,
interdisciplinaires et spécifiques. Ontologies pour les domaines en évolution aller sur les
changements que le domaine évolue. Il a besoin de fusionner des ontologies différentes
versions de base pour produire des nouvelles ontologies les plus riches. L’ontologies
interdisciplinaires peuvent avoir besoin d'être créé par la fusion de tâches existantes
spécifiques au domaine des ontologies. L’ontologies spécifiques peuvent également être
fusionnées avec les ontologies plus généraux et les nouvelles informations peuvent devoir être
fusionnée avec des ontologies existantes. Par conséquent, l'ontologie fusion semble être un
défi pour l'accomplissement de la vision du web sémantique. Le second défi majeur appartient
à la facilitée de gestion d'ontologies multiples sur le web sémantique, que même domaine /
association concept avec les ontologies multiples semblent être tout à fait commun. Ce
dilemme nécessite la classification des ontologies Web afin qu'ils puissent mieux recherchés
par des agents et des personnes. Il ya beaucoup d'autres motivations pour ontologie fusion et
la classification (développé dans les sections suivantes), par conséquent, nous considérons
qu'il est d'une importance immense pour étudier et les résoudre.
1.1 Ontologie Fusion - Description du problème
L’ontologie fusion est la création de l'ontologie unique à partir des ontologies différentes
sources (Bruijn et al., 2006). Il est basé sur deux étapes principales. Tout d'abord, les
ontologies sources sont regardé en place des similitudes entre eux. Deuxièmement, sans
doublons union des ontologies de source est réalisé sur la base des similarités établies. Les
ontologies source contiennent chevauchement connaissance du domaine, mais peut contenir
différents types d'hétérogénéités sémantiques qui créent des conflits lorsque vont être
fusionnés (M. Klein, 2001). La nouvelle ontologie fusionnée, qui est entraîné par l'union des
ontologies source, devrait fournir une vue unifiée et cohérente sur les ontologies source.
L’ontologie fusion hérite des problèmes de schéma de fusion et de recherche sémantique
intégration dans la communautée de base de données (Doan et Halévy, 2005). Dans la
littérature scientifique, il existe deux grandes catégories d'approches de fusion (Bruijn et al.,
2006), représenté schématiquement à la Figure 1.1. Dans la première approche, processus de
fusion résulte d'une ontologie de sortie unique qui contient les ontologies sources
individuelles. Les exemples de cette approche sont Prompt (Noy et Musen, 2000), Chimère
(McGuinness et al., 2000), etc. Dans la seconde approche, la fusion des résultats des
processus d'une ontologie pont qui importe les ontologies source et comprennent des axiomes
de ponts ou d'articulation règles qui représentent les mappages sur les concepts des ontologies
source. Les exemples de cette approche sont OntoMerge (Dou, McDermott & Qi 2002),
ONION (Mitra et Wiederhold, 2002), etc.
Dans les deux approches de fusion, le principal obstacle réside dans l'identification et la
résolution des hétérogénéités sémantiques qui se produisent en raison des différences dans
l'interprétation de domaine et la modélisation de la connaissance dans les ontologies, donnant
élever à différents types de déséquilibres et des conflits (Pottinger et Berstain, 2001). Visser et
al. fournir une analyse des disparités ontologiques et hétérogénéités qui peuvent appartenir à
niveau de langage et l'ontologie niveau (Visser et al., 1997). Hétérogénéité linguistique ou
décalages de niveau de langue se produire lorsque les ontologies qui ont été développées dans
différentes langues sont fusionnés, car elles diffèrent dans la syntaxe et la sémantique des
primitives. Les disparités de niveau d'ontologies sont ensuite divisés en deux groupes, et se
produise lorsque la fusion d'ontologies de source est effectuée et qui sont développés dans les
langues identiques ou différents, mais diffèrente dans la manière dont la connaissance du
domaine est interprétée ou modélisée. Le premier groupe, les inadéquations de
conceptualisation peut se produire à la suite d'une différence dans la façon dont les
connaissances du domaine est interprétée. L'autre groupe, les inadéquations explication sont
les différences dans la façon dont les connaissances du domaine est représentée ou modélisée.
Dans les sections suivantes, nous allons discuter de ces impasses en détail et comment
identifier et résoudre les cours du processus de fusion d'ontologies hétérogènes.
Figure 1.1. Types d'ontologie Fusion
Il existe de nombreux scénarios d'application qui peuvent bénéficier de la recherche
ontologie fusion, tels que l'unification de l'instance, l'intégration de base de données,
réutilisation d'ontologies, la conception d'entrepôts de médiation basé sur l'interopérabilité
automatique sur le web sémantique, etc. Il ya quelques autres problèmes d'intégration
sémantique tels que l'intégration catalogue, le schéma et l'intégration des données, peer to
peer intégration de l'information, la composition de services web, transformation de données,
etc, ce qui peut prendre directement ou indirectement un avantage de l'ontologie fusion.
1.2 Ontologie Classification-Description du problème
La classification est traditionnellement définie comme un problème d'apprentissage supervisé
dans lequel un ensemble de données étiquetées est utilisé pour entraîner un classifieur qui
peut être utilisé pour étiqueter les exemples futurs [Mitchell, 97]. Classification ontologie est
un problème de classification difficile pour la gestion efficace et efficiente l'ontologie et la
récupération pour le Web sémantique et ontologie des applications métiers de l'entreprise.
Avant la classification ontologie, beaucoup de travail a été fait pour le classement page Web
qui vise à attribuer une page Web à une ou plusieurs étiquettes de catégories prédéfinies
[Chakrabarti, 02]. Le web actuel est une infrastructure hétérogène contenant des données non
structurées ou semi-structurées de différents types. Cela ouvre un certain nombre d'autres
problèmes de recherche classement, comme, classification des sites web, classement page
web, classement blog, classification des données multimédia. Défis de la recherche pour la
classification des documents Web sémantique peut être élaborée que la classification
ontologie, RDF référentiel classification, etc Maintenant-un-jour, pour un domaine spécifique,
il existe plusieurs ontologies disponibles qui ont été développés par les différentes
communautés en fonction de leurs besoins. Par conséquent, les ontologies multiples associées
à un même domaine/concept semble être assez commun sur le Web sémantique. Par exemple,
comme mentionné dans l'une des études de recherche sur le développement de web
sémantique, portail Swoogle recherches de plus de 300 termes distincts qui semblent tenir
uniquement pour la "personne" concept [Ding, 05]. Il est probable que de grandes ontologies
et complexe exigera une nouvelle solution et index central des ontologies pour la réalisation
de la vision du Web sémantique sonore.
En raison de la nature expressive du ontologies OWL, ils sont plus que les documents texte ou
des pages web HTML. Par conséquent, la classification en texte clair qui bénéficient le
document ou la page Web de classification ne sont pas très utiles pour la classification
ontologie et la recherche sur le Web sémantique. Pour cette raison, une classification
ontologie est non seulement important, mais aussi distinguer les techniques de classification
traditionnels, et mérite donc plus d'efforts de recherche. Il ya beaucoup de points de vue
différents de la classification ontologie, comme onotlogy ou les tâches de gestion de concept
sur le Web sémantique, la promotion exploration plus ciblée et la construction, l'entretien ou
l'expansion des répertoires d'ontologies sur le Web sémantique.
2. Ontologie Fusion Défis et Solutions
Il y’a plusieurs défis tels que l'hétérogénéité sémantique et ontologique Erreurs dans les
ontologies de source, fusionnent les exigences, la détection de correspondances, etc.
2.1 L'hétérogénéité sémantique dans les ontologies
L'hétérogénéité sémantique origine comme une incohérence dans la façon dont le domaine est
interprétée et modélisée. Les catégories d'hétérogénéités sémantiques sont la langue et le
niveau de l'ontologie. Hétérogénéité linguistique ou décalages de niveau de langue se produit
lorsque les ontologies écrites en langages ontologiques différents, tels que OWL, RDF
Schema, DAML, LOOM, etc, sont combinées car elles diffèrent dans la syntaxe, la
représentation logique, sémantique des primitives et expressivité langue (Chalupsky, 2000 ).
Ces types de mésappariements peuvent être réparés en fournissant des mécanismes de
traduction d'une langue à une autre représentation (Klein, 2001).
Les disparités de niveau ontologie se produisent lors de la fusion est effectuée entre les
ontologies qui sont écrites dans les langues identiques ou différents, mais diffèrent dans la
façon dont le domaine est modélisée ou interprété (Klein, 2001). Ces disparités sont encore
divisées en deux groupes. Le premier groupe, les inadéquations de conceptualisation peut se
produire à la suite d'une différence dans la façon dont le domaine est interprété. L'autre
groupe, les inadéquations d’explication sont les différences dans la façon dont la
conceptualisation est spécifiée ou modélisée dans l'ontologie. Inadéquations d’explication se
produit lorsque les ontologistes utilisent des termes synonymes ou l'homonyme de la
représentation des mêmes concepts, les différents formats de codage des valeurs de concept
ou ils sont dus à des styles de modélisation différents (Visser, 1997; Wiederhold, 1994). Ces
discordances peuvent être réparées en utilisant des algorithmes de chaînes correspondant,
chercher thésaurus des synonymes ou des termes homonymes, et l'analyse logique de la
description des définitions des concepts dans les sources d’ontologies. Ces relations inter-
ontologies lors de trouver des correspondances dans les ontologies sont définies comme étant
: Synonyme (même sens avec des noms différents), homonyme (même nom avec une
signification différente), hyponyme (terme plus précis) et hyperonyme (plus générale). Les
inadéquations de conceptualisation se produisent en raison des différences sémantiques qui
peuvent être dues à la différence dans le cahier des charges ou dans l'interprétation du
domaine (Chalupsky, 2000). Qui désigne le mode de conceptualisation d'un domaine
interprété, ce qui se traduit par différents concepts d’ontologiques ou différentes relations
entre ces concepts. Les différences sont dues à la conceptualisation et la couverture étendue
du domaine. L'inadéquation de couverture se pose lorsque les ontologistes ne couvrent que
certains aspects du domaine, et laissent certains aspects ou détails sur les concepts du
domaine (Klein, 2001).
2.2. Assurance de la qualité des ontologies
L’assurance de la qualité des connaissances modélisées dans les ontologies source avant leur
fusion est très importante. Le point qui a le souci de notre recherche est l'assurance de la
qualité du contenu dans les ontologies de source en ce qui concerne les principes de
conception. Avec cet aspect (principes de conception), Gomez-Perez (2001) a formulé l’erreur
de la taxonomie lors de l'évaluation du contenu des connaissances taxonomiques sur les
ontologies et les systèmes à base de connaissances. Ces dernières années, d'autres études sont
faites à propos de l'évaluation du contenu des connaissances taxonomiques sur des ontologies.
Noshairwan et al. (2007) a analysé que le manque de connaissances suffisantes sur les
concepts dans l'ontologie d'application porte atteinte aux mécanismes de raisonnement et
disjoints redondantes entre les concepts de compromettre leur concision. Fahad et al. (2008a)
donne un aperçu des erreurs ontologiques pour l'évaluation de ces matières, et a prolongé
l’erreur de la taxonomie ontologique existante . Fahad et al. (2007a) a identifié diverses autres
formes d'incohérences sémantiques en raison de mauvaises définitions axiomatiques et les a
classées en trois catégories. Sur la base de l’erreur de la taxonomie de Gomez-Perez et
extensions faites, Fahad et al. (2008b) ont proposé un cadre intégré pour l'évaluation de RDF
(S) et des ontologies OWL. En outre, le cadre intégré, les différentes versions de raisonneurs
DL sont évaluées pour montrer qu'ils ne répondaient pas à toutes les exigences pour
l'évaluation des ontologies (Fahad et al., 2009). En outre, les algorithmes de ces erreurs sont
conçues et le cadre intégré est mis en œuvre en tant que prototype OntCheck. Détail de ces
travaux peuvent être trouvés dans mon travail précédent (Fahad, 2008c) et hors de la portée de
cette thèse. La chose importante ici pour la fusion de l'ontologie est la référence sur la base
de ces erreurs, ce qui facilite la vérification des ontologies de source, la validation des
applications pendant les étapes initiales de l'ontologie de fusion et d'assurer l'exactitude de
l'ontologie fusionnée en appliquant des critères de qualité de l'ontologie intégrée. Par
conséquent, l’erreur de la taxonomie proposée par Gomez et al. (2001, 2004) et les
extensions faites dans ma recherche précédente sert de référence pour la vérification du
contenu dans des ontologies. Ce point de référence est fondé sur la cohérence, l'exhaustivité et
concision.
2.3 Analyse des Systèmes Fusion d'ontologie
Dans la littérature scientifique, il existe de nombreuses approches différentes, des techniques
et des systèmes pour la fusion d'ontologies hétérogènes. Nous avons des études FCA-Merge,
Prompt Suite, Ontomorph, Chimère, ONION, ministère de l'Agriculture, ATOM, iMerge,
ContentMap, HCONE-Merge et OMerSec. Nous avons défini des critères d'analyse et de
construire la matrice d'évaluation pour l'analyse des lacunes dans les travaux existants. Les
paramètres d'analyser si l'approche à utiliser; String, Synonyme, instance, Axiom, similarité
des voisins, structure de l'ontologie, le niveau d'automatisation, des ressources
supplémentaires, la cohérence similitude initiale, contrôle d'erreur et de rétroaction, de
prétraitement et des experts requis. Figure 1.2 Analyse des résumés de l'ontologie fusion de
systèmes sur la base des paramètres ci-dessus mentionnés.
Notre objectif pour l'approche automatique est de construire l’algorithme bien défini qui
maintient les contrôles de cohérence possibles, couvre tout type d'information dans les
ontologies de sources, capables de fusionner les définitions axiomatiques des concepts,
maintient la concision de la connaissance dans l'ontologie fusionnée et préserve la résolution
des conflits lors de la construction ontologique est fusionnée sur la volée avec cohérence
maximale, la cohérence et l'exhaustivité. En outre, il conserve un fichier de contraintes qui
stocke les conflits individuels et le mécanisme de résolution adoptée à fournir une sorte de
flexibilité. En cela, les applications dynamiques peuvent voir le potentiel de conflits et peut
prendre des décisions en cas de besoin. Nous mettons l'accent sur l'approche hybride pour la
détection et la cartographie NLT, utiliser la technique pour identifier le sens voulu de
concepts dans les ontologies. Pour la conception des outils, nous nous concentrons également
sur les services graphiques pour suivre les processus de l'ontologie toute fusion et d'équiper
plusieurs algorithmes de cordes pour fournir la flexibilité et l'utilisation dans le système
d'ontologies fusion.
Figure 1.2 Analyse des Systèmes Fusion d'ontologie
3 Principes de l'ontologie Fusion
3.1 Revisiter Exigences de fusion
Euzenat et Shvaiko (2007) fournissent une exigence cohérente de l'algorithme de fusion,
comme (i) il conserve les conséquences des deux ontologies source (O1, O2), (ii) concerne
toutes les correspondances trouvées au cours de leur correspondance, et (iii) ne pas entraîner
des conséquences plus que celles spécifiées. Pottinger et Bernstein (2003), en tant que
chercheur pionnier sur les problèmes d'intégration, abordés dans divers types de détail de
fusionner exigences lors de différents modèles sont fusionnés basée sur les correspondances
indiquées. Depuis le travail est effectué au début de 2003 quand il y avait un concept
d'ontologies légères (avant normalisation OWL), donc nous revisitons les exigences de notre
proposition de fusion des critères de qualité (cohérence, l'exhaustivité et concision) et en
fournissant des extensions gardant à l'esprit la fusion d'expression ontologies OWL lourds.
Nous avons présenté quelques-unes de ces exigences dans ICSEA conférence (M. Fahad et
al., 2009). Ces exigences sont la préservation des éléments, les relations. Axiomes, les
instances, les contraintes, la similitude et l'égalité des connaissances modélisées dans les
ontologies. Il est également souhaitable d'éviter élément parasite et de stratifier les méta-méta-
modèle des contraintes.
3.2 Critères d'identification de cartographie
Pour trouver des similitudes entre les étiquettes de concepts et de propriétés dans des
ontologies source, l'appariement appariement base à cordes stratégies d'appariement
Synonyme sont suivies. L’ontologie est composée de nombreuses constructions. Au cours de
mise en correspondance, chacune des constructions doit être assorti avec les autres pour
produire des correspondances entre les constructions d'ontologie. Une discussion détaillée sur
les différents types de critères de correspondance est fourni dans Euzenat et Shvaiko (2007).
Nous avons conçu un mécanisme hybride de produire des concepts candidats appariés en
fonction de leurs étiquettes, les attributs, les relations, les concepts voisins et les définitions
axiomatiques.
3.3 Benchmark pour obtenir une précision de résultat
Il est évident que les ontologies sources inexactes peuvent affecter le processus de fusion de
l'ontologie. Par conséquent, l'évaluation des ontologies source par rapport à un point de repère
(initialement proposée par Gómez-Pérez (2001) et prolongée par Fahad et al. (2008)) doit être
appliqué pour que le résultat ne devrait pas souffrir de sources primaires. Cependant, même si
les ontologies sources sont exempts d'erreurs, ils peuvent entraîner une ontologie fusionnée
qui peuvent avoir des erreurs ontologie. La source de ces erreurs dans l'ontologie fusionnée
est sous-jacente calcul de la similarité et la génération de mappings erronés. Il ya différents
critères qui peuvent être utilisés pour identifier les mappages ontologie comme une première
phase de l'ontologie fusion. Ces différents critères peuvent trouver des applications qui
peuvent être vraies, fausses ou peuvent avoir un effet sur la précision de l'ontologie fusionnée.
Ici, nous présentons certaines situations où les ontologies individuelles sont exempts d'erreurs,
mais lors du calcul de similarité, certains des mappages définis conduire vers des situations
erronées produisant ces types d'erreurs dans l'ontologie fusionnée. Pour la construction de
l'ontologie efficace fusion algorithme, il est essentiel d'intégrer contrôle d'erreur ontologique
lors de la validation du processus de cartographie ontologie.
Par exemple, considérons ontologies locales dans la Figure 1.3, où Désigner et Programmeur
sont disjoints concept de l'ontologie O1 ingénieur logiciel pour éviter la situation où une
même personne peut concevoir et programmeur de manière erronée, mais dans l'ontologie O2,
ils se chevauchent et concepts ont un intérêt commun Testeur de classe entre eux. Mesure de
similarité sous-jacente suggère les trois mappages; MappingsO1, O2 (SoftwareEngineer1,
SoftwareEngineer1), (Programmeur2, Programmeur2), (Désigner2, Désigner2). Ici, les
mappages initiaux MappingO1, O2 (Désigner, Désigner) et MappingO1, O2 (programmeur,
programmeur) créer une situation erronée en tant que concepteur et programmeur sont
disjoints dans O1, mais il ya une classe commune entre eux en O2. O3 ontologie Il en résulte
fusionné souffre de classe commune entre l'erreur de décomposition disjointe (voir O3 dans la
figure 1.4). Similarité, il peut y avoir plusieurs possibilités d'erreurs dans l'ontologie fusionnée
qui se produisent lorsque deux concepts dans l'ontologie O1 sources sont disjointes mais qui
se chevauchent dans l'ontologie O2, c'est à dire, il ya une classe commune, relation
d'équivalence, relation parent-enfant, instance commune entre eux, etc.
Par conséquent, nous pensons que le concept de l'ontologie comme référence erreurs de
validation de la cartographie ontologie est très important de produire des résultats de la fusion
précis. Surtout pour les utilisateurs qui ne sont pas experts dans des ontologies beaucoup de
construction et inconnus à l'erreur ontologique, mais, intéressé à construire des ontologies
pour leur domaine grâce à la réutilisation des ontologies existantes domaine plusieurs. Dans le
cas contraire, l'utilisateur peut faire face à divers problèmes et les conséquences qu'il peut ne
pas être familier avec des erreurs ontologiques de ce genre.
Figure 1.3. Inconsistent Merged Ontology O3
4. Notre système Fusion: DKP-AOM
4.1 DKP-AOM en bref
Notre conception d'ontologie Fusion automatique (AOM) System, DKP, est composé de trois
éléments principaux (Fahad et al., 2010 et 2011). La Figure 1.4 montre les principales
composantes du DKP-AOM. Tout d'abord, il génère des modèles intermédiaires (OWL-DL
graphiques) d'ontologies source en utilisant l'API Jena. L'utilisation de ces graphiques,
MatchManager, qui comprend un ensemble de différents algorithmes d'appariement, exécute
la tâche de premier niveau initial trouver la linguistique, et traduire des mappages basés sur
axiomatiques entre les concepts. L'analyse linguistique des labels des concepts et des
propriétés se fait avec la MorphAdorner (version 1.0). Traduire similitude est détectée à l'aide
d'JWNL (version 1.4.1) qui facilite l'accès au WordNet (version 3.0) dictionnaire.
MorphAdorner est utile dans divers cas particulier du processus de lemmatisation vaut utile
pour détecter les mots de base des termes et des verbes irréguliers utilisés dans les ontologies
locales. Par exemple, le concept de «étudiants» au lemme «étudiant» et propriétés
(«Accepté», «accepter», «Accepter» et «accepte») à leur base "accepter".
Figure 1.4 Méthodologie sémantique du DKP-AOM
MatchManager propage les mappages initiaux ConsistencyChecker pour leur validation.
ConsistencyChecker est muni de détecteurs qui rendent la validation de chaque cartographie
dans la phase initiale de sorte que l'ontologie fusionnée reste constante, en référence aux
sources ontologies. Lorsque les mappages initiaux passer le test de cohérence,
ConsistencyChecker passe les mappages à l'Reasoner. Enfin, les agrégats Reasoner la sortie
de différentes mesures de similarité, résout les conflits et fusionne correspondances initiales
de générer mondiale ontologie fusionnée. Enfin, il compile la sortie comme ontologie globale
fusionnée automatiquement ou liste définitive des mappages cohérents tel que requis par
l'utilisateur final. Dans cette étape, il assure l'objectif ultime de parvenir à la satisfiabilité de
l'ontologie fusionnée en vérifier l'exactitude et la cohérence des concepts, propriétés et
axiomes de l'ontologie produite. Pour la génération semi-automatique de l'ontologie globale
de la liste de cartographie, il est équipé mode semi-automatique de DKP (Fahad et al., 2007).
Semi-Automatique montre les mappages à l'utilisateur une liste de propositions initiales, et
demande l'avis des utilisateurs. Dans ce mode, il suit l'approche cyclique que d'autres
systèmes de fusion (par exemple, Prompt) pour générer une ontologie fusionnée.
4.2 Ontologie Fusion Process
Notre ontologie fusion approche est basée sur les étapes suivantes du modèle de processus.
Ces étapes sont expliquées ci-dessous pour les deux modes de fonctionnement fusion, c'est à
dire, semi-automatique et entièrement automatique. Nous comparons également notre
processus de fusion avec le processus de fusion de l'ontologie semi-automatique fusion du
système Prompt (Noy et Musen, 2003).
4.2.1 Ingénierie d'entité
L'ontologie se fusionner cadre ontologies OWL pour leur but fusion. A l'étape initiale, il doit
effectuer certaines tâches telles que la fusion peut être réalisée facilement. Ces tâches sont la
formulation des graphes d'ontologie et de pré-traitement des étiquettes de concepts. Il
comprend la formulation de graphes OWL e et de prétraitement des termes ontologiques.
4.2.2 Identification des mappages
La tâche désirée de l'ontologie fusion nécessite l'identification de fusionner les candidats sur
la base de correspondances entre les concepts d'ontologies. Identification des applications est
basée sur les étapes suivantes.
4.2.2.1 Sélection de l'espace de recherche
Ceci est très important pour construire l'espace de recherche pour la recherche de
correspondances entre ontologies. En général, il nécessite une analyse exhaustive (ou
comparaison complète) pour le calcul de la similarité entre les concepts d'ontologies, où
chaque concept c de l'ontologie est Oa adaptés à chaque concept c 'ontologie de l'Ob. Cela
nécessite n1xn2 comparaisons pour trouver les candidats au mapping des concepts de
concepts n1 et n2 Oa Ob de. Ceci est similaire aux méthodes existantes de systèmes de fusion
d'ontologies, par exemple, l'invite. Mais, nous avons développé une approche diviser pour
régner pour construire l'espace de recherche avec l'aide de partitions disjointes. Par exemple,
considérons une ontologie Vertébrés à la Figure 1.5, où la partition axiome disjoint les
vertébrés en deux partitions disjointes, c'est à dire, des oiseaux et des animaux.
Figure 1.5. Partitions disjointes dans les vertébrés ontologies
Lorsque notre algorithme obtenu les correspondances entre les concepts (oiseaux et Oiseaux)
et (Animaux et Animaux), il va chercher les mappages de leurs concepts enfants de moins de
leur hiérarchie et non dans la partition disjointe ou dans toute l'ontologie. Cette restriction
réduit l'espace de recherche pour la cartographie rechercher.
4.2.2.2 Calcul de similarité
Ontologies hétérogènes besoin de différents types de mesures de similarité pour
l'identification des candidats au mapping. Invite utilise la correspondance de chaîne pour
trouver uniquement des étiquettes identiques. Mais, nous l'avons vu dans la section
précédente, cette technique ne correspondant chaîne n'aborde pas tous la situation des
hétérogénéités sémantiques. Par conséquent, notre calcul de similarité est basée sur de
nombreux paramètres (syntaxique, sémantique, axiomatique, etc.) Chacun des paramètres a sa
propre valeur, et cette valeur peut varier en fonction de la perception que les ontologistes. La
valeur la plus haute est pour l'étiquette de concepts, mais, cette étiquette ne correspond pas
seulement à la sémantique du concept. Ainsi, le mécanisme de pondération est ajusté qui
définit la valeur de ces paramètres au cours du calcul de similarité.
4.2.2.3 Agrégation de similarité
Lorsque des similitudes entre les concepts des ontologies de source sont calculés, l'agrégation
est effectuée pour trouver les similitudes entre les concepts combinés. Invite exploite
seulement une mesure de similarité qui ne nécessite pas l'agrégation. Comme notre méthode
exploite de nombreux facteurs de calcul de similarité, par conséquent, l'agrégation est
nécessaire pour trouver les meilleurs candidats au mapping possibles. Pour adaptateur de
similitude m (Simmch), où chaque adaptateur individuel est associé à poids Wg, l'agrégation de
similarité pour le concept (Simcon) de l'ontologie est effectuée comme ci-dessous. La
similitude totale (SimTol) entre ontologies source avec un nombre n de concepts est
l'agrégation des similitudes entre tous les concepts des ontologies.
4.2.2.4 Interprétation
Lorsque les couples candidats sur la base de mesures de similarité sont calculées, il est
nécessaire de définir des paires d'interprétation pour obtenir les meilleurs candidats de
mappages qui conduisent vers la génération de l'ontologie fusionnée. Un critère est de définir
une valeur seuil comme dans le cas de Prompt. Les paires de candidats ayant une valeur de
similarité dessus d'un seuil défini sont considérés comme des candidats fusionner, et présenté
à l'utilisateur sous la forme d'une liste de suggestions pour leur fusion. Dans notre
méthodologie de fusion, la validation est la partie fondamentale de faire des interprétations au
sujet du candidat réunis des paires. Par conséquent, l'interprétation est basée sur la validation
des applications et seuls les mappages validées servir les candidats à la fusion.
4.2.3 Validation des mappages
Validation de la cartographie est nécessaire pour obtenir la consistance et la précision de
l'ontologie fusionnée. Il ya plusieurs facteurs sur la base desquels, le processus de fusion peut
valider les mappages de sorte que l'ontologie fusionnée reste cohérente, complète et
cohérente. Plus tard, au cours des prochaines section, nous aborderons différents facteurs pour
la validation des applications en détail.
4.2.4 Fusion des mappages candidats
Opération de fusion nécessite la liste des mappages validés à ce que chaque mappages
candidats sont fusionnés. Il ya deux considérations principales dans cette étape, c'est à dire, le
mécanisme de résolution des conflits et de l'exécution de l'opération de fusion. En mode semi-
automatique, la résolution des conflits et la sélection des candidats fusion est basée sur les
commentaires des utilisateurs. En Prompt, pour chaque conflit ou de l'asymétrie, le système
demande à l'utilisateur de gérer la situation. Puis, avec la connaissance de la matière et
l'intelligence de l'utilisateur, paire candidate sont choisis parmi la liste des suggestions et
fusionnées pour produire une ontologie fusionnée. Dans notre méthodologie, où il ya une
préférence donnée à l'ontologie, la plupart des conflits sont résolus en fusion doit suivre la
sémantique de l'ontologie préféré. Par exemple, envisager de fusionner des propriétés lors de
propriété Montant: flotteur en Oa et montant: double dans l'ontologie préféré Ob vont être
fusionnés. Le processus de fusion résout automatiquement les conflits tels sur la base de la
préférence. Dans un autre cas, où la préférence n'est pas donné, il recherche dans la table de
résolution ou ne s'appliquent mécanismes d'inférence pour la résolution des conflits au cours
de l'opération de fusion.
4.2.5 Vérification de l'ontologie fusionnée
Une fois l'ontologie fusionnée est généré, il est très important de vérifier son exactitude. Il est
possible que l'ontologie fusionnée contient des incohérences, des erreurs et / ou de
licenciements. Existant raisonnement DL ontologie ou d'outils d'évaluation peuvent être
utilisés pour vérifier la vérification de l'ontologie fusionnée. Nous construisons nos critères
d'évaluation basés sur des critères cohérence, l'exhaustivité et de la redondance pour la
vérification de l'ontologie fusionnée.
4.2.6 Itération
Le processus de génération de l'ontologie fusionnée a une très grande complexité. L'ensemble
du processus, depuis l'identification de cartographie pour la validation de cartographie et de
résolution des conflits de génération de l'ontologie fusionnée peut être source d'erreurs. En
outre, pour les produits semi-automatique de l'ontologie fusion, il est nécessaire d'effectuer
des itérations pour permettre améliorations manuelles dans les étapes sous-jacentes. Lorsque
l'utilisateur sélectionne les candidats à la fusion de concepts, concept issue de la fusion est
généré dans l'ontologie fusionnée, et le système effectue une itération de voir l'impact des
concepts fusionnées, vérifie sa cohérence et de précision, et met à jour la liste de suggestions
pour les paires de candidats pour la fusion à venir. Mode entièrement automatique de
l'ontologie fusion exige aussi itération, de vérifier et d'analyser l'exactitude de l'ontologie
fusionnée. Il vérifie que l'ontologie fusionnée unifie toutes les informations présentes dans les
ontologies sources de manière cohérente et concise.
4.3 Problèmes potentiels et la résolution de conflits
L'objectif principal du module ConsistencyChecker de DKP-AOM est d'assurer la
satisfiabilité de l'ontologie fusionnée mondiale qui est généré par la suite mappages initiaux,
de sorte que Tbox (boîte terminologique) et Abox (boîte de assertionnel) de l'ontologie
globale comprennent de série cohérente du concept généralisé inclusions (par exemple, le
GCI: C ⊑ D reste constante selon ontologies locales), et d'autres axiomes ontologiques et
définitions.
Plusieurs détecteurs incohérence, l'intérieur du composant ConsistencyChecker, sont
responsables de trouver les incohérences sémantiques dans les cartographies initiales trouvés.
Chacun des détecteurs fonctionne indépendamment en utilisant l'algorithme spécifique de
sorte que les mappages ne cohérentes et exactes sont générés pour construire l'ontologie
fusionnée satisfiable. Quand un détecteur découvre une cartographie incompatibles, il notifie
à la ConsistencyChecker qui met en garde contre les situations incompatibles, ce qui pourrait
se produire dans l'ontologie globale fusionnée par la suite incompatible cartographie initiale.
Par conséquent, il réduit l'intervention humaine en validant l'ontologie fusionnée
automatiquement. Il existe différents types d'incohérences, l'incomplétude et les licenciements
qui peuvent survenir dans une ontologie, et dans l'ontologie fusionnée ainsi en soulignant la
similarité et processus de fusion. Par conséquent, nous exploitons un critère de qualité basé
sur la cohérence, l'exhaustivité et la concision de l'ontologie fusionnée. Les sous-sections
suivantes élaborer cet aspect en détail.
4.3.1. GCIs incohérentes de définitions axiomatiques
Mondiale ontologie fusionnée, GO, est destiné à être sémantiquement cohérent quand son
Tbox répond à tous l'ensemble des Inclusions concept généralisé (DCG) de locaux ontologies
hétérogènes, et tous les concepts suivre les critères de subsomption à l'égard de la
connaissance dans les ontologies locales. Lorsque DCG locale de conflit ontologies
hétérogènes les uns aux autres, puis l'ontologie globale fusionnée souffre de divers types
d'incohérences sémantiques. Formellement, les définitions suivantes exprimer la règle de
subsomption pour l'ontologie globale et les mappages incompatibles.
Définition: Pour GO ontologie globale, une interprétation répond à un GCI C ⊑ D si et
interprétation est un modèle de Tbox , si elle satisfait à toutes les GCIs dans la TBox .
Définition: Cartographie (C, C') et cartographie (D, D') sont sémantiquement incompatibles
car elles violent la règle de subsomption à l'égard de GCIs locale ontologies O1 et O2, de
sorte que dans O1, C ⊑ D par rapport Tbox locale et dans tous les modèles , Et en
O2, D '⊑ C' par rapport Tbox locale et dans tous les modèles .
4.3.2. Incohérence circulaire dans la hiérarchie fusionnée
La définition suivante explique comment l'incohérence circulaire peut se produire dans la
hiérarchie fusionnée.
Définition : Mapping (A, M) et de la cartographie (B, O) créer incohérence cyclique lorsque
dans O1 A ⊑ B, et en O2 O ⊑ M. incohérence cyclique tel peut se produire au niveau 0, 1 ou
n lors de la fusion d'ontologies source.
4.3.3. conflit d'alignement entre les relations disjointes
Mondiale GO ontologie fusionnée est exempt de conflit d'alignement entre les relations
disjointes lorsque tous les concepts dans sa TBox satisfaire tous l'ensemble des axiomes
locales présentes dans les ontologies hétérogènes, et tous les concepts suivre les critères de
satisfiabilité par rapport au disjoints ou se chevauchant connaissances dans les ontologies
locales. Il existe plusieurs possibilités de conflit entre l'alignement des relations entre
disjoints ontologies locales qui surviennent lorsque deux concepts dans l'ontologie O1
sources sont disjointes mais qui se chevauchent dans l'ontologie O2, c'est à dire, il ya une
classe commune, relation d'équivalence, relation parent-enfant, instance commune entre les .
4.3.4. Redondance de disjonction
Lors de la fusion d'ontologies hétérogènes, les axiomes disjoints dans des ontologies sources
méritent une attention particulière. D'un côté, leur omission créer incomplétude dans
l'ontologie globale et de l'autre côté, ils créent inconciseness et des licenciements. Il peut y
avoir deux situations pour la redondance de disjonction, directement ou indirectement entre
les concepts disjoints. Redondance de disjonction directe / indirecte se produit, lorsque dans
l'ontologie fusionnée, il ya des axiomes disjoints entre les concepts qui sont déjà disjoints par
eux-mêmes directement ou leur héritage parent.
4.3.5. Définitions identiques et redondants
Mondiale ontologie fusionnée devrait conceptualiser et unifier l'information des ontologies
source sans aucun licenciement. Tous les concepts et les propriétés doivent avoir des noms
uniques et des définitions. Mais, lors de la fusion d'ontologies hétérogènes, différents types de
conflits de noms et de définitions identiques peuvent se produire entre les concepts des
ontologies, des propriétés de type de données, les propriétés des objets. Dans certains cas,
conflit de nom peut se produire entre le concept et les propriétés de type de données ainsi.
Pour résoudre ce conflit, DKP sélectionne l'une (préférentiel) à partir des noms
contradictoires, et éviter de créer des définitions formelles identiques ou noms de construire
l'ontologie dans l'ontologie fusionnée.
4.3.6. Classification incomplète des concepts
Classement notion incomplète ou une granularité d'information se produit lorsque le
processus de fusion a ignoré certaines constructions liées à des concepts ou des propriétés
d'ontologies source dans l'ontologie fusionnée. Cette conceptualisation résulte incohérente de
la connaissance du domaine et de l'incomplétude des définitions dans l'ontologie fusionnée.
4.3.7. Redondance la sous-classe des axiomes
Inconciseness dans l'ontologie fusionnée peut se produire lors de la fusion d'ontologies
source.
Définition: Mapping (A, M), de cartographie (B, N), puis de cartographie (C, O) créer
subsomption redondante lorsque dans O1 C ⊑ B ⊑ A, et en O2 N ⊑ M, O M ⊑, mais O ⊑¬ N
(ici C, B, O, N ne sont pas satisfiable en GO) et il est un type spécial de conflit satisfiabilité.
Inconciseness in merged ontology can occur during the merging of source ontologies.
4.4 Résultats expérimentaux et les évaluations
Cette section présente les résultats expérimentaux et l'évaluation de notre approche et des
algorithmes de fusion d’ontologies.
4.4.1 Accès importance des axiomes disjointes et les partitions disjointes lookup
Pour trouver la meilleure correspondance de tout concept de l'ontologie O1 on a besoin d'une
analyse exhaustive de tous les concepts de l’ontologie O2. Le résultat est alors n1*n2
comparaisons où n représente le nombre de concepts de l'ontologie. Les axiomes disjoints
séparent la connaissance dans des mandrins distincts et permettent la liaison des concepts à
l'intérieur des frontières de la sous-hiérarchie de l’hiérarchie de concepts de l'ontologie.
Lorsque les axiomes disjoints sont correctement placés dans des hiérarchies de classes
l’exécution en temps réel sera réduite. Par exemple, dans les ontologies Vertebrates et
Vértébrés, lorsque Birds sont reliés au concept Oiseaux et Animal reliés au concept Animaux,
ça veut dire que ces concepts sont disjoints dans des ontologies individuelles, alors
l'algorithme de fusion devrait consulter les correspondances des sous-concepts de Birds sous
les sous-concepts du concept Oiseaux et non dans toute l'ontologie. Ce concept de recherche
dans les partitions disjointes réduit considérablement l'espace de recherche de l'algorithme.
Nous avons testé les ontologies multilingues avec et sans axiomes disjoints pour mesurer
l'efficacité de l'algorithme de fusion. Le test est effectué sur 4 ensembles d'ontologies et la
complexité d'exécution est mesurée à chaque fois.
Figure 1.6. Temps estimé consommé avec et sans axiomes disjoints
rechercher dans les ontologies source
Sur la base de ces ensembles de données, le temps est mesuré pour mesurer l'importance des
axiomes disjoints dans les ontologies source. La figure 1.6 présente les statistiques obtenues à
partir des tests réalisés avec des axiomes disjoints (WDA) et avec l’approche sans axiomes
disjoints (WODA) pour la recherche de la cartographie. A partir du temps estimé, nous
concluons que la stratégie de recherche des partition disjointes fonctionne bien pour la
construction d’un espace de recherche pour l'identification des correspondances entre les
ontologies hétérogènes. Une fois les concepts de niveau supérieur sont mis en
correspondance, la recherche pour leurs enfants doit être procédée dans leurs hiérarchies
basses, plutôt que dans l'ensemble de l'ontologie. Cette technique de recherche sert à réduire
la complexité temps et les ressources de la mémoire, surtout quand les ontologies sources
possèdent de nombreux concepts.
4.4.2. Fusion ontologies de conférence
Nous avons évalué l’implémentation du prototype de recherche et effectué des tests sur les
différentes ontologies Web appartenant à 5 catégories différentes, à savoir, l'Université, la
publication, livre, voyage et à la Conférence. Dans ce travail, nous élaborons les résultats
expérimentaux sur les ontologies Voyage et Conférence développées avec OWL des
communautés différentes. Les ontologies Conférence sont PCS, CRS_DR et CMT, ils sont
librement disponibles sur Internet. Ces ontologies répondent à la demande croissante de la
communauté universitaire pour le système de gestion des conférences, et bien adapté à nos
tests.
Dans cette expérience, nous avons vérifié manuellement les constructions d’ontologie OWL
dans l'ontologie principale fusionnée pour mesurer la cohérence, l'exhaustivité et la
cohérence. Le résultat expérimental peut être positive ou négative en fonction de la précision
de l'algorithme de fusion. Le résultat de l'expérience pour chaque concept peut ou peut ne pas
correspondre aux résultats des tests manuels, ce qui entraîne quatre cas différents, c'est à dire
vrai positif (TP), vrai négatif (TN), faux positifs (FP) et de faux négatifs (FN). Sur la base de
ces quatre cas, précision = TP / (TP + FP) et du rappel = TP / (TP + FN) les valeurs sont
calculées et visualisées dans la Figure 1.7.
Figure 1.7 Précision et rappel sur les ontologies de conférence
5. Classification des ontologies Web
Parfaitement similaire au web actuel, la recherche de la connaissance pertinente est l'un des
principaux problèmes pour le Web sémantique. Pour la réalisation de la vision du Web
sémantique, il y’a eu beaucoup d'efforts supplémentaires nécessaires pour tenir les promesses
de haute précision grâce à l'utilisation de la sémantique disponible et le raisonnement sur les
ontologies, ainsi que la récupération de résultats précis avec le rang et les relations entre eux.
Ce dilemme exige une bonne définition des ontologies Web, ce qui est également essentiel
pour de nombreuses autres tâches telles que le développement de répertoires d'ontologies sur
le web [Dmoz, 07], la concentration rampant sur la récupération de l'ontologie [Ehrig, 05; Su,
05], l’analyse d’ontologie modulaire et spécifique du concept [Seidenberg, 06], l'amélioration
de la qualité de la recherche [Pan, 06], etc.
La classification est traditionnellement définie comme un problème d'apprentissage supervisé
dans lequel un ensemble de données étiquetées est utilisé pour entraîner un classificateur qui
peut être utilisé pour étiqueter les prochains exemples [Mitchell, 97]. La classification
d’ontologies est un problème de classification difficile pour la gestion et la récupération
d'ontologie efficace et efficiente pour le Web sémantique et les applications métiers de
l'entreprise basées sur les ontologies. Le Figure 1.8 montre un exemple de classification
d’ontologies.
Figure 1.8: Exemples de l'ontologie Classification (a) à catégories multiples, seule étiquette et
de la classification de l'ontologie dur, (b) Binary Classification des ontologies
De nombreux recherches accomplies pour la construction de portails web sémantique, il est
devenu évident qu'il y’a un degré très élevé de redondance dans le web sémantique. Les
recherches menées au cours de la construction de Watson ont révélé que 20% du contenu
sémantique collecté est redondant [Aquin, 2007b]. En outre, Swoogle a obtenu 119 résultats
pour la requête « student university researcher » [Aquin, 2007b]. De plus, Swoogle a
recherché plus de 300 termes distincts qui apparaissent uniquement pour le concept " Person"
[Ding, 05].
Par conséquent, nous suggérons que ces contenus sémantiques redondants doivent être
regroupés ensembles dans des répertoires Web afin que les tâches d'ingénierie d'ontologies
soient accélérées. Afin de relever le défi réel de recherche et de récupération d’ontologies,
nous avons construit une approche basée sur l'ontologie pour la classification d’ontologie qui
facilite de telles tâches (Fahad et al., 2010 et 2011). Nous pensons qu'une fois que les
ontologies sont correctement classées, elles seront fouillées d'une manière sémantique saine
dans une application basée sur les ontologies ou dans le Web sémantique. Pour la
construction, OntClassifire, nous bénéficions de notre approche existante de cartographie des
ontologies développée avec plusieurs modifications et élaborée dans les sections suivantes.
5.1 Classifier d'ontologie sémantique
Cette section présente notre classificateur d’ontologies sémantique, OntClassifire, et aborde le
calcul de similarité sémantique pour la classification d’ontologies entre le domaine et les
ontologies arbitraires. Il vise à classifier les ontologies arbitraires dans une ou plusieurs
catégories prédéfinies qui sont représentés par des étiquettes de classe pour la gestion et la
recherche efficace de l'ontologie.
Figure 1.9. Entrée et sortie du classificateur d'ontologie
OntClassifire calcule un rang de correspondance sur la base d'un algorithme de
correspondance d'ontologies (voir la figure 1.9), et de cette façon les résultats de la
classification la plus précise des ontologies arbitraires comme le contexte de concepts, de
propriétés et de la structure de la connaissance est adapté et analysé. Il exploite les techniques
de correspondance schématiques existantes (c’est-à-dire linguistique, synonyme et
axiomatique) pour le calcul de rang de la correspondance. Nous travaillons avec les
ontologies OWL, mais la méthodologie peut être appliquée aussi pour le calcul de la
similarité et la classification d’autres ontologies. Les sous-sections suivantes permettent
d’élaborer la méthodologie, de montrer son utilisation, et de discuter des résultats de
l'expérimentation.
5.2 Les calculs correspondent Classement par OntClassifire
Le ontClassifire obtient une ontologie arbitraire Oa dans le but de la classifier. Il commence le
calcul de la similarité sémantique entre Oa et les ontologies de domaine Od1, Od2,…,Odn
appartenant aux catégories prédéfinies. Pour le calcul de la similarité, chacun des concepts des
ontologies est analysé. Par exemple, le concept «livre» est jugé sur la base de son étiquette,
les attributs (par exemple, l'ISBN, Titre), les relations (par exemple, l'auteur written_by,
éditeur published_by) et son voisinage sémantique (par exemple, les parents et les enfants des
concepts). Par conséquent, le modèle proposé utilise toutes les connaissances syntaxiques,
structurelles et sémantiques présentes dans les ontologies pour calculer le rang de
correspondance pour qu'une ontologie arbitraire doive être affectée à une étiquette précise de
catégorie prédéfinie.
Pour les deux ontologies Od et Oa, pour lier un concept c de Od avec le concept c' de Oa, il
exploite plusieurs paramètres de similitude sémantiques inter-ontologies pour calculer si le
concept c est similaire à c'. Enfin, ontClassifire agrège les similitudes constatées entre les
concepts des ontologies, calcule le rang de correspondance, et lui attribue une étiquette à une
ontologie Oa arbitraire.
Sim_ agrégat = αSimlab+βSimdp+γSimop+µSimprt+ΘSimchd+ΩSimaxm
Wg_ agrégat = α+β+γ+µ+Θ+Ω
Sim (o, o’) = Sim_ agrégat /Wg_ agrégat …………………… (1)
Lorsque, SimLab (similitude de l’étiquette du concept), Simdp (similitude des propriétés du
type de données), Simop (similitude des propriétés de l'objet), Simprt (similitude des parent
des concepts), Simchd (similitude des enfants des concepts), Simaxm (DL similitude des
axiomes) entre les concepts c et c '.
Une fois que les similitudes entre les concepts de l'ontologie de domaine Od et une ontologie
arbitraire Oa sont calculés, OntClassifire calcule ensuite un rang de correspondance entre
l'ontologie Od et Oa en agrégeant les poids des concepts, par example voir la Figure 1.10.
Comme les catégories qui se chevauchent partagent les vocabulaires communs, d'où des poids
avec les concepts des ontologies de domaine dominent les attributs spécifiques de chaque
catégorie. L'utilisateur peut configurer ces poids (α, β, γ, µ, Θ, Ω) qui permettent d'évaluer les
paramètres de similarité sémantique. En outre, l'utilisateur peut ajuster les poids de la
similarité linguistique et la similitude des synonymes. Les facteurs de calcul de similarité sont
les mêmes que dans le cas de la fusion de l'ontologie, mais diffèrent dans la manière dont ils
sont calculés.
Figure 1.10 Mécanisme de classification de l'ontologie
5.3 Evaluation de OntClassifire
Nous avons effectué un test pour déterminer l'efficacité de l'approche ontologique pour la
classification des ontologies Web avec les approches ontologiques simples et pondérés. Nous
avons également comparé ces approches avec le critère de classification populaire Naïve
Bayes qui a été choisi comme le meilleur algorithme pour le OntoKhoj. Pour la réalisation de
l'expérience, d'une part, nous avons construit l'ontologie hiérarchique qui contient plusieurs
catégories, par exemple, l'Université, ComputerScience_Department et publication. La
catégorie de publication est en outre classée en plusieurs sous-catégories, comme livre,
Conference_Proceeding, Journal, Thèse, magazine, journal, etc. D'autre part, chacune des
catégories est élaboré avec l'ontologie de domaine qui enrichit la sémantique et différencie les
catégories en elles-mêmes. Ces catégories se chevauchent et donc les ontologies de domaine
partagent un vocabulaire commun en termes de concepts (par exemple, auteur, éditeur, etc.),
de propriétés (ISBN, titre, prix, etc.) et de relations (par exemple, collection des, formatType,
etc.) entre eux. Par conséquent, les axiomes, les concepts et les propriétés différenciés entre
ces catégories sont affectés par une pondération dans les ontologies de domaine, de sorte que
le classement peut être fait avec plus de précision sur la base des aspects spécifiques de
différenciation de chaque catégorie.
Lorsque l'ontologie arbitraire Oa est disponible, OntClassifire calcule les similitudes entre les
ontologies de domaine et l'ontologie arbitraire. Enfin, sur la base d'un rang de correspondance
calculé le plus élevé, une étiquette est attribuée à une ontologie arbitraire
Conference_Proceeding (proc.), et le rang de correspondance est conservé dans la base de
connaissances qui serait utilisé pour les futures réponses de requête pour récupérer l'ontologie.
Nous concluons après ces tests que les différents paramètres possèdent des valeurs différentes
pour juger les correspondances entre les ontologies. Il n'y a pas un seul paramètre qui est
considéré comme efficace lorsque les ontologies sont développées par des communautés
différentes ayant des perspectives différentes et des besoins dans le domaine. Seule la
correspondance hybride basée sur les mesures de similarité combinés entres les étiquettes, les
attributs, les relations et les descriptions de classe peut produire le meilleur résultat.
Les résultats expérimentaux montrent que l'approche ontologique pour la classification des
ontologies Web est la meilleure approche basée sur l'analyse comparative entre la
classification texte du Bayer Naive et les approches ontologiques, voir la Figure 1.11.
Figure 1.11 Comparaison des OntClassifire avec l'algorithme de classification de texte
Les résultats obtenus avec l’approche ontologique simple sont meilleurs que l'algorithme
de classification de texte, et en promettant lorsque certains poids sont fixés sur les ontologies
de domaine qui dominent considérablement le vocabulaire de chaque catégorie. De plus, les
ontologies qui se chevauchent, partageant les vocabulaires communs sont correctement
classés par l'approche ontologique pondérée. La plupart des classifications erronées par
l'algorithme de texte sont observés avec la catégorie de publication, qui est la catégorie de
base et subdivisée en trois autres sous-catégories, c'est à dire, Livre, Conference_Proceeding
et Journal. Lorsque l'algorithme de classification texte trouvé des points communs entre la
terminologie clé d'une ontologie arbitraire Oa et la catégorie Publication ontology, il attribue
une ontologie arbitraire Oa qui est le label le plus général. En outre, en raison de l'hypothèse
d'indépendance naïve bayer, à savoir, la présence d'une caractéristique n'est pas liée à la
présence d'autres fonctionnalités. Mais, il est évité par les approches ontologiques en utilisant
une analyse structurelle combinée via des définitions axiomatiques et des associations entre
les concepts.