suggested upper merged ontology

1

Seminararbeit

Suggested Upper Merged Ontology Computer Linguistik

vorgelegt von

25.04.2013

2

Inhaltsverzeichnis

1 Einleitung 3

1.1 Themengrundlage 5

1.2 Problem- und Zielstellung 7

1.3 Aufbau der Arbeit 8

2. Suggested Upper Merged Ontology 8

2.1 Was ist eine SUMO 8

2.2 Ontologietypen 9

2.3 Geschichte der SUMO 11

2.4 Aufbau von SUMO 12

2.5 SUO KIF 17

2.6 SUMO und ihre Verwendung in der Computer Linguistik 19

3. Zusammenfassung 20

Literaturverzeichnis 21

Abbildungsnachweis 21

3

1. Einleitung

Ontologie gehört zu einem Schwerpunkt der Studie in den philosophischen Disziplinen

seit geraumen Zeiten. Generell gesehen aus der Sicht der Philosophie bezieht sich der Begriff

Ontologie auf die Frage "welche Arten von Dingen existieren?". Im Gegensatz dazu beschäftigt

sich man in der Informatik mit der Frage "Welche Dinge sollten erfasst und dargestellt werden?".

Die Forschung der Beiden Fragen ergibt einen breiten Raum für die Analyse eines Universums,

seine Darstellung in eine abstrakte Form und die Entwicklung von Organisationen und Systemen

innerhalb des Universums.

Die philosophische Betrachtung der Ontologie gibt eine Beschreibung der wesentlichen

Eigenschaften und Beziehungen aller Wesen im Universum. Wie oben bereits erwähnt wird

derzeit dieser Begriff der Ontologie erweitert sowie spezialisiert und wird heutzutage in den

Bereichen der Informatik und künstlichen Intelligenz nachgegangen. Dementsprechend werden

in unseren Zeiten in dem Bereich der Informatik unter dem Begriff von Ontologie mehrere

Ontologien verstanden. Aus der Sicht der Informatik und künstlichen Intelligenz bezieht sich

eine Ontologie nur auf die Besonderheiten des Wissens über Entitäten und ihre Beziehungen und

Interaktionen in einem begrenzten Universum. Als Ergebnis ist eine Reihe von begrenzten

Universum-Ontologien im letzten Jahrzehnt erstellt worden, beispielsweise gehören dazu eine

chemische Ontologie in dem Chemie-Bereich, TOVE und unternehmerische Ontologien für

Unternehmens-Modellierung, die REA-Ontologie im Bereich Rechnungswesen,

organisatorisches Wissen-Ontologie in der Kenntnisse-Management-Bereich, die Ontologie der

Luftplanung im Verteidigungsbereich und die GALEN-Ontologie in der medizinischen

Informatik-Bereich.

In letzter Zeit kommt man jedoch immer häufiger zu einer Erkenntnis, dass die

Anwendung von ontologischen Prinzipien und Konzepten nicht nur auf die traditionellen

Bereiche des Wissens beschränkt werden müssen, sondern erfolgreich in verschiedenen

Bereichen innerhalb der breiteren Felder von Informationssystemen verwendet und weiter

entwickelt werden können. Dies hat zu dem Begriff „ontology-driven information systems“

(ODIS) geführt. ODIS ist ein Konzept, das in Vorstufen der Entwicklung neue Wege des

Denkens über Ontologien und Informationssysteme in Verbindung mit einander eröffnete und

sowohl die strukturellen als auch die zeitlichen Dimensionen der Informationssysteme deckt.

In der strukturellen Dimension können ontologische Mechanismen für die

Strukturierung, Speicherung und den Zugriff auf ein Gattungsinformationssystem verwendet

werden, einschließlich der Datenbank-Schemata, Benutzer-Interface-Objekte und

Anwendungsprogramme, die in eine funktionierende Informationssysteme integriert werden

können. Im Gegensatz zu den etablierten Paradigmen der Datenmodellierung sind die

4

strukturellen Grundlagen der Ontologie-Systeme noch am Anfang ihrer Entwicklung: hier

herrscht ein wachsender Bedarf an einer einheitlichen Theorie der strukturellen Darstellungen

von Ontologien. Einige der wichtigsten Fragestellungen in dieser Dimension sind: Welche

gegenständlichen Formalismen für Ontologien benötigt werden? Wie diese von den

traditionellen relationalen, Prädikat- und Objekt-basierten Formalismen unterschieden werden

können? Können Algebra und Kalküle für spezifische Ontologierepräsentationsformalismen

entwickelt werden? Wie können Ontologien effiziente Rahmenbedingungen für System-Design

ergeben? Daneben gibt es eine Reihe von anderen wichtigen Fragen in diese Dimension.1

In der zeitlichen Dimension können Ontologien die Entwicklung neuer IT-Systeme

anleiten, indem diese Analysten und Designern bei der Wahl angemessene Verfahren,

Algorithmen, Regeln und Software-Komponenten je nach ihren Bedürfnissen helfen. Es wurde

auch vor kurzem vorgeschlagen, dass Ontologien und Systeme im Wesentlichen

Wissensartefakte auf verschiedenen Ebenen der Abstraktionswissen sind und aus diesem Grund

Systeme aus einem begrenzten Universum der Ontologien durch Spezialisierung und

Kombination erzeugt werden können.

Es scheint auch, dass die Schwellenländer Paradigmen wie Web Services und Semantik

Web wird die groß angelegte Entwicklung, Bereitstellung und Nutzung von Ontologien und

Ontologie-driven Informationssystemen ermöglichen. Einige der wichtigsten Fragestellungen

dieser Dimension sind: Wie können sowohl die statischen und dynamischen Elementen des

Universums in einer Ontologie erfasst werden? Kann Ontologien werden korrekt und

vollständig? Kann Ontologien verifiziert und validiert werden? Was sind die Beziehungen

zwischen Ontologien und der Systeme Entwicklungs-Lebenszyklus? Welche Theorien von

Ontologien für ontologische System-Integration, Interoperabilität von Ontologien und Wissen

Entdeckung durch Ontologie Bergbau benötigt? Kann Ontologien in Organisation Design

verwendet werden, die neben ihrer bekannten Anwendungen im Anlagenbau? Und es gibt

zahlreiche andere Fragen.

Das primäre Ziel dieser Arbeit ist ein gemeinsames Bewusstsein in der Forschung zu

den führenden und aufstrebenden Entwicklungen in Ontologien zu mobilisieren und vor allem

die Auseinandersetzung von Suggested Upper Merged Ontology (SUMO) zu geben,

anschließend das enorme Potenzial der SUMO für verschiedene Probleme in verschiedenen

Lebens- sowie Betätigungsbereiche aufzudecken.2

1 Vgl. Roberto Poli, Michael Healy, Achilles Kameas: Theory and Applications of Ontology, Computer applications, S 5-21 2 Vgl. Raj Sharman, Rajiv Kishore, Ram Ramesh: Ontologies - a handbook of principles, concepts, and applications in information systems, S 3-21

5

1.1 Themengrundlage

In unserer Gesellschaft wächst ständig die Rolle der Informationsverarbeitung sowie –

austausch. Gleichzeitig nimmt ihr Schwierigkeitsgrad zu. Daher stoßen die beiden Prozesse

täglich auf immer größere Schwierigkeiten. Vor diesem Hintergrund stellt sich auch der Bedarf

an der Vernetzung von Informationen und Daten. Wenn beispielsweise eine Institution die von

einer anderen Institution abweichenden Darstellungsformen benutzt, wird das zur Erschwerung

von Informationsaustausch zwischen diesen beiden Institution führen. Das bringt zur

Überlegungen über die Abbildung realer Objekte, die im Bereich der Semiotik (eine Studie über

Zeichen) untersucht werden. In diesem Zusammenhang wurde von Odgen und Richardson das

sogenannte semiotische Dreieck herausgearbeitet, das der Beziehung zwischen einer Darstellung,

dem realen Objekt und damit verbundenen Erwartungen schematisch erklärt.

Abb.1.1.1 Das semiotische Dreieck

Auf der Abbildung wird in Form vom Symbol das Konzept von der Darstellung

aufgeführt. Symbole in einer Darstellungsform befinden sich in einer Beziehung zu Referenten,

die Objekte aus der realen Welt sind. Unter Erwartungen wird bezeichnet, was der Betrachter

hinsichtlich Objekte und Symbole erwartet. Erwartungen gehen normalerweise aus der

Erfahrung von Betrachtern an den Gebrauch eines Begriffs hervor. Auf der Abbildung werden

Erwartungen unter „THOUGHT OF REFERENCE“ geschildert. Im Bereich der Informatik wird

dies durch das Wort „das Konzept“ ersetzt. Mithilfe dieses Begriffs werden Objektsklassen und

ihre Eigenschaften beschrieben. Die Aufgabe der Ontologie in dem Bereich der Informatik ist

generell gesehen, die Verbindung zwischen Symbolen in der informationstechnischen

Darstellungsform und Erwartungen für bestimmte Objekte zu formalisieren.

Ontologie untersucht Konzepte und wie die reale Welt durch Konzepte beschrieben

wird. Diese Fragestellung wird oft unter Universalienproblem bezeichnet. Hier wird der Begriff

von Universalien eingeführt, der allgemeine Eigenschaften von verschiedenen Objekten

6

bedeutet. Universalien stellen kein Objekt dar, sondern liefern eine universale Beschreibung, für

die Objekte als Beispiele sind. Trotzdem scheint die Existenz von diesen Universalien in der

realen Welt nicht eindeutig zu sein. Darum wird in der Informatik unter Universalien eher eine

Menge von Objekten bezeichnet, z.B. die Universalien „Pflanze“ ist durch eine Menge von allen

Objekten charakterisiert, für die die Behauptung „…ist Pflanze“ wahr ist. In der Informatik

werden Universalien auch mit dem Begriff Objektmenge ersetzt. In Sonderfällen könnte

Universalien auch als Objekte sowie Referenten betrachtet sein. Das heißt, dass Symbole als

konkrete Objekte, Objektmenge sowie abstrakte Definitionen betrachtet werden können.

Ferner geht die Ontologie der Frage „Welche Arten von Objekten existieren in der

realen Welt“ nach. Hier wird der Begriff von Entität verwendet, unter dem man die größte

Betrachtung von konkreten und abstrakten Objekten versteht. Das bedeutet, dass die Ontologie

beschäftigt sich mit der Frage, was Objekte voreinander unterscheidet und was Objekte

gemeinsames haben. Dies hängt eng mit der Erwartung des Betrachters von der Darstellung

eines Objektes. Im Rahmen von Informationsverarbeitung stellt sich die Frage der

Unterscheidung als eine der wichtigsten Fragestellungen. Anschließend wird die Frage der

Kategoriensystems aufgeworfen. Nach ihren Eigenschaften lassen sich Objekte in verschiedene

Klassen zu organisieren. Und umgekehrt, wenn ein Objekt zu einer Kategorie gehört, kann man

einige Eigenschaften dieses Objekts erschließen. Hier sollte auch bemerkt werden, dass

Unterkategorien Eigenschaften automatisch ihrer oberen Kategorie besitzen. Zu Grunde von

Kategoriensystems liegt das Prinzip: wenn gekennzeichnete Eigenschaften eines bestimmten

Objektes verwendet werden, um es von anderen Objekten zu unterscheiden. Zusammenfassend

gibt es zwei Wege eine Kategorie zu beschreiben. Der Erste wird durch die Menge von der

entsprechenden Kategorie zugehörten Objekten charakterisiert (extensionale Beschreibung). Der

Zweite wird durch die Bestimmung der gemeinsamen für alle Objekte der entsprechenden

Kategorie Eigenschaften ausgeführt (intensionale Beschreibung). Beiden Beschreibungen haben

ihre Vor- und Nachteile und werden ausgehend von dem betrachteten Fall ausgewählt. In

Informatik wird für die Unterscheidung der Objekte in der Regel das Prinzip von Ockhams

Rasiermesser angewendet. Dieses Prinzip besteht im Wesentlichen darin, dass nicht alle, sondern

nur unerlässliche Unterscheidungen verwendet werden sollen. Über die Notwendigkeit einer

Unterscheidung wird in jedem Fall unter Berücksichtigung von der konkreten Aufgabenstellung

entschieden.

Zusammengefasst es gibt eine Reihe von Elementen der Struktur von

Wissensrepräsentation, die in der Theorie von Otologien unbedingt angeführt werden sollen.

Dazu gehören Konzepte die Entitäten der Welt repräsentieren (hier unterscheidet man Klassen-

und Individuenkonzepte); Instanzen, die Wissen über Einzelheiten liefern; Attribute, die

7

Eigenschaften der Entitäten angeben; Relationen, die Beziehungen der Dinge darstellen; Regeln,

die Beziehungen zwischen Sachverhalten zeigen; Domäne - ein Bereich, auf den

Wissensrepräsentation beschränkt ist.

Ontologie als ein Konzept des formal repräsentierten Wissens basiert auf einer

Konzeption über Objekte, Konzepte und andere Entitäten, deren Existenz in einigen Bereichen

von Interesse angenommen wird, und Relationen, die sie zusammenhalten (Genesereth &

Nilsson, 1987). Eine Konzeptualisierung stellt sich als eine abstrakte, vereinfachte Betrachtung

der Welt, die man für einen bestimmten Zweck darstellt. Eine Ontologie ist eine explizite

Spezifikation einer Konzeptualisierung. Im Zusammenhang von der Computerlinguistik eine

Ontologie eines Programms könnte durch dargestellte Begriffe beschrieben werden. In einer

solchen Ontologie verbinden Begriffe die Namen der Entitäten (z.B. Klassen, Relationen,

Funktionen oder andere Objekte) mit dem von Menschen lesbaren Text, der die Bedeutung von

Namen und formale Axiome beschreibt und die richtige Interpretation und Verwendung von

diesen Begriffen berücksichtigt.

1.2 Problem- und Zielstellung

Vielleicht ist eine der Folgen des World Wide Web ist die Idee, dass alle Wissen der

Welt für jeder Einzelne zugänglich sein müssen. Obwohl dies offensichtlich derzeit nicht der

Fall ist, hat es neue Anforderungen an die Informatik und unter anderen an die

Computerlinguistik gestellt. Um das in die Realität umzusetzen, wird den Austausch von Wissen

zwischen alle Teilnehmer (nicht nur Menschen, sondern auch Anwendungen) erfordert. Das

führt seinerseits, dass alle Teilnehmer über ein gemeinsames Vokabular verfügen müssen. Das

heißt, es sollte einen Konsens über die Bedeutung der Dinge geben und alle Teilnehmer des

Informationsaustauschs sollten den teilen. Vor diesem Hintergrund wird in der Informatik das

Konzept von Ontologien entwickelt oder genauer gesagt von der klassischen Philosophie

übernommen. Die könnten als eine der Lösungen zur Darstellung dieses gemeinsamen

Verständnisses angesehen werden.

Die Entwicklung einer Ontologie erfordert Kompromisse unter den Kriterien (wie

Klarheit, Zusammenhang, Erweiterungsmöglichkeit usw.). Beispielsweise, wenn die Interesse

der Klarheit berücksichtigt werden, sollen die Definitionen die möglichen Interpretationen der

Begriffe beschränken. Die Entscheidung, welche Kompromisse getroffen werden sollen, hängt

von erhältlichem Wissen und erwarteten für eine bestimmte Domäne Anwendungen an.3

Die Zielsetzung dieser Verfassung fasst eine Reihe der Fragestellungen um:

• Was ist eine Ontologie, Upper Ontologie sowie Suggested Upper Merged Ontologie.

3 Vgl. Thomas R. Gruber: Towards Principles for the Design of Ontologies Used for Knowledge Sharing

8

• In welchen Fällen Ontologien verwendet werden können.

• Welche Upper Ontologien gibt es heutzutage.

Zusammengefasst ist diese Arbeit darauf gezielt, eine klare Auffassung von der

auftretenden Erscheinung in der Computerlinguistik wie Ontologie und in erster Linie Suggested

Upper Merged Ontologie sowie ihre Beschaffenheit und Verwendungsmöglichkeiten zu

vermitteln.

1.3 Aufbau der Arbeit

Diese Verfassung in drei Hauptteile unterteilt. Dies sind ein Einleitungsteil, wo die

Grundlagen von dem Konzept Ontologie angegeben wird, dessen Ziel ist, eine ausreichende

theoretische Basis zu liefern, um genügende Kenntnisse für den zweite Hauptteil zu sammeln.

Der Schwerpunkt des zweiten Teils liegt bei der Auseinandersetzung der Suggested Upper

Merged Ontology. Dabei werden auch andere Upper Ontologien betrachtet. Der letzte dritte Teil

ist eine Zusammenfassung der ganzen Arbeit. Die ersten zwei Hauptteile werden nach der

Gleichartigkeit des Inhalts weiter unterteilt.

2. Suggested Upper Merged Ontology

2.1 Was ist eine SUMO

Die SUMO, die Abkürzung von Suggested Upper Merged Ontology, ist eine Ontologie,

deren Entwicklung auf die Idee basierte, dass menschliche Sprache sinnvoll als eine formale

Ontologie verwendet werden kann, um mithilfe von IT-Technologien menschliche Ausdrücke zu

verstehen. Die SUMO ist eine formale Ontologie in erster Ordnung von logischer Sprache, die

rund 1000 Begriffe und mehrere tausend formale Aussagen zu diesen Begriffen (am Anfang

ihrer Entwicklung, 2001) umfasste4. Darüber hinaus verbinden sich anhand des im 2003

entwickelten Indexes 66.000 Substantiven, 12.000 Verben und 18.000 Adjektiven von WordNet

mit Begriffen der SUMO. WordNet könnte im Wesentlichen als ein elektronisches Wörterbuch

beschrieben werden, wo Synonymen gruppiert und „synsets“ genannt werden.

SUMO ist eine formale Ontologie, das aber sollte nicht einfach als eine Sammlung von

Begriffen und Definitionen betrachtet werden, sondern als eine völlig axiomatisierte Ontologie,

die mit Definitionen für Begriffen in Logik erster Ordnung vorgesehen ist. Obwohl Begriffe der

SUMO zunächst als englischen Labels erstellt wurden, haben sie keinen innewohnenden

linguistisch abhängigen Inhalt. Die Labels sind einfach bequeme Eselsbrücke für Menschen,

ähnlich mit den Namen von Variablen in prozeduralen Software-Code. Jeder Begriffsname

könnte mit einem eindeutigen bedeutungslosen Code ersetzt werden und trotzdem seine

4 http://www.ontologyportal.org/

9

Bedeutung behalten, da die Bedeutung eines Begriffs ausschließlich durch seine formalen

Axiome gegeben wird.5

SUMO könnte als Ontologie der beiden Einzelheiten sowie Universalien beschrieben.

Sie hat eine Hierarchie von Eigenschaften sowie Klassen. Dies ist ein sehr wichtiges Merkmal

für die praktische IT-Technik, weil es ermöglicht, gemeinsame Merkmale wie Transitivität für

eine Reihe von Eigenschaften anzuwenden, mit einem Axiom, das einmal geschrieben und von

diesen Eigenschaften geerbt wird, anstatt neu spezifisch für jede einzelne Eigenschaft zu

schreiben.6

2.2 Ontologietypen

Die zunehmende Notwendigkeit, dass Menschen-und Software-Agenten Wissen präzis

und effizient abrufen und miteinander austauschen müssen, hat dazu geführt, dass Ontologien,

Web Services und die Kombination von beiden, z.B. Semantic Web Services, immer mehr für

den Austausch von Wissen benutzt werden. In diesem Zusammenhang werden Upper Ontologien

schnell zu einer Schlüsseltechnologie für die Integration von heterogenem Wissen aus

unterschiedlichen Quellen. Upper Ontologien können als Brücken betrachtet werden, die

ermöglichen, intelligente Software-Agenten heterogene Ontologien in einer automatischen

Weise auszurichten.

Heutzutage gibt es sechs der bekanntesten Upper Ontologien, nämlich BFO, Cyc,

DOLCE, GFO, Sowa´s Ontologie und selbstverständlich SUMO.

BFO (Basic Formal Ontology) wurde in 1998 von B. Smith und P. Grenon (die

Universität Saarland) entwickelt. BFO besteht in zwei Sub-Ontologien: SNAP - Eine Reihe von

Schnappschuss-Ontologien, die mit einem Zeit-Index versehen ist, und SPAN - ein einziges

Videoscope-Ontologie. SNAP ist eine Bestandsliste von allen Entitäten, die an einem Zeitpunkt

existieren, während SPAN ist eine Bestandsaufnahme aller Prozesse, die durch die Zeit

verlaufen. Die beiden Arten von Ontologie (SNAP und SPAN) dienen als Grundlagen für eine

Reihe von Sub-Ontologien, jede von denen als Fenster in einem bestimmten Teil der Realität auf

einer bestimmten Ebene der Granularität betrachtet werden kann. BFO enthält eine Top-

Verbindungsklasse ("Entität"), 18 SNAP-Klassen und 17 SPAN Klassen für insgesamt 36

Klassen. BFO hat keine Verbindung zu WordNet und ist kostenlos verfügbar. BFO hat seine

Anwendung in dem biomedizinischen Bereich gefunden und ist derzeit für den Aufbau einer

Ontologie der klinischen gnomischen Studien für Krebs verwendet.

Die Cyc Knowledge Base (KB) ist eine formalisierte Darstellung von Tatsachen,

Faustregeln und Heuristik für die Argumentierung über die Objekte und Ereignisse des Alltags.

5 Hermann Helbig: Knowledge Representation and the Semantics of Natural Language, S 427-435 6 Vgl. Andrea C. Schalley, Dietmar Zaefferer: Trends in Linguistic, 103-107

10

Die KB besteht aus Begriffen und Behauptungen, die diese Begriffe beziehen. Diese

Behauptungen sind sowohl einfache Behauptungen als auch Regeln. Die Cyc KB wird in

Tausenden von "Mikrotheorien" unterteilt, die auf einen bestimmten Bereich des Wissens, ein

bestimmtes Detaillierungsniveau, einen bestimmten Zeitabstand usw. konzentrieren. Der Cyc-

Projekt wurde 1984 von D. Leant als Leitprojekt in der Mikroelektronik- und

Datentechniktechnology Corporation (MCC) gegründet. Die Cyc KB enthält mehr als 300.000

Begriffen und fast 3.000.000 Behauptungen (Fakten und Regeln), mit mehr als 15.000

Relationen. Cyc ist in den Bereichen der Verarbeitung natürlicher Sprache verwendet worden,

insbesondere für die Aufgaben der Mehrdeutigkeit von Begriffen, Fragenbeantwortung, der

Risikobewertung und der Darstellung von auf den Terrorismus bezogenen Kenntnissen. Die

letzte Version von Cyc enthält Links zwischen Cyc Konzepte und etwa 12.000 WordNet

Synsets.

DOLCE (a Descriptive Ontology for Linguistic and cognitive Engineering) ist das erste

Modul der WonderWeb Foundational Ontologies Library (2002-2004). DOLCE hat eine klare

kognitive Basis in dem Sinne, dass DOLCE auf Erfassung der ontologischen Kategorien zielt,

denen natürliche Sprache und menschliche Vernunft zugrunde liegt. Nach dem DOLCE-Prinzip

können sich verschiedene Entitäten in der gleichen Raum-Zeit befinden. DOLCE wird von den

Autoren als "Ontologie der Einzelheiten" beschrieben. Darunter wird eine Ontologie von

Instanzen, anstatt einer Ontologie von Universalien oder Eigenschaften verstanden. Die

Taxonomie der grundlegenden Kategorien der Einzelheiten in DOLCE fasst z.B. abstrakte

Qualität, abstrakten Bereich, agentives physisches Objekt, Menge der Materie, nicht agentives

physisches Objekt, physische Qualität, physischen Bereich, Prozess, zeitliche Qualität, zeitliche

Region um. DOLCE hat rund 100 von Begriffen und eine ähnliche Zahl von Axiomen. Es gibt

viele Projekte, die DOLCE benutzten, beispielsweise das LOIS Projekt - ein internationales

Forschungsprojekt an mehrsprachigem Informationswiederauffinden von juristischen

Datenbanken, SmartWeb- ein Zentrum der Exzellenz in der Forschung an intelligenten

Computing-Technologien und deren Anwendung auf Web-basierte Systeme und

Dienstleistungen, Language Technology für eLearning - ein von der Europäischen Kommission

finanzierte Projekt, das mit der Verwendung von mehrsprachigen technologischen Mittel und

Semantik-Web-Techniken das Wiederauffinden von Lernmaterial verbessert, AsIsKnown - ein

semantisches auf Wissen basiertes Flow-System für europäische Textilienindustrie und die

Projekte des Labors für angewandte Ontologie.

GFO (General Formal Ontology) beinhaltet Ausarbeitungen von Kategorien wie

Objekte, Prozesse, Zeit und Raum, Eigenschaften, Relationen, Rollen, Funktionen, Fakten und

Situationen. Es wird auch die Arbeit durchgeführt, um den Begriff von Ebenen der Realität zu

11

integrieren. Dies wird ermöglicht, richtige Entitäten in den materialen, geistigen und sozialen

Bereichen zu erfassen. GFO weist eine dreischichtige Architektur auf, die aus einer abstrakten

obersten Ebene, einer abstrakten Kern-Ebene und einer Basis-Ebene besteht. Die grundlegenden

Ontologie GFO ist in mehrere Module aufgeteilt, einschließlich eines ontologischen Moduls für

Funktionen und eines Moduls für Rollen. GFO wird im Bereich der biomedizinischen

Wissenschaft benutzt. GFO ist auch verwendet worden, um Wissen über biologische Funktionen

in der Gene-Ontologie, Zellentype-Ontologie und Ontologie von chemischen Entitäten der

biologischen Interessen, und GFO-Bio (die auf GFO basiert und ist eine Kern-Ontologie für

Biologie).

Sowa´s Ontologie ist eine Ontologie, deren Entwicklung bereits im 1999 angefangen

hat. Die grundlegenden Kategorien und Unterscheidungen der Sowa´s Ontologie wurden aus

einer Vielzahl von Quellen in der Logik, Linguistik, Philosophie und künstliche Intelligenz

abgeleitet. Damit das System offen bleibt, beruht Sowa´s Ontologie nicht auf einer festen

Hierarchie von Kategorien, sondern auf einer Struktur von Unterscheidungen, von der die

Hierarchie automatisch generiert wird. Kategorien sind für jede einzelne Anwendung durch die

Auswahl einer Reihe von geeigneten Unterscheidungen gemacht. Diese Kategorien enthalten

Objekt, Prozess, Schema, Script, Verbindung, Beteiligung, Beschreibung, Geschichte, Struktur,

Situation, Ursache und Zweck. Jede dieser Kategorien kann entweder physisch oder abstrakt

(und in beiden Fällen kann es entweder kontinuierlich oder auftretend) oder unabhängig, oder

relativ oder auftretend sein, z.B. das Prozess ist physisch, auftretend und unabhängig.

Geschichte. Sowa´s Ontologie enthält etwa 30 Klassen, 5 Relationen zwischen Klassen und

Klassen und Instanzen und ca. 30 Axiome. Sowa´s Ontologie wird zwar nicht offen aber in

Module unterteilt, wobei jede der Kategorien der obersten Ebene als Modul von alleine

betrachtet werden kann, das mit anderen durch Relationen verbindet ist. Sowa´s Ontologie hat

viele bestehende in der Realität umgesetzte Upper Ontologien inspiriert. Deshalb kann ihre

Verwertung in der Entwicklung der "zweiten Generation" von Upper Ontologien als eine der

wichtigsten angesehen werden.7

2.3 Geschichte der SUMO

SUMO wurde erstmals im Dezember 2000 herausgebracht. Es wurde in der

Teknowledge Corporation entwickelt und als Starterdokument für die Standard Upper Ontology

Working Group, eine IEEE-sanktionierte Arbeitsgruppe von Spezialisten aus den Bereichen der

Technik, Philosophie und Informationswissenschaft (http://suo.ieee.org/) vorgeschlagen. SUMO

wurde durch die Zusammenlegung vom öffentlichen zugänglichen ontologischen Inhalt in eine

einzige, umfassende und zusammenhängende Struktur geschafft. Dieser Inhalt hat die 7 Vgl. Viviana Mascardi, Valentina Cordi: A comparasion of Upper Ontologies

12

Ontologien auf der Ontolingua Server (http://www.ksl.stanford.edu/software/ontolingua/), die

Sowa´s Upper Level Ontologie sowie andere verschiedene Theorien enthalten.

Derzeit besteht SUMO aus SUMO selbst (die offizielle neueste Version auf dem IEEE-

Website kann von http://suo.ieee.org/SUO/SUMO/SUMO_173.kif), der Mid-Level-Ontologie

(MILO) und Ontologien für Kommunikation, Länder und Regionen, Distributed Computing,

Wirtschaft, Finanzen, technische Komponente, Geographie, Regierung, Militär,

nordamerikanisches industrielles Klassifikationssystem, Menschen, physische Elemente,

transnationale Fragen, Verkehrswesen, Viren, Flughafen der Welt, Terrorismus. In fast 100

veröffentlichten Artikeln wird die Verwendung von Anwendungen der SUMO beschrieben und

dokumentiert (http://www.ontologyportaI.org/Pubs.html). Die größte Anzahl der Nutzer ist in

der Linguistik. Aber auch andere Klassen von Anwendungen sind "reine" Darstellung und

Argumentation. Die Anwendungen der SUMO sind sehr verschieden von akademischen bis

regierungs- und indistriebezogenen.

2.4 Aufbau von SUMO

Die Suggested Upper Merged Ontology (SUMO) zählt zu einer der größten Ontologien,

die sich inhaltlich auf Grundlagen der formalen Logik stützt. Im Juni 2008 fasste sie circa 20.000

Begriffe und 70.000 logische Formeln um, die Bedeutung von Begriffen beschreiben. Diese

Begriffe werden in Teilmodellen für jeweils verschiedene Themenbereiche unterteilt. SUMO

bietet die wichtigsten Teilmodelle, wo abstrakte Begriffe erklären werden, die sich für präzise

Definierung konkreter Konzepte in anderen Teilmodellen wie Mid-Level-Ontologie (MILO), die

SUMO und andere Teilmodelle in Verbindung setzt, verwenden lassen. Diese Teilmodelle

beziehen sich auf konkrete Themen wie z.B. Kommunikationstechnologie, Länder und

Regionen, Verteiltes Rechnen, Wirtschaft, Finanzmärkte, Maschinenbau, Geographie, Politik,

Militär, Produktion, Menschen, Chemische Elemente, Diplomatie, Transportwesen, Vieren,

Flughäfen, Terrorismus. Das bedeutet, durch die Verwendung der Definitionen von SUMO und

MILO sowie anderen Teilmodellen bildet sich ein Gesamtmodell. Die Abbildung 1 stellt

graphisch Beziehungen verschiedener Teilmodelle zwischen einander dar.

13

Abb.2.1.1 Architektur der Suggested Upper Merged Ontology

SUMO biete außer ihrer Ontologie auch die Möglichkeit, signifikante Begriffe in

andere Sprachen (beispielsweise Deutsch, Hindi, Chinesisch) zu übersetzen. Darüber hinaus

lassen sich verschiedene Software-Tools verwendet, um die Erstellung, Wartung und Gebrauch

von SUMO zu erleichtern.8

Wie oben erwähnt setzt sich SUMO aus einer Reihe von anderen Ontologien

zusammen, trotzdem ist die eigene Ontologie der SUMO der Angelpunk der Sammlung aller

diesen Ontologien. Die Ursache dafür besteht in der Zielsetzung von der Erstellung der SUMO.

Nämlich wurde die SUMO als Grundlage für andere Ontologien entwickelt. Das wurde

ermöglicht dank der drei prinzipiellen Aspekte, die zugrunde der SUMO liegen. Diese

Kernaspekte der SUMO können kurz auf folgende Weise beschrieben werden:

• Neue Ontologien und Informationsquellen können auf der Basis der SUMO entwerfen

werden.

• Vorhandene Informationsquellen können wiederbenutzt und integriert werden.

• Bestehende Ontologien können verknüpft werden.

Diese Prinzipien erfordern ein gemeinsames für verschiedene Ontologien Vokabular,

was in der Erstellung der SUMO realisiert worden ist. Die Basis für ein solches Vokabular ist die

Vielfalt von Systemen der Kategorien, die zuerst in SUO-KIF geschildert und danach in ein

gemeinsames Modell zusammengesetzt wurden.9

8 Vgl. Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, S 77-79 9 Vgl. Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, S 83-84

14

Abb.2.1.2 Die Upper-Level Ontologie von Russel und Norvig

Abb. 2.1.3 Sowas Top-Level Ontologie

Durch die Integration der in zwei oberen Abbildungen präsentierten Kategoriensysteme

(Sowas Top-Level Ontologie und Die Upper-Level Ontologie von Russel und Norvig) entstand

SUMO Top-Level. So heißt das Kategoriensystem des SUO-KIF, das Prinzipien der Definierung

15

konkreter Ontologien enthält. Derzeit sieht SUMO Top-Level anders aus, da es weiterentwickelt

worden ist (Abb. 2.1.4).

Abb. 2.1.5 Hierarchie der SUMO Top-Level-Kategorien

Zugrunde der abstrakten Konzepte, die in der SUMO angewendet sind, liegen

bestimmte mathematische Theorien. Beispielsweise entsprechen die mathematischen von SUMO

in SUO-KIF axiomatisierten Theorien von Relationen, Graphen und Mengen den SUMO-

Konzepten von Relation, Graph und SetOrClass. Das ermöglicht, die mathematischen Theorien

in SUMO direkt mit der Vermeidung des mühsamen Wegs von der Definierung der

entsprechenden Eigenschaften anzuwenden. Die unten aufgeführten Definitionen zeigen wie

mathematische Eigenschaften binärer Relationen in der SUMO dargestellt werden.

• Reflexivität:

• Symmetrie:

16

• Transivität:

Abb. 2.1.4 Beispiele für die in SUMO Definierung der mathematischen Eigenschaften binärer

Relationen

Diese drei Relationen gehören zu den grundlegenden Definitionen der SUMO. Das

bedeutet, dass andere Relationen entweder Spezialfälle oder Instanzen dieser Relationen sind. In

diesem Zusammenhang wird das Konzept EquivalenceRelation als Unterklasse dieser drei

Relationen definiert, indem EquivalenceRelation Eigenschaften von der Reflexivität, Symmetrie

sowie Transivität erbt. Es gibt auch mehrere weitere Beispiele, die auf der Reflexivitäts-,

Symmetrie- und Transivitätsrelationen basieren: reflexive Relationen – connected, overlaps,

subGraph; symmetrische Relationen – enemy, friend, coworker, consistent; transitive

Relationen – crosses, dependentGeopoliticalArea, multiplicativeFactor.

Die Wichtigkeit der SUMO besteht auch darin, dass es ohne die SUMO nicht möglich

wäre, impliziertes Wissen in die Ontologien in konkreten Anwendungen abzuleiten. Darüber

hinaus gibt es in der SUMO die Möglichkeit, sich mit dem semantischen Netz WordNet zu

verbinden. Diese Verbindung stellt zur Verfügung sowohl formale als auch linguistische

Informationen. Vor diesem Vordergrund ist besonderer Wert auf Informationen über Synonyme

gelegt, weil es der SUMO an Informationen über verschiedene Namen eines gleichen Konzeptes

mangelt. Am Anfang wurde diese Verbindung von Synonymen lediglich auf Substantive in

WordNet und passende Konzepte der SUMO begrenzt. In letzten Zeiten wird diese Verbindung

auch auf andere Wortarten ausgeweitet. In diesem Zusammenhang lassen sich drei Arten von

Bezeichnungen zwischen Synsets des WordNet und Konzepten der SUMO unterscheiden:

Synonymie – die genaue Entsprechung eines im WordNet bezeichneten Begriffs mit einem

SUMO-Konzept (z.B. Begriffe vom WordNet wie {plant, flora} entsprechen genau dem SUMO-

Konzept Plant); Hypermonie – ein WordNet-Begriff ist einem SUMO-Konzept untergeordnet (z-

B. ist WordNet-Begriff {Christian_Science} ein Unterbegriff vom SUMO-Konzept

ReligiousOrganisation); Instanz – ein WordNet-Begriff ist eine einzelne Ausprägung eines

SUMO-Konzeptes (z.B. WordNet Synset {Underground_Railroad, Underground_Railway} ist

ein Exemplar des SUMO-Konzeptes Organisation).

17

WordNet-Begriffe werden durch Kommentare von dem entsprechenden SUMO-

Konzept erweitert. Dabei fängt dieser entsprechende SUMO-Konzept mit dem Präfix &% an und

wird am Ende mit Informationen über Relationsart durch das Postfix versehen, wo Zeichen ‘=‘

‚‘+‘, ‘@‘ Synonymie, Hypernomie, Instanz entsprechen, beispielsweise plant, flora, plant life

((botany) a living organism lacking the power of locomotion) &% Plant=.

Die Verbindung zwischen der SUMO und WordNet vereinfacht die Erreichung des

Zieles der SUMO Erstellung, und zwar die Entwicklung und Einbeziehung von Ontologien.

WordNet scheint eine gute Einstiegsmöglichkeit in das formelle SUMO-Modell zu sein, weil

Definitionen von anderen Informationsquellen oder anderen Ontologien normalerweise in

WordNet gefunden werden können. Durch die Beschreibung eines Begriffs in WordNet mit der

Verbindung zu dem entsprechenden SUMO-Konzept ist die SUMO zu einem allgemeinen

Begriffssystem für die Bezeichnung und Integration von Informationen geworden.10

2.5 SUO KIF

Wie schon gesagt werden logische Formeln in SUMO für die Begriffsdefinierung

verwendet. Vor diesem Hintergrund wird SUO KIF entwickelt, um logische Formeln

darzustellen. Unter SUO-KIF wird eine formale Sprache, die Verarbeitung von Begriffen

erleichtert. SUO-KIF ermöglicht die Darstellung der prädikatenlogischen Formeln mit

Gleichheit. Gleichzeitig besitzt SUO-KIT ein spezielles Vokabular, das klassischen Ontologie-

Komponenten, nämlich Vererbung und Klassenzugehörigkeit darstellt. Darüber hinaus ist SUO-

KIF in der Lage, beschränkt Aussagen über logische Formeln zu tun. Um relationale Ausdrücke

zu wiedergeben, wird eine Präfix-Notation in SUO-KIF benutzt. Demzufolge wird

beispielsweise die Aussage, dass London die Hauptstadt von England folgenderweise abgebildet.

(capital-of London England)

SUO-KIF verfügt über vorbestimmte Relationen instance und subclass sowie eine

Menge von anderen vorbestimmten Relationen (subrelation). Dementsprechend kann die

Behauptung, dass London zu Hauptstädten gehört und der Konzept von Hauptstädten im

Allgemeinen eine Unterklasse von Städten ist und capital-of zu einer Teilrelation von lies-in

zählt, folgendermaßen geschildert werden:

(instance Berlin Capital)

(subclass Berlin City)

(subrelation capital-of lies-in)

SUO-KIF verfügt über Mechanismus, der die Definition der prädikatenlogischen

Formeln über relationale Ausdrücke ermöglicht. Formeln können in relationale (relsentence),

10 Vgl. Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, S 83-90

18

einfache logische (logsentence) sowie quantifizierte logische (quantsentence) Ausdrücke

klassifiziert werden.

Abb. 2.5.1 Rekursive Definierung von verschiedenen Klassen der Formeln in SUO-

KIF.

Um Variablen darzustellen, werden Worte, die mit einem Fragezeichen beginnen,

benutzt. SUO-KIF gibt auch die Möglichkeit komplexe Terme als Argumente relationaler

Ausdrücke zu verwenden. Ihre Syntax ist genauso wie einfache relationale Ausdrücke aufgebaut

und wird Präfix-Notation dargestellt.

Dank der oben beschriebenen Syntax hat die SUMO komplexe Definitionen als

Begriffe. Als Beispiel davon lässt sich hier der Konzept von Humanslave anführen, unter dem

man eine Personengruppe versteht, die Eigentum einer anderen Person ist.

Abb. 2.5.2 Die Darstellung des Konzept von Humanslave in SUO-KIF.

Der große Unterschied der SUMO von der Vielzahl anderer formalen Ontologien

besteht darin, dass es neben der formalen Beschreibung der Konzepte Formeln gibt, die die

exakten Definitionen von Beschaffenheit der benutzten Verbindungen liefern. Demzufolge

verfügt die SUMO über Axiome, die beispielsweise die Relation des Besitzes erklären.

19

Abb. 2.5.3 Die Darstellung des Axioms, das behauptet, dass der Besitzer auch

berechtigt ist, sein Eigentum zu benutzten.

Diese oben dargestellte Aussage genauso wie andere beispielsweise die Aussage über

den Wahrheitswert einer bestimmten Formel außer der Prädikatenlogik liegt. Um solche

Aussagen verarbeiten zu können, werden spezielle Beweisverfahren verwendet. Die Aussagen

über den Wahrheitswert einer bestimmten Formel lassen sich in SUO-KIF durch die Relation

holds bilden. Diese Relation erhält den Namen und Eingaben in Form von Termen. Die Relation

holds beschreibt die angezeigte Relation der Terme zueinander.

Abb. 2.5.4 Das Beispiel einer Definition mithilfe der Relation holds.

Die oben dargestellte Aussage ist ein Beispiel für eine Definition allgemeiner

Ableitungsregel, die feststellt, dass jede zweistellige Relation sich aus zwei Artikeln

zusammensetzt, falls diese Artikel in Teilrelation der angemessenen Relation sind.

SUMO hat ihre Schwierigkeiten hinsichtlich der Wissensableitung aus SUMO anhand

logischen Schließens, die wegen der äußerst hohen Mächtigkeit des Ausdrucks und der

Verwendung von nicht mehr in der Prädikatenlogik liegenden Konzepten entstehen.11

2.6 SUMO und ihre Verwendung in der Computer Linguistik

SUMO als eine Upper Ontologie gehört zu einem wesentlichen Bestandteil intelligenter

Systeme der Wahrnehmung, Handlung und Sprache. SUMO wird für die Kategorisierung von

Daten, Lösung eines Problems, Kommunikation, Planung von Handlungen verwendet. Die Rolle

der SUMO in der Computer Linguistik sowie Künstlichen Intelligenz ist nicht zu unterschätzen.

Viele Wege der Benutzung von SUMO wurden schon in oberen Teilen dieser Verfassung

beschrieben. Trotzdem sollte es noch einmal bemerkt werden, dass eine der größten Wichtigkeit

von SUMO besteht darin, sie sehr breite semantische Interoperabilität zwischen einer großen

11 Vgl. Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und Anwendung, S 80-83

20

Anzahl von Ontologien unterstützt bzw. ermöglicht. Darüber hinaus wird SUMO als eine der

Grundlagen von maschineller Übersetzung benutzt.12

3. Zusammenfassung

Ontologie, der Begriff, der aus der Disziplin der Philosophie stammt, hat derzeit einen

breiten Einsatz in der Informatik, Künstlicher Intelligenz sowie Computerlinguistik gefunden.

Das wurde von dem wachsenden Drang nach immer größeren Wissenssystemen verursacht. Als

Folge von dem angestiegenen Zeit- und Arbeitsaufwand ihrer Verarbeitung und Verwaltung,

wird die Frage der Automatisierung dieses Prozesses aufgeworfen. Ontologien werden groß

gesagt in 2 Klasse aufgeteilt. Während untergeordnete Ontologien formale, explizite

Spezifikationen einer gemeinsamen Konzeptualisierung13 sind, ist die Aufgabe der Upper

Ontologien, breite semantische Interoperabilität zwischen einer Großzahl von untergeordneten

Ontologien zu unterstützen. In der Zukunft sind die Tendenzen der Erweiterung und

Zusammenschließung von Upper Ontologien zu erwarten, da das Ziel verfolgt wird, eine

universale vollständige Ontologie herauszuarbeiten.14

12 Vgl. Carstensen K.U: Computerlinguistik und Sprachentechnologie, S 1-11 13 Vgl. Gruber, Thomas R.: A translation approach to portable ontology specifications, S 5 14 Vgl. Vgl. Carstensen K.U: Computerlinguistik und Sprachentechnologie, S 11-12

21

Literaturverzeichnis

Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien und

Anwendung, Springer, Berlin, 2011

Raj Sharman, Rajiv Kishore, Ram Ramesh: Ontologies - a handbook of principles, concepts, and

applications in information systems, Springer, New York, 2007

Andrea C. Schalley, Dietmar Zaefferer: Trends in Linguistic, Ontolinguistik, how ontological

status shapes the linguistic coding of concepts, Walter de Gruyter, Berlin, 2007

Viviana Mascardi, Valentina Cordi: A comparasion of Upper Ontologies

Carstensen K.U: Computerlinguistik und Sprachentechnologie, Spektrum, 2009

Thomas R. Gruber: Towards Principles for the Design of Ontologies Used for Knowledge

Sharing, Stanford Knowledge Systems Laboratory

Gruber, Thomas R.: A translation approach to portable ontology specifications, Stndford 1993

Hermann Helbig: Knowledge Representation and the Semantics of Natural Language, Springer,

Berlin, 2006

Roberto Poli, Michael Healy, Achilles Kameas: Theory and Applications of Ontology, Computer

applications, Springer, Heidelberg, 2010

http://www.ontologyportal.org/

Abbildungsnachweis

Abb.1.1.1

http://www.hispanoteca.eu/Lexikon%20der%20Linguistik/sa/SEMIOTISCHES%20DREIECK%

20%20Tri%C3%A1ngulo%20sem%C3%A1ntico%20o%20semi%C3%B3tico.htm

Abb.2.1.1 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien

und Anwendung, Springer, Berlin, 2011, S 79

Abb.2.1.2 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien

und Anwendung, Springer, Berlin, 2011, 82

Abb. 2.1.3 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien


22









Abb 2.5.3 Heiner Stuckenschmidt: Informatik im Fokus, Ontologien, Konzepte, Technologien




suggested upper merged ontology

Education