Transcript
Page 1: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

13. Vorlesung

8. Datenbanken und Integration

Simulation

Vorlesung WS 06/07 Modellierung & Simulation Überblick

Page 2: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Protein Information Resource PIR http://pir.georgetown.edu/Eine Datenbank auf der Ebene der Protein Sequenzen. Die Homepage bietet die unterschiedlichen Werkzeuge an: Datenbanken und Analysetools.

Protein Data Bank (PDB) http://www.rcsb.org/pdb/Die Protein Data Bank (PDB) ist ein Archiv experimentell ermittelter dreidimensionaler Strukturen biologischer Makromoleküle. Es enthält Atomkoordinaten, bibliographische Verweise, Informationen zu Primär- und Sekundärstrukturen und kristallographische Strukturfaktoren. Diese Datenbank wurde vom Brookhaven National Laboratory in den USA entwickelt. Es existieren verschiedene Anwendungen, die PDB-Daten verarbeiten und visualisieren können. Die PDB-Daten werden durch HTML-Seiten dargestellt. Die Datenfelder sind in Zeilen geordnet, wobei jede Zeile durch ein NEWLINE abgeschlossen wird. Ein strukturierter Zugriff auf einzelne Datenfelder ist somit gut möglich.

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 3: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

The Transcription Factor Database TRANSFAC

http://transfac.gbf.de/TRANSFAC/index.htmlDie TRANSFAC Datenbank repräsentiert Informationen zur Genregulation: Binding sites, Gene, Proteine, Zellen, Klassen von Transkriptionsfaktoren sowie Verteilungsmatrizen der Sequenzen. Zur Archivierung wurde hier ein DBMS genutzt. Hier handelt es sich um einen SQL-Server von MICROSOFT. Eine direkte Nutzung dieser Systeme ist aber nicht möglich. Eine externe Datendarstellung erfolgt durch HTML-Seiten, die somit den sichtbaren Speichermechanismus darstellt. Die gewählten ASCII-Darstellungen besitzen eine klare Struktur. Die Daten werden in Zeilen dargestellt, die durch ein Newline abgeschlossen werden.

Die Möglichkeit von Schemaanfragen ist in TRANSFAC nicht gegeben. TRANSFAC ist im Internet verfügbar und bietet verschiedene Masken zur Spezifikation von Anfragen an. Diese können durch HTML Browser genutzt werden. Die so spezifizierten Anfragen werden durch den Aufruf von CGI-Skripten zum Datenbankserver gesendet.

 Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 4: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Transpath

Ist ebenfalls ein Produkt der Firma BioBase und repräsentiert eine Datenbank für Signalpathways. Sie ist ähnlich gestaltet wie die TRANSFAC.

CYTOMER

Ist ebenfalls ein Produkt der Firma BioBase und repräsentiert eine Datenbank für Organ- und Zelltypen.

BRENDAIst ebenfalls ein Produkt der Firma BioBase (Lizens) und repräsentiert die Enzym-Datenbank von Prof. Schomburg.

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 5: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Dateien als Komponentensysteme

- DBase-ähnliche Dateien

Sie besitzen eine Tabellenstruktur und sind mit dem relationalen Daten-modell vergleichbar. Der Dateiname ist der Name der in der Datei

enthaltenen Tabelle.

- Stark strukturierte Textdateien

Einzelne Datenfelder sind durch ein Schlüsselwort gekennzeichnet. Dem Schlüsselwort können mehrere Datenelemente folgen.

- Schwach strukturierte Textdateien

Hier sind neben den Daten, die für eine Integration interessant sein können, weitere Informationen enthalten (z.B. Datenfelder im Textdokument). Sie dienen oft dem Entwurf eines Schemas, um diese in einem föderierten

System integrieren zu können.

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 6: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

- Hypertextdateien

Sie besitzen viele Elemente zur Formatierung, Strukturierung und Verknüpfung von Daten. Eine Strukturierung von Daten in einer

HTML-Tabelle kann für einen Schemaentwurf der Hypertextdatei wichtig sein.

- Satzorientierte Dateien

Hier sind Datenfelder mit gleicher oder auch variabler Datensatzlänge enthalten. Bei Kenntnis des Aufbaus eines Datensatzes ist der Zugriff auf die einzelnen Datensätze problemlos.

- Binäre Dateien

Ein Schema für binäre Dateien zu finden ist eigentlich nur mit Hilfe des Sourcecodes der darauf zugreifenden Anwendung möglich. Die Integration ist somit nur als gesamte Datei möglich. Als

Zugriffsschlüssel kann dabei der Name der Bitmapdatei dienen.Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 7: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Zugriff auf eine Datei:

URL oder ihren Pfad- und Dateinamen.  

Der Dateinamen ist relevant, weil auf

- Informationen über ihr Format und/oder

- ihre Attribute

geschlossen werden kann.

In der Regel sind es kontextsensitive oder kontextfreie Grammatiken

Eingabe von Parsern

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 8: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Das Datenfeld in einer Datei bestimmen:

- Die absolute Position in einer Datei.

- Die relative Position zu einem Schlüsselzeichen/- wort.

- Die Kennzeichnung durch ein Schlüsselzeichen oder Schlüsselwort, die vor oder hinter einem Datenfeld

stehen können oder das Datenfeld eingrenzen.

 

Beim Einsatz eines Parsers sind die entsprechenden Datenfelder durch ihn zu lokalisieren und auszulesen.

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 9: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Zugriffsmöglichkeiten auf Informationssysteme

Datenbanksysteme bieten standardisierte oder spezifische Schnittstellen:

- ODBC/JDBC oder

- CORBA.

Der Zugriff auf Dateien ist schwierig.

Für wenige Formate ist ein ODBC/JDBC- Zugriff möglich.

In der Regel sind die Daten über Parser zu extrahieren.

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 10: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Zugriffsmöglichkeiten auf Informationssysteme

Die Entwicklung von Zugriffskomponenten:

Feste Einbindung in den Anwendungen

In vielen Anwendungen sind die Softwarekomponenten für den Zugriff auf Daten fest integriert.

Adapter

Er dient der Anpassung der Schnittstellen verschiedener Systeme. Dadurch wird die Zusammenarbeit zweier inkompatibler Systeme realisiert.

Softwareentwicklung = Module.

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 11: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Module:

- sind relativ unabhängig erstellbar,

- ihre Korrektheit ist einzeln überprüfbar,

- sind einfach durch andere Module ersetzbar,

- ihre Kommunikation erfolgt über definierte Schnittstellen.

Eigenschaften:- Die Adapter können unabhängig entwickelt werden.

- Funktionsweise, Korrektheit und Effizienz können separat überprüft werden.

- Der Austausch oder die Änderung von Adaptern werden durch Kapselung von anderen Komponenten erleichtert.

- Bei gewünschtem Zugriff auf andere Systeme wird die Ankopplung durch entsprechend entwickelte Adapter vereinfacht.

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 12: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Folgende Gruppen von Adaptern werden genannt:

Spezielle Adapter: Die Anbindung eines Informationssystems. Sie können statisch oder dynamisch agieren.

 

Universelle Adapter: Sie sind für verschiedene Systeme einsetzbar.

 

Generierte Adapter: Sie sind speziell an ein Informationssystem angepasst und könnten mit zu der Gruppe der speziellen Adapter gehören.

Sie sind jedoch nicht fertig ausprogrammiert.  

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 13: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

ODBC/JDBC

Die Verfügbarkeit standardisierter Schnittstellen erleichtert die Implementierung von Adaptern.

Beispiel: ODBC (Open Database Connectivity) und

JDBC (Java Database Connectivity).

Gemäß dem ODBC-Standard existieren Schnittstellen zu

C, C++.

Der Treiber-Manager verwaltet die ODBC-Treiber des Systems.

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 14: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

ODBC/JDBC

Datenquellen – gespeicherte Informationen:

- Typ des zu verwendenden ODBC-Treibers,

- Serveradressen und Servername,

- Netzwerksoftware sowie

- datenbankspezifische Einstellungen.

Es existieren verschiedene Arten von JDBC-Treibern:

-         JDBC-ODBC Bridges-         datenbanksystemspezifische JDBC-Treiber-         universelle JDBC-Treiber

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 15: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Datenzugriff mittels JDBC

Voraussetzung - JDBC-Treiber.

Es besteht aus Java Klassen, die im Java Programm geladen werden.

Verbindungsaufbau:

- die Rechneradresse,

- den Login-Namen und

- das Passwort in der entsprechenden JDBC-Funktion angeben.

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 16: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

JAVA-JDBC-Application/Applet

JDBC API

JDBC-Treiber-Manager

JDBC-Treiber JDBC-Treiber JDBC-ODBC

Bridge-Treiber

DBS-1 DBS-2

DBS-3

ODBC-Treiber

Manager

ODBC-Treiber

Page 17: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Die Rechneradresse beginnt mit jdbc:

jdbc:odbc: (JDBC-ODBC-Bridge)

Danach folgt die IP-Adresse des Rechners.

Schließlich die Angabe der Datenbank.

Über diese Verbindung können SQL-Statements abgesetzt werden.

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 18: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

RPC (Remote Procedure Call)

RPC-Mechanismen: Um Funktionen (Procedures) auf räumlich entfernte Rechner oder auch anderer Prozesse aufzurufen.

Die Argumente können übergeben werden.

Die Funktion kann einen Returnwert übergeben.

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 19: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Java - Standard Remote Method Invocation (RMI)

RMI-Mechanismen: Methoden von Objekten aufrufen, die sich auf einem räumlich entfernten Rechner befinden

oder in einem anderen Java-Prozess laufen.

RMI ist mit CORBA vergleichbar. Bei beiden sind Methoden von Objekten von anderen Rechnern oder Prozessen aufrufbar.

RMI ist nur innerhalb von Java einsetzbar!

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 20: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Zugriff auf Daten in Dateien

Es existieren kaum Standards.

Ausnahme: dBase Dateien - ODBC-Treiber ist verfügbar.

Allgemein: Zugriff auf Dateien durch Erkennen von Muster und Struktur.

Parsen

Aufgabe: Auslesen und eventuell auch Schreiben von Daten.

Außerdem Scanner für die Analyse der einzelnen Symbole der Datei.

Der Parser kann Zeichen oder Zeichenfolgen sowie die Syntax von Dateien analysieren.

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 21: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Analyse durch Parser:

Lexikalische Analyse

Den Eingabestrom einlesen und definierte Token erkennen und klassifizieren.

Die Definition der Token erfolgt durch reguläre Ausdrücke.

Die Token sind einzelne Symbole oder eine Symbolfolge.

Syntaxanalyse

Sie versucht die von der LA gefundenen Symbole und Wörter auf die Regeln der Grammatik anzuwenden.

Während der Syntaxanalyse wird logisch ein sogenannter Parser- Baum aufgebaut.

Vorlesung Modellierung & Simulation 8. Informationssysteme

Page 22: 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Die Analyse durch Parser:

Für die Syntaxanalyse werden häufig folgende Strategien angewendet:

Bottom-Up-Methode

Top-Down-Methode

Parser-Generator JavaCCErmöglicht die lexikalische Analyse, die Syntaxanalyse und die Ausführung von Funktionen.

Der Parser-Generator und die generierten Parser sind auf verschiedenen Java- Plattformen nutzbar. 

Vorlesung Modellierung & Simulation 8. Informationssysteme


Top Related