13. vorlesung 8. datenbanken und integration simulation vorlesung ws 06/07modellierung &...

Click here to load reader

Download 13. Vorlesung 8. Datenbanken und Integration Simulation Vorlesung WS 06/07Modellierung & Simulation Überblick

Post on 06-Apr-2016

212 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • 13. Vorlesung

    8. Datenbanken und Integration

    Simulation

    Vorlesung WS 06/07Modellierung & Simulation berblick

  • Protein Information Resource PIR http://pir.georgetown.edu/Eine Datenbank auf der Ebene der Protein Sequenzen. Die Homepage bietet die unterschiedlichen Werkzeuge an: Datenbanken und Analysetools.

    Protein Data Bank (PDB)http://www.rcsb.org/pdb/Die Protein Data Bank (PDB) ist ein Archiv experimentell ermittelter dreidimensionaler Strukturen biologischer Makromolekle. Es enthlt Atomkoordinaten, bibliographische Verweise, Informationen zu Primr- und Sekundrstrukturen und kristallographische Strukturfaktoren. Diese Datenbank wurde vom Brookhaven National Laboratory in den USA entwickelt. Es existieren verschiedene Anwendungen, die PDB-Daten verarbeiten und visualisieren knnen. Die PDB-Daten werden durch HTML-Seiten dargestellt. Die Datenfelder sind in Zeilen geordnet, wobei jede Zeile durch ein NEWLINE abgeschlossen wird. Ein strukturierter Zugriff auf einzelne Datenfelder ist somit gut mglich. Vorlesung Modellierung & Simulation8. Informationssysteme

  • The Transcription Factor Database TRANSFAC http://transfac.gbf.de/TRANSFAC/index.htmlDie TRANSFAC Datenbank reprsentiert Informationen zur Genregulation: Binding sites, Gene, Proteine, Zellen, Klassen von Transkriptionsfaktoren sowie Verteilungsmatrizen der Sequenzen. Zur Archivierung wurde hier ein DBMS genutzt. Hier handelt es sich um einen SQL-Server von MICROSOFT. Eine direkte Nutzung dieser Systeme ist aber nicht mglich. Eine externe Datendarstellung erfolgt durch HTML-Seiten, die somit den sichtbaren Speichermechanismus darstellt. Die gewhlten ASCII-Darstellungen besitzen eine klare Struktur. Die Daten werden in Zeilen dargestellt, die durch ein Newline abgeschlossen werden.

    Die Mglichkeit von Schemaanfragen ist in TRANSFAC nicht gegeben. TRANSFAC ist im Internet verfgbar und bietet verschiedene Masken zur Spezifikation von Anfragen an. Diese knnen durch HTML Browser genutzt werden. Die so spezifizierten Anfragen werden durch den Aufruf von CGI-Skripten zum Datenbankserver gesendet. Vorlesung Modellierung & Simulation8. Informationssysteme

  • TranspathIst ebenfalls ein Produkt der Firma BioBase und reprsentiert eine Datenbank fr Signalpathways. Sie ist hnlich gestaltet wie die TRANSFAC.

    CYTOMERIst ebenfalls ein Produkt der Firma BioBase und reprsentiert eine Datenbank fr Organ- und Zelltypen.

    BRENDAIst ebenfalls ein Produkt der Firma BioBase (Lizens) und reprsentiert die Enzym-Datenbank von Prof. Schomburg.

    Vorlesung Modellierung & Simulation8. Informationssysteme

  • Dateien als Komponentensysteme

    - DBase-hnliche DateienSie besitzen eine Tabellenstruktur und sind mit dem relationalen Daten-modell vergleichbar. Der Dateiname ist der Name der in der Datei enthaltenen Tabelle.

    - Stark strukturierte TextdateienEinzelne Datenfelder sind durch ein Schlsselwort gekennzeichnet. Dem Schlsselwort knnen mehrere Datenelemente folgen.

    - Schwach strukturierte TextdateienHier sind neben den Daten, die fr eine Integration interessant sein knnen, weitere Informationen enthalten (z.B. Datenfelder im Textdokument). Sie dienen oft dem Entwurf eines Schemas, um diese in einem fderierten System integrieren zu knnen.Vorlesung Modellierung & Simulation8. Informationssysteme

  • - HypertextdateienSie besitzen viele Elemente zur Formatierung, Strukturierung und Verknpfung von Daten. Eine Strukturierung von Daten in einer HTML-Tabelle kann fr einen Schemaentwurf der Hypertextdatei wichtig sein.

    - Satzorientierte DateienHier sind Datenfelder mit gleicher oderauch variabler Datensatzlnge enthalten. Bei Kenntnis des Aufbaus eines Datensatzes ist der Zugriff auf die einzelnen Datenstze problemlos.

    - Binre DateienEin Schema fr binre Dateien zu finden ist eigentlich nur mit Hilfe des Sourcecodes der darauf zugreifenden Anwendung mglich. Die Integration ist somit nur als gesamte Datei mglich. Als Zugriffsschlssel kann dabei der Name der Bitmapdatei dienen.Vorlesung Modellierung & Simulation8. Informationssysteme

  • Zugriff auf eine Datei: URL oder ihren Pfad- und Dateinamen.

    Der Dateinamen ist relevant, weil auf - Informationen ber ihr Format und/oder- ihre Attribute geschlossen werden kann.

    In der Regel sind es kontextsensitive oder kontextfreie Grammatiken

    Eingabe von Parsern Vorlesung Modellierung & Simulation8. Informationssysteme

  • Das Datenfeld in einer Datei bestimmen:

    -Die absolute Position in einer Datei.

    -Die relative Position zu einem Schlsselzeichen/- wort.

    - Die Kennzeichnung durch ein Schlsselzeichen oder Schlsselwort, die vor oder hinter einem Datenfeld stehen knnen oder das Datenfeld eingrenzen.Beim Einsatz eines Parsers sind die entsprechenden Datenfelder durch ihn zu lokalisieren und auszulesen. Vorlesung Modellierung & Simulation8. Informationssysteme

  • Zugriffsmglichkeiten auf Informationssysteme

    Datenbanksysteme bieten standardisierte oder spezifische Schnittstellen:- ODBC/JDBC oder - CORBA.

    Der Zugriff auf Dateien ist schwierig.

    Fr wenige Formate ist ein ODBC/JDBC- Zugriff mglich.

    In der Regel sind die Daten ber Parser zu extrahieren.

    Vorlesung Modellierung & Simulation8. Informationssysteme

  • Zugriffsmglichkeiten auf Informationssysteme

    Die Entwicklung von Zugriffskomponenten:

    Feste Einbindung in den AnwendungenIn vielen Anwendungen sind die Softwarekomponenten fr den Zugriff auf Daten fest integriert. AdapterEr dient der Anpassung der Schnittstellen verschiedener Systeme. Dadurch wird die Zusammenarbeit zweier inkompatibler Systeme realisiert. Softwareentwicklung = Module. Vorlesung Modellierung & Simulation8. Informationssysteme

  • Module:- sind relativ unabhngig erstellbar,- ihre Korrektheit ist einzeln berprfbar,-sind einfach durch andere Module ersetzbar,- ihre Kommunikation erfolgt ber definierte Schnittstellen.Eigenschaften:-Die Adapter knnen unabhngig entwickelt werden. - Funktionsweise, Korrektheit und Effizienz knnen separat berprft werden.- Der Austausch oder die nderung von Adaptern werden durch Kapselung von anderen Komponenten erleichtert.- Bei gewnschtem Zugriff auf andere Systeme wird die Ankopplung durch entsprechend entwickelte Adapter vereinfacht.Vorlesung Modellierung & Simulation8. Informationssysteme

  • Folgende Gruppen von Adaptern werden genannt:

    Spezielle Adapter: Die Anbindung eines Informationssystems. Sie knnen statisch oder dynamisch agieren. Universelle Adapter:Sie sind fr verschiedene Systeme einsetzbar. Generierte Adapter:Sie sind speziell an ein Informationssystem angepasst und knnten mit zu der Gruppe der speziellen Adapter gehren. Sie sind jedoch nicht fertig ausprogrammiert. Vorlesung Modellierung & Simulation8. Informationssysteme

  • ODBC/JDBCDie Verfgbarkeit standardisierter Schnittstellen erleichtert die Implementierung von Adaptern.

    Beispiel: ODBC (Open Database Connectivity) und JDBC (Java Database Connectivity).

    Gem dem ODBC-Standard existieren Schnittstellen zu C, C++.

    Der Treiber-Manager verwaltet die ODBC-Treiber des Systems.

    Vorlesung Modellierung & Simulation8. Informationssysteme

  • ODBC/JDBC

    Datenquellen gespeicherte Informationen:

    - Typ des zu verwendenden ODBC-Treibers,

    - Serveradressen und Servername,

    - Netzwerksoftware sowie

    - datenbankspezifische Einstellungen.

    Es existieren verschiedene Arten von JDBC-Treibern:

    - JDBC-ODBC Bridges- datenbanksystemspezifische JDBC-Treiber- universelle JDBC-TreiberVorlesung Modellierung & Simulation8. Informationssysteme

  • Datenzugriff mittels JDBC

    Voraussetzung - JDBC-Treiber.

    Es besteht aus Java Klassen, die im Java Programm geladen werden.

    Verbindungsaufbau:- die Rechneradresse, - den Login-Namen und - das Passwort in der entsprechenden JDBC-Funktion angeben. Vorlesung Modellierung & Simulation8. Informationssysteme

  • JAVA-JDBC-Application/AppletJDBC APIJDBC-Treiber-ManagerJDBC-TreiberJDBC-TreiberJDBC-ODBCBridge-TreiberDBS-1DBS-2DBS-3ODBC-TreiberManagerODBC-Treiber

  • Die Rechneradresse beginnt mit jdbc: jdbc:odbc: (JDBC-ODBC-Bridge)

    Danach folgt die IP-Adresse des Rechners.

    Schlielich die Angabe der Datenbank.

    ber diese Verbindung knnen SQL-Statements abgesetzt werden.

    Vorlesung Modellierung & Simulation8. Informationssysteme

  • RPC (Remote Procedure Call)

    RPC-Mechanismen: Um Funktionen (Procedures) auf rumlich entfernte Rechner oder auch anderer Prozesse aufzurufen.

    Die Argumente knnen bergeben werden.

    Die Funktion kann einen Returnwert bergeben. Vorlesung Modellierung & Simulation8. Informationssysteme

  • Java - Standard Remote Method Invocation (RMI)

    RMI-Mechanismen: Methoden von Objekten aufrufen, die sich auf einem rumlich entfernten Rechner befinden oder in einem anderen Java-Prozess laufen.

    RMI ist mit CORBA vergleichbar. Bei beiden sind Methoden von Objekten von anderen Rechnern oder Prozessen aufrufbar.

    RMI ist nur innerhalb von Java einsetzbar!Vorlesung Modellierung & Simulation8. Informationssysteme

  • Zugriff auf Daten in DateienEs existieren kaum Standards. Ausnahme: dBase Dateien - ODBC-Treiber ist verfgbar. Allgemein:Zugriff auf Dateien durch Erkennen von Muster und Struktur. ParsenAufgabe: Auslesen und eventuell auch Schreiben von Daten.Auerdem Scanner fr die Analyse der einzelnen Symbole der Datei.

    Der Parser kann Zeichen oder Zeichenfolgen sowie die Syntax von Dateien analysieren.

    Vorlesung Modellierung & Simulation8. Informationssysteme

View more