uwe ulbrich, freie universität berlin workflow - diagnosetool - igmk und zaik universität zu köln...

Uwe Ulbrich, Freie Universität Berlin

Workflow - Diagnosetool -

IGMK und ZAIKUniversität zu Köln

IfM Freie Universität Berlin


Workflow Intention• Wissenschaftliche Zielsetzung, die Workflow erfordert:

Interpretation und Vergleich von Modellexperimenten und „Beobachtungsdaten“ hinsichtlich bestimmter wiss. Fragestellungen.

Dazu Standard-Berechnungen von Parametern für die Basisdaten durch Diagnosetools.

• Problematik der Workflows

- gewöhnlich sehr große Menge an Daten, von der nur ein Teil gebraucht wird.

- räumliche Datenverteilung oft unklar (gibt es Kopien, etc)

- Zwischenprodukte werden nach Plattenplatz und „Gefühl“ der Bearbeiter aufgehoben.- Anforderungen und Zeit für Workflow-Abarbeitung passen nicht notwendig zu einander – Optimierung auf Basis Erfahrung.


Workflow Intention• Vorstellung, wie C3-Ergebnis aussehen könnte

- Benutzeroberfläche, die auf Bedürfnisse der Anwender abgestimmt ist,

- Automatisierte Erkennung der Verfügbarkeit geeigneter Datensätze (auch: 90%)

- Abschätzung der Realisierbarkeit und des Aufwands vor Auftragsvergabe

- Automatisierte Abarbeitung, mit Möglichkeit, Replikate / Kopien / Zwischenergebnisse und bestimmte Plattformen zu erzwingen.

- Eignung nicht nur für Beispielworkflows, Verfahren verallgemeinerbar!!


Beispiel: Workflow I(Baroklinitätsberechnung)

Als Berechnungsgrundlage für angegebenen Speicherplatzbedarf dient einKonsortiallauf des Klimamodells ECHAM5:

ECHAM5 A1B 1• Auflösung: horizontal: T63 (entspricht Gauss-Gitter: 192 x 96)

vertikal: 13 (troposphärische) p-Level zeitlich: 4 x täglich (6h)

• Zeitraum: 200 Jahre• für die Berechnung des Eady-Parameters werden aus zwei Niveaus je 4 Parameter verwendet.

Diagnosecluster Datenfluss am Beispiel eines der Diagnose-Tools (Baroklinität)



GRIB-Format

WDC Climate / DKRZ

CERA DKRZ(UTF)

K / B(home)

RRZK(SAN)

1 2 3 4RRZK

(SAN)

LOLA-Format LOLA-Format

Speicherplatz:Monthly mean: 700 MB 1400 MB 180 MBDaily mean: 21 GB 42 GB 5,4 GB6 hourly: 84 GB 168 GB 21,6 GB

Aktueller Beispiel-Workflow (globale Daten als Ergebnis)1 Datentransfer per jblob von der CERA-Datenbank auf die UTF-Platte des DKRZ.2 Datentransfer per ftp vom DKRZ auf die SAN-Festplatte des RRZK.3 Datenkonvertierung mit PINGO / CDO: vom GRIB- zum LOLA-Format.4 Eady-Programm liest 8 Parameter ein und gibt den berechneten EADY-Parameter ins home-Verzeichnis des IGMK aus.

RRZK IGM K / FU B

GRIB-Format


CERA DKRZ(UTF)

K / B(home)

RRZK(SAN)

1 2 3 4


WDC Climate / DKRZ

RRZK(SAN)

Bei Berechnung für eine Region (hier Atlantik-Europa 90W-50E, 80N-20N)deutlich reduzierte Datenmenge (57x25=1425 Gitterpunkte)

Speicherplatz: reduzierter SpeicherplatzMonthly mean: 700 MB 100 MB 13 MBDaily mean: 21 GB 3 GB 0,4 GB6 hourly: 84 GB 12 GB 1,6 GB

Speicherplatz:Monthly mean: 700 MB 1400 MB 180 MBDaily mean: 21 GB 42 GB 5,4 GB6 hourly: 84 GB 168 GB 21,6 GB


Diagnosecluster Datenfluss für weitere Diagnose-Tools

FeuchteflüsseDateninput: Wind (zonal, meridional), spezifische Feuchte (berechnet aus rel. Feuchte, daher auch Temperatur benötigt)Druckniveaus auswählen oder integriert (falls ab Boden: Bodendruck und bodennahe Wind- und Feuchtefelder benötigt)

CAPEDateninput: Temperatur, relative Feuchte, integriert über variable HöhenbereicheBodendruck, falls ab Boden(Evtl Flüssigwasser in einzelnen Niveaus)

Berechnungen der Stromfunktion, meridionale Ableitungen(Gradienten) besser aus KFFK statt aus Gitterpunktsdaten!

StormtracksDateninput: Geopotenzial in einem Niveau Zeitserien (tägliche oder noch höher aufgelöste Daten)


Workflow Diagnosetool -alt-

a) Extraktion der Daten aus Datenbank

b) Konvertierung der Daten in anderes Datenformat

c) Transfer der Daten ins IGMK

d) Berechnung der gewünschten Daten mit Hilfe des Diagnosetoolsd‘: ggf. Statistische Analyse der Ausgangsdaten

e) Grafische Aufbereitung der Ergebnisdaten

CERA

long termstorage

WORK-SHARE

scratchIGMK

scratchIGMK

scratchIGMK

(IGMK)

WORK-SHARE

b

a bc d

d‘ e

e


Workflow Diagnosetool -neu-

CERA

long termstorage

WORK-SHARE

scratchIGMK

scratchRRZK

scratchRRZK

(RRZK /IGMK)

scratchRRZK

b

a b

a) Extraktion der Daten aus Datenbank

b) Transfer der Daten ins IGMK

c) Konvertierung der Daten in anderes Datenformat

d) Berechnung der gewünschten Daten mit Hilfe des Diagnosetoolsd‘: ggf. Statistische Analyse der Ausgangsdaten

e) Grafische Aufbereitung der Ergebnisdaten

c d

d‘ e

e


Workflow - neu -

• Extraktion von Daten aus dem Datenarchiv / Datenpool in Hamburg

• Transfer der Daten nach Köln• Konvertierung / Aufbereitung der Daten für das

Diagnosetool am ZAIK• Berechnung der atmosphärischen Parameter

mit Hilfe des Diagnosetools• Ggf. weitere Datenverarbeitung / Statistische

Analysen• Visualisierung des Datensatzes


Workflow - aktuelle Arbeiten -

• Transfer des Konvertierungstools marion (Fortran-Program) von NEC SX-6 ► SUN-Opteron Cluster

• Transfer des Diagnosetools incl. Job-Umgebung von SUN-Workstation ► SUN-Opteron Cluster

• Später:Erweiterung des Diagnosetools für netCDF und Grib Daten, damit ggf. keine weitere Konvertierung mehr notwendig ist und weniger Plattenplatz benötigt wird ► weiterhin ein direkter, effektiver Nutzen der cdo‘s möglich


Workflow - alt -

• Extraktion von Daten aus dem Datenarchiv / Datenpool in Hamburg (long-term storage)

• Konvertierung und Aufbereitung der Daten für das Diagnosetool am DKRZ► Vergrößerung des Datenvolumens

• Transfer der Daten nach Köln• Berechnung der atmosphärischen Parameter

mit Hilfe des Diagnosetools• Ggf. weitere Datenverarbeitung / Statistische

Analysen• Visualisierung des Datensatzes

uwe ulbrich, freie universität berlin workflow - diagnosetool - igmk und zaik universität zu köln...

Documents