uwe ulbrich, freie universität berlin workflow - diagnosetool - igmk und zaik universität zu köln...
TRANSCRIPT
Uwe Ulbrich, Freie Universität Berlin
Workflow - Diagnosetool -
IGMK und ZAIKUniversität zu Köln
IfM Freie Universität Berlin
Uwe Ulbrich, Freie Universität Berlin
Workflow Intention• Wissenschaftliche Zielsetzung, die Workflow erfordert:
Interpretation und Vergleich von Modellexperimenten und „Beobachtungsdaten“ hinsichtlich bestimmter wiss. Fragestellungen.
Dazu Standard-Berechnungen von Parametern für die Basisdaten durch Diagnosetools.
• Problematik der Workflows
- gewöhnlich sehr große Menge an Daten, von der nur ein Teil gebraucht wird.
- räumliche Datenverteilung oft unklar (gibt es Kopien, etc)
- Zwischenprodukte werden nach Plattenplatz und „Gefühl“ der Bearbeiter aufgehoben.- Anforderungen und Zeit für Workflow-Abarbeitung passen nicht notwendig zu einander – Optimierung auf Basis Erfahrung.
Uwe Ulbrich, Freie Universität Berlin
Workflow Intention• Vorstellung, wie C3-Ergebnis aussehen könnte
- Benutzeroberfläche, die auf Bedürfnisse der Anwender abgestimmt ist,
- Automatisierte Erkennung der Verfügbarkeit geeigneter Datensätze (auch: 90%)
- Abschätzung der Realisierbarkeit und des Aufwands vor Auftragsvergabe
- Automatisierte Abarbeitung, mit Möglichkeit, Replikate / Kopien / Zwischenergebnisse und bestimmte Plattformen zu erzwingen.
- Eignung nicht nur für Beispielworkflows, Verfahren verallgemeinerbar!!
Uwe Ulbrich, Freie Universität Berlin
Beispiel: Workflow I(Baroklinitätsberechnung)
Als Berechnungsgrundlage für angegebenen Speicherplatzbedarf dient einKonsortiallauf des Klimamodells ECHAM5:
ECHAM5 A1B 1• Auflösung: horizontal: T63 (entspricht Gauss-Gitter: 192 x 96)
vertikal: 13 (troposphärische) p-Level zeitlich: 4 x täglich (6h)
• Zeitraum: 200 Jahre• für die Berechnung des Eady-Parameters werden aus zwei Niveaus je 4 Parameter verwendet.
Diagnosecluster Datenfluss am Beispiel eines der Diagnose-Tools (Baroklinität)
Uwe Ulbrich, Freie Universität Berlin
Diagnosecluster Datenfluss am Beispiel eines der Diagnose-Tools (Baroklinität)
GRIB-Format
WDC Climate / DKRZ
CERA DKRZ(UTF)
K / B(home)
RRZK(SAN)
1 2 3 4RRZK
(SAN)
LOLA-Format LOLA-Format
Speicherplatz:Monthly mean: 700 MB 1400 MB 180 MBDaily mean: 21 GB 42 GB 5,4 GB6 hourly: 84 GB 168 GB 21,6 GB
Aktueller Beispiel-Workflow (globale Daten als Ergebnis)1 Datentransfer per jblob von der CERA-Datenbank auf die UTF-Platte des DKRZ.2 Datentransfer per ftp vom DKRZ auf die SAN-Festplatte des RRZK.3 Datenkonvertierung mit PINGO / CDO: vom GRIB- zum LOLA-Format.4 Eady-Programm liest 8 Parameter ein und gibt den berechneten EADY-Parameter ins home-Verzeichnis des IGMK aus.
RRZK IGM K / FU B
GRIB-Format
Uwe Ulbrich, Freie Universität Berlin
CERA DKRZ(UTF)
K / B(home)
RRZK(SAN)
1 2 3 4
Diagnosecluster Datenfluss am Beispiel eines der Diagnose-Tools (Baroklinität)
WDC Climate / DKRZ
RRZK(SAN)
Bei Berechnung für eine Region (hier Atlantik-Europa 90W-50E, 80N-20N)deutlich reduzierte Datenmenge (57x25=1425 Gitterpunkte)
Speicherplatz: reduzierter SpeicherplatzMonthly mean: 700 MB 100 MB 13 MBDaily mean: 21 GB 3 GB 0,4 GB6 hourly: 84 GB 12 GB 1,6 GB
Speicherplatz:Monthly mean: 700 MB 1400 MB 180 MBDaily mean: 21 GB 42 GB 5,4 GB6 hourly: 84 GB 168 GB 21,6 GB
Uwe Ulbrich, Freie Universität Berlin
Diagnosecluster Datenfluss für weitere Diagnose-Tools
FeuchteflüsseDateninput: Wind (zonal, meridional), spezifische Feuchte (berechnet aus rel. Feuchte, daher auch Temperatur benötigt)Druckniveaus auswählen oder integriert (falls ab Boden: Bodendruck und bodennahe Wind- und Feuchtefelder benötigt)
CAPEDateninput: Temperatur, relative Feuchte, integriert über variable HöhenbereicheBodendruck, falls ab Boden(Evtl Flüssigwasser in einzelnen Niveaus)
Berechnungen der Stromfunktion, meridionale Ableitungen(Gradienten) besser aus KFFK statt aus Gitterpunktsdaten!
StormtracksDateninput: Geopotenzial in einem Niveau Zeitserien (tägliche oder noch höher aufgelöste Daten)
Uwe Ulbrich, Freie Universität Berlin
Workflow Diagnosetool -alt-
a) Extraktion der Daten aus Datenbank
b) Konvertierung der Daten in anderes Datenformat
c) Transfer der Daten ins IGMK
d) Berechnung der gewünschten Daten mit Hilfe des Diagnosetoolsd‘: ggf. Statistische Analyse der Ausgangsdaten
e) Grafische Aufbereitung der Ergebnisdaten
CERA
long termstorage
WORK-SHARE
scratchIGMK
scratchIGMK
scratchIGMK
(IGMK)
WORK-SHARE
b
a bc d
d‘ e
e
Uwe Ulbrich, Freie Universität Berlin
Workflow Diagnosetool -neu-
CERA
long termstorage
WORK-SHARE
scratchIGMK
scratchRRZK
scratchRRZK
(RRZK /IGMK)
scratchRRZK
b
a b
a) Extraktion der Daten aus Datenbank
b) Transfer der Daten ins IGMK
c) Konvertierung der Daten in anderes Datenformat
d) Berechnung der gewünschten Daten mit Hilfe des Diagnosetoolsd‘: ggf. Statistische Analyse der Ausgangsdaten
e) Grafische Aufbereitung der Ergebnisdaten
c d
d‘ e
e
Uwe Ulbrich, Freie Universität Berlin
Workflow - neu -
• Extraktion von Daten aus dem Datenarchiv / Datenpool in Hamburg
• Transfer der Daten nach Köln• Konvertierung / Aufbereitung der Daten für das
Diagnosetool am ZAIK• Berechnung der atmosphärischen Parameter
mit Hilfe des Diagnosetools• Ggf. weitere Datenverarbeitung / Statistische
Analysen• Visualisierung des Datensatzes
Uwe Ulbrich, Freie Universität Berlin
Workflow - aktuelle Arbeiten -
• Transfer des Konvertierungstools marion (Fortran-Program) von NEC SX-6 ► SUN-Opteron Cluster
• Transfer des Diagnosetools incl. Job-Umgebung von SUN-Workstation ► SUN-Opteron Cluster
• Später:Erweiterung des Diagnosetools für netCDF und Grib Daten, damit ggf. keine weitere Konvertierung mehr notwendig ist und weniger Plattenplatz benötigt wird ► weiterhin ein direkter, effektiver Nutzen der cdo‘s möglich
Uwe Ulbrich, Freie Universität Berlin
Workflow - alt -
• Extraktion von Daten aus dem Datenarchiv / Datenpool in Hamburg (long-term storage)
• Konvertierung und Aufbereitung der Daten für das Diagnosetool am DKRZ► Vergrößerung des Datenvolumens
• Transfer der Daten nach Köln• Berechnung der atmosphärischen Parameter
mit Hilfe des Diagnosetools• Ggf. weitere Datenverarbeitung / Statistische
Analysen• Visualisierung des Datensatzes