qualitätskontrolle der ipcc-ar5 daten
DESCRIPTION
Qualitätskontrolle der IPCC-AR5 Daten. Martina Stockhause , Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg. DACH2010, 24.09.2010. Überblick. CMIP5 / IPCC-AR5 CMIP5 Infrastruktur IPCC-AR5 Qualitätskontrollen. Martina Stockhause et al. DACH2010. 24.09.2010. 2 / 20. - PowerPoint PPT PresentationTRANSCRIPT
Qualitätskontrolleder IPCC-AR5 Daten
Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg
DACH2010, 24.09.2010
24.09.2010
Martina Stockhause et al.DACH2010
Überblick
• CMIP5 / IPCC-AR5
• CMIP5 Infrastruktur
• IPCC-AR5 Qualitätskontrollen
2 / 20
24.09.2010
Martina Stockhause et al.DACH2010
CMIP5 / IPCC-AR5
3 / 20
24.09.2010
Martina Stockhause et al.DACH2010
CMIP5 / IPCC-AR5 in Zahlen
• Teilnehmer: ca. 20 teilnehmende Modellierungszentren
mit ca. 40 Modellkonfigurationen (i.W. versch. Auflösungen)
• Experimente: 60 Experimente mit t.w. mehreren Realisationen (Ensemble) über ca. 90 000 Modelljahre
• ca. 2 Mio. Datensätze von ca. 400 Experimenten
• Datenumfang:• ca. 10 PByte output,
• davon ca. 2 PByte requested und
• ca. 1 PByte replicated : IPCC-AR5
Coupled Model Intercomparison Project (CMIP5)
4 / 20
24.09.2010
Martina Stockhause et al.DACH2010
Datenstruktur: Datenformat
Verwendete Standards:
• Format: netcdf3 (selbst-beschreibend)
• Climate and Forecast (CF): Konvention zur Beschreibung von wiss. Parametern
• gridspec: Konvention zu Gitterdefinitionen
• Controlled Vocabulary (CMIP5):
• DRS (Data Reference Syntax) + digital Identifierfür die File-Identifizierung
• CMOR2: Tool zum Eintrag/Kontrolle in Datenheadern
5 / 20
24.09.2010
Martina Stockhause et al.DACH2010
Datenstruktur: DRS
Data Reference Syntax (DRS):
CMIP5.output.MPI-M.ECHAM6-MPIOM-LR.rcp45.mon.atmos.v1.tas.r1i1p1.tas_Amon_ECHAM6-MPIOM-LR_rcp45_r1i1p1.nc
Bsp.:
6 / 20
24.09.2010
Martina Stockhause et al.DACH2010
CMIP5 Infrastruktur
7 / 20
24.09.2010
Martina Stockhause et al.DACH2010
CMIP5 Infrastruktur:Earth System Grid Federation
(ESGF)
ESGF Partner -
PCMDI, BADC, DKRZ :
• ESG Gateway
• Daten-Replikation des IPCC-AR5-Subsets der CMIP5-Daten
• Verteilte Qualitätskontrollen der Daten für Level 2
ESGF
8 / 20
24.09.2010
Martina Stockhause et al.DACH2010
CMIP5 Infrastruktur:Earth System Grid Federation
(ESGF)
Aufgaben der ESGF-Partner:
• PCMDI:
• BADC:
• WDCC / DKRZ:
Daten- und Sicherheits-Infrastruktur ESG
Metadaten-InfrastrukturMETAFOR / CIM
Qualitätskontrollen undDatenpublikation (STD-DOI)
9 / 20
24.09.2010
Martina Stockhause et al.DACH2010
CMIP5 Qualitätskontrollen
10 / 20
24.09.2010
Martina Stockhause et al.DACH2010
Qualitätskontrollen: Überblick
Scientific Control ofQuestionnaire Input
Statistical or RecordChecks of Data
STD-DOI:Double Check of Dataand Metadata /Author Approval
11 / 20
12 / 20
24.09.2010
Martina Stockhause et al.DACH2010
Qualitätskontrolle: QC Level 1
QC Level 1 (automated conformance checks passed):
• CMOR2 checks:
• ESG Publisher checks:
• Metadata checks:
DRS syntax checkAxis checks Variable checks (CF standard name, unit)cross-check of file name vs. netcdf header
File readable and of size>0 bytesaxis and variables recognizabletime is monotonic, calendar recognizable
METAFOR / CIM conformance (technical validity of questionnaire entries)
Qualitätskontrolle: Level 2
24.09.2010
Martina Stockhause et al.DACH2010
File System Data Node Metadata
Datain prescribedDRS Syntax
Data QualityChecks L2
MD QualityChecks L2
THREDDSData Server
MD on data
Metafor / CIMQuestionnaire
MD onmodel+simulation
QC DB
Quality MD
MetadataRepository
Data MD Information MD
13 / 20
24.09.2010
Martina Stockhause et al.DACH2010
Qualitätskontrolle: QC Level 2
QC Level 2 (subjective quality control passed):Performed on IPCC-AR5 subset of CMIP5 data at all ESGF
partners
• Data checks: 1. Check of statistical global values and additional DRS checks
2. Record checks against predefined thresholds for data unchecked by 1.
Subjective metadata control by scientist• Metadata checks:
14 / 20
24.09.2010
Martina Stockhause et al.DACH2010
Qualitätskontrolle: QC Level 2 Daten
QC level 2 checks on data (statistical checks):
• Files Check against table with CMIP5 requirements:- name- unit- cf standard name- field dimensions
• Time Values Check:- time step ≥ 0- no identical time points
• Variables Checks on global time series:statistical values: average, standard deviation, minimum, maximum- check for constant fields and filling value fields- check for runaway points
15 / 20
DOI Target Page
access todata andmetadata
TIB:DOIRegistrationAgency
STD-DOI MD Information MD
STD-DOICatalogue
Qualitätskontrolle: L3/STD-DOI Publication
Data Node Metadata
THREDDSData Server
MD on data
QC DB
QualityMD
Data MD InformationMD
Filesystem
Data
LongtermArchive
Data QualityChecks L3double checks,cross checks,author approval
WDCC:DOI Publication Agency
Metafor / CIMMD on
model+simulation+data+quality
24.09.2010
Martina Stockhause et al.DACH2010
16 / 20
17 / 20
E.g. doi:10.1594/WDCC/CMIP5_MXELr4
24.09.2010
Martina Stockhause et al.DACH2010
Qualitätskontrolle: QC Level 3 / STD-DOI
QC Level 3 (approved by author):
• Subjective controls (double checks) of data and metadata
• Author check and approval of data and metadata
• STD-DOI publication of data:persistent identifiers DOI/URN assigned to persistent dataas citation direction
24.09.2010
Martina Stockhause et al.DACH2010
Zusammenfassung
18 / 20
CMIP5 Infrastruktur:• Verteilte Datenhaltung in Grid Infrastruktur (ESG)
• Detaillierte Metadaten (Metafor – CIM) über Modelle, Simulationen und Qualität.
• Qualitätschecks (Level 1 bis 3) mit Einfluss auf die Zugriffsrechte
• Durchführung durch die drei ESGF-Partner: PCMDI, BADC, WDCC/DKRZ; Level 3 nur am WDCC
• Am Ende der Qualitätschecks steht die Datenpublikation nach STD-DOI (dataCite), die eine Zitiervorschrift für die Daten liefert.
• Metadaten des Questionnaires, aus den Datenheadern und aus den Qualitätskontrollen werden bei der STD-DOI Publikation zusammengeführt.
CMIP5 Qualitätskontrollen:
WDCC Metadata Concept
Relational DB
TOPICENTRY
CERA2 Data Model
RDF XML
Information Model
ACCESS
MODELPLAT-FORM
SIMULA-TION
WD
CC
GU
I
Sci
enti
fic
Po
rtal
(e.
g.
IS-E
NE
S)
• performant• easy-to-use
• complete• flexible
19 / 20
http://www.wdc-climate.de
http://cmip-pcmdi.llnl.gov/cmip5/
24.09.2010
Martina Stockhause et al.DACH2010
20 / 20