M&D Home » About Us » Leistungskatalog » 5. Datenimport

print version

5. Datenimport in das ICSU WDC Climate

5.1 Beschreibung

Der Datenimport unterscheidet zwei Datenströme, die lokal am DKRZ erzeugten Produktionsdaten aus z.B. den Konsortialrechnungen und die von extern angelieferten Daten im Rahmen des Projektdatenmanagements

Der lokal am DKRZ erzeugte Datenstrom teilt sich auf in Modelldaten aus Testrechnungen (nur für Modellentwickler und Programmierer interessant), Daten aus Sensitivitätsrechnungen (interessant für die Gruppe der Wissenschaftler, die sich mit den physikalischen Parametrisierungen beschäftigen) und Daten aus Produktionsrechnungen. Nur der Output der Produktions- bzw. Konsortialrechnungen wird im Zuge des automatisierten Füllens quasisynchron zum Modelllauf ins WDCC geschrieben. Für die anderen Datentypen im lokalen Strom steht der Datenkatalog mit Zeigern ins Massenspeicherarchiv zur Verfügung.

Den zweiten, deutlich kleineren Datenstrom für den Import ins WDCC bilden die von extern angelieferten Daten im Rahmen des angebotenen Projektdatenmanagements. Hier werden Daten aus wissenschaftlichen Projekten, die in den thematischen Rahmen des WDCC passen, mit Metadaten versehen und ins WDCC integriert. Genutzt wird hier die dokumentierte Langzeitarchivierung und die Möglichkeit des weltweiten Datenzugriffs über Standard- Internet-Browser. Der Arbeitsaufwand und verbrauchte Speichermedien werden den Projekten in Rechnung gestellt. Die Datenmenge liegt deutlich unter 5% der Archivrate aus dem lokalen Datenstrom.

Im November wurde von NEC, DKRZ und M&D eine Pressemitteilung zur Größe der WDCC Datenbank herausgegeben (Auszug):

 

"Weltgrößte Linux Datenbank speichert Klimadaten: Rekord Datenbank des World Data Center Climate am Deutschen Klimarechenzentrum

Hamburg, November 2005. Das World Data Center Climate (WDCC) und das Deutsche Klimarechenzentrum (DKRZ) in Hamburg betreiben die größte Datenbank weltweit unter dem freien Betriebssystem Linux. Das zeigt ein internationales Ranking der weltgrößten Datenbanken, das im September von der Winter Corporation veröffentlicht wurde. Die Datenbank des WDCC am DKRZ umfasst kaum vorstellbare 220 Terabyte und ist damit sogar doppelt so groß wie die Datenbank einer bekannten Internet Suchmaschine.

.......

Die vollständige Liste der weltweit größten Datenbanken finden Sie unter: www.wintercorp.com/VLDB/2005_TopTen_Survey/2005TopTenWinners.pdf ... "

 

Der vollständige Text findet sich auf dem M&D Webserver unter www.mad.zmaw.de/news/press-release/article/the-worlds-biggest-linux-database-stores-climate-data/

5.2 Nutzer

Wissenschaftler und Projekte am DKRZ und aus der internationalen Erdsystemforschung

5.3 Nutzung

Mit Implementierung des automatisierten Füllprozesses in der zweiten Hälfte 2004 beschleunigte sich das Wachstum des WDCC. Ein Datenimport von 1 TB / Tag kann auf der Infrastruktur des DKRZ realisiert werden.

Abbildung: Datenwachstum des WDCC in zur Verfügung gestellten Terabyte.
Abbildung: Wachstum der in den Datentabellen gespeicherten, unabhängig abrufbaren Datenentitäten (BLOBs). Klimamodelldaten werden typisch in Einheiten einzelner Globalfelder im Nutzerzugriff gehalten. Damit ergeben sich typische BLOB-Größen von ca. 100 kB.
Abbildung: Datenanteil der einzelnen Projekte an der Gesamtgröße der WDCC Datenbank.

 

Der Zuwachs ab Juli 2004 enthält wesentlich die Ergebnisse der Konsortialrechnungen, die zusammen mit dem MPI-M für den IPCC AR4 durchgeführt wurden. Die Ergebnisse dieser neuen Generation der Szenarienrechnungen stehen nun in feiner Zugriffsgranularität der internationalen Forschergemeinschaft zur Verfügung (vgl. www.mad.zmaw.de/wdc-for-climate/ und www.mad.zmaw.de/projects-at-md/ipcc-data/ ).

Im Rahmen des EU Projektes wird ENSEMBLES bei M&D für drei Jahre für Projektdatenmanagement finanziert. Weitere Mittel sind vorgesehen im Rahmen des DFG Antrags COPS über die Universität Hohenheim und vom EU Projekt EUROCEAN über das WDC MARE in Bremen.

5.4 Qualität

In der Beurteilung der Qualität kommen zwei Importaspekte zum Tragen, das automatisierte Füllen im Rahmen der DKRZ Infrastruktur und der Datenimport im Rahmen des Projektmanagements. Das automatisierte Füllen muss synchron zum Modelllauf durchgeführt werden. Ein Datenstau aufgrund von asynchronem Verlauf ist nur schwierig wieder aufzuarbeiten und beansprucht erhebliche Ressourcen.

5.5 Leistungen

5.5.1. Pflege und Anpassung der Importschnittstellen für Daten und Metadaten

5.5.2. Entwicklung Datenmodell, Datenbanktabellen und Architektur

5.5.3. Datenbankadministration inklusive WDCC Nutzer- und Rechteverwaltung

5.5.4. Administration von Daten und Metadaten im Füllstrom

5.5.5. Entwicklung der (automatisierten) Füllprozesse

5.5.6. Nutzerunterstützung bei Projektdatenmanagement und Datenbank Füllprozess,

5.5.7. Zuarbeiten für Projektdatenmanagement (ENSEMBLES)

5.6 Ressourcen

Infrastruktur des DKRZ

5.7 Kooperation mit anderen Organisationseinheiten

Deutsches Klimarechenzentrum

Wissenschaftsgemeinschaft

Nationale und internationale Projekte

 

latest update: 2008-02-19 13:40