
Der Fokus auf Big Data hat dazu geführt, dass Databricks das Delta-Lake-Projekt nun der Linux Foundation übergibt. Ziel des Projekts ist es die Verwaltung von Data Lakes zu erleichtern und die Verarbeitung von Streaming- & Batch-Daten zu unterstützen. Durch die Übertragung der Verantwortung möchte Databricks sicherstellen. Dass Delta Lake herstellerneutral weiterentwickelt wird und eine breitere Community erreicht.
Eine Schicht über dem See
Die erste Vorstellung von Delta Lake erfolgte im Rahmen des Spark+AI Summit im April. Databricks ist maßgeblich an der Entwicklung von Apache Spark beteiligt und zählt die ursprünglichen Spark-Entwickler zu seinen Gründern. Delta Lake ist ein quelloffener Storage-Layer über Data Lakes die in Hadoop, bei Amazon Web Services oder als Azure Data Lake Storage existieren.
Die Schicht ermöglicht ACID-Transaktionen für Apache Spark und bereitet Streaming- & Batch-Daten für die Weiterverarbeitung auf. Die Daten sind im Apache-Parquet-Format gespeichert. Entwickler können sie über DML-Befehle (Data Manipulation Language) wie UPDATE, DELETE und MERGE INTO bearbeiten.
Für eine saubere Struktur lässt sich ein Schema einsetzen und erzwingen um sicherzustellen, dass die Datentypen passen und alle benötigten Spalten vorhanden sind.
Sammelbecken für die Daten
Der Begriff Data Lake geht auf den Pentaho-Gründer James Dixon zurück. Das Konzept ist auf große Analysesysteme ausgelegt. Die Daten fließen zunächst unverarbeitet in den Lake und dürfen sich dort verändern. Der Name rührt daher – dass der See die Daten aus zahlreichen Zuflüssen aufnimmt und dabei strukturierte mit unstrukturierten & Rohdaten vereint. Mit dem Begriff ist keine spezifische Technik zum Speichern der Daten verbunden.
Ein Vorteil an der Arbeitsweise ist, dass Administratoren vorab keine Formate oder Strukturen definieren müssen. Allerdings müssen sie dabei darauf achten – dass sie die Daten weiterhin verwalten können und im Zugriff halten. Haben sie keine Kontrolle oder nur schlechten Zugriff auf den Data Lake, spricht man passenderweise von einem Data Swamp ? der See ist in dem Fall versumpft.
Tatsächlich stellt der geordnete Zugriff und ebenfalls die Optimierung der Daten eine große Herausforderung beim Anlegen und Verwalten von Data Lakes dar. Databricks möchte mit Delta Lake die Verwaltung vereinfachen. Die weitere Entwicklung bei der Linux Foundation unter einem Open-Governance-Modell ist der konsequente Schritt um eine breite Community zu erreichen.
Kommentare