Insights vom Databricks Data + AI Summit 2024: Data Engineering, Architectures, und Real-World Anwendungen
on 18.11.2024 by Kirsten Hipolito, Valerii Haidar, Matthias Böck
Intro
Unser Team nahm kürzlich an der Databricks Data + AI World Tour Munich in München teil, wo mehrere Unternehmen ihre Erfahrungen mit Databricks teilten und die neuesten Entwicklungen der Plattform vorgestellt wurden. Wir haben sowohl bei der Hauptveranstaltung als auch bei einer speziellen Schulung zum Thema Data Engineering mit Databricks, an der eines unserer Teammitglieder teilnahm, Einblicke gewonnen. Im Folgenden teilen wir unsere wichtigsten Erkenntnisse, die für andere Data Engineers, Architects und Unternehmen, die datengetriebene Infrastrukturen aufbauen, interessant sein könnten.
Training Session Highlights: Data Engineering mit Databricks
Einer unserer Kollegen nahm an einer praktischen Schulung zum Thema Data Engineering mit Databricks teil. Diese Sitzung bot einen detaillierten Einblick in die Strukturierung und Verwaltung von Daten auf der Plattform sowie in die Kernkomponenten für Datenverarbeitung, -transformation und Governance. Databricks bietet auch eine spezielle Lernseite mit verschiedenen kostenlosen Kursen und Lernpfaden an.
Zu den wichtigsten Highlights gehören:
- Control and Data Plane Architecture
In der Session wurde die Trennung von Kontroll- und Datenebene bei Databricks hervorgehoben. Die Steuerungsebene, die von Databricks gehostet wird, interagiert mit Benutzern und APIs, während die Datenebene unabhängig verwaltet werden kann, was Flexibilität bei der Zuweisung und Skalierung von Ressourcen ermöglicht.
- Delta Lake und Unity Catalog
Delta Lake als ein Open-Source-Storage Framework, das ACID-Transaktionen und Schema-Evolution unterstützt, wurde besonders hervorgehoben. Unity Catalog bietet eine zentralisierte Governance über Arbeitsbereiche hinweg, vereinfacht die Zugriffskontrolle für Benutzer und Gruppen und vereinheitlicht die Verwaltung von Metadaten.
- Medallion-Architektur für die Datenumwandlung
Die Medallion-Architektur, mit der die Datenqualität schrittweise über Bronze-, Silber- und Gold-Ebenen verbessert werden kann, war ein zentraler Bestandteil der Schulung. Dieser stufenweise Ansatz soll Data Engineers dabei helfen, Daten-Workflows zu organisieren und sie an analysereifen Qualitätsstandards auszurichten. Die Ähnlichkeit der Architektur mit dem schichtweisen Ansatz von dbt macht sie zu einer vertrauten und dennoch flexiblen Methode für diejenigen, die bereits mit den Praktiken von dbt vertraut sind.
- Orchestrierung mit Delta Live Tables und Workflow-Jobs
In der Schulung wurden auch Delta Live Tables (DLT) und Workflow Jobs vorgestellt, Werkzeuge zur Organisation von ETL-Prozessen. DLT, das für das Verschieben von Daten durch die Medallion-Ebenen nützlich ist, und Workflow Jobs, für umfassendere Orchestrierungsaufgaben, ermöglichen es Teams, Datenpipelines effizient und mit einem hohen Automatisierungsgrad zu strukturieren.
Summit Insights: Trends in Databricks
Databricks Fokus auf serverlose Architektur
Auf der Hauptveranstaltung stellte Databricks Aktualisierungen seiner Infrastruktur vor, darunter eine Umstellung auf eine serverlose, serviceorientierte Architektur. Dieses Design, das sich an branchenweiten Trends orientiert, unterstützt eine flexible Skalierung und bietet Data-Engineering-Teams eine bessere Kontrolle über ihre Datenumgebung.
Delta Lake und Unity Catalog zur Governance
Sowohl in der Schulung als auch der Hauptveranstaltung wurde hervorgehoben, dass Delta Lake und Unity Catalog strukturierte Data Governance unterstützen. Delta Lake bietet eine Datenspeicherung mit Transaktionskonsistenz, historischer Nachverfolgung und Schemaflexibilität, während Unity Catalog die Zugriffskontrolle über Arbeitsbereiche hinweg zentralisiert.
AI/BI Genie powered by generative AI
Natürlich war auch das Thema AI auf der Bühne vertreten, und eines der neueren Releases ist AI/BI Genie. Es ermöglicht seinen Benutzern durch natürliche Sprache mit den eigenen Daten zu interagieren. Es nutzt den Unity-Katalog, um Business-Fragen in einer ChatGPT-ähnlichen Konversation zu beantworten. Das bedeutet natürlich, dass die Qualität der Konversation von der Qualität des Katalogs abhängt. Das Tool lernt zusätzlich aus dem Feedback der Benutzer, um die Konversationen zu verbessern.
Industry Applications von AI und Data Engineering
Fahrzeugdaten mit CARIAD
CARIAD demonstrierte die Anwendung von Databricks bei der Verwaltung von IoT-Daten für vernetzte Fahrzeuge. Durch die Überwachung von Sensordaten in Echtzeit erhöhen sie die Sicherheit und möchten die Produktionskosten von Fahrzeugen durch fortschrittliche Datentechniken senken. Die Präsentation von CARIAD unterstrich die Fähigkeit von Databricks, IoT-Anwendungen zu unterstützen, bei denen die Skalierbarkeit der Daten entscheidend ist.
KI-gesteuerter Betrieb am Frankfurter Flughafen
Der Frankfurter Flughafen berichtete über seine Erfahrungen mit KI-gesteuerter Prozessautomatisierung für den Flughafenbetrieb. Durch den Einsatz von Bilderkennung und Automatisierung konnten arbeitsintensive Aufgaben wie die Gepäckabfertigung optimiert und der Bedarf an manueller Überwachung reduziert werden. Dies ist ein Beispiel dafür, wie KI auf betriebliche Aufgaben angewendet werden kann, die traditionell von Menschen erledigt werden.
Finanz-KI bei BASF
BASF hob den Einsatz von Databricks zur Unterstützung von Finanz- und Controlling-Aufgaben hervor. Der KI-Assistent wurde entwickelt, um häufige Anfragen im Finanzbereich, wie z. B. Buchungscodes und Finanzanalysen zu beantworten. Der Vortrag gab einen Einblick, wie KI-Tools in Finanzabteilungen integriert werden, um Data Engineers und Finanzteams gleichermaßen zu unterstützen.
Fazit:
Von den praktischen Schulungen bis hin zu den Hauptvorträgen wurden auf der Veranstaltung die Entwicklungen von Databricks sowie die allgemeinen Trends im Bereich Datenmanagement und KI-Anwendungen vorgestellt. Die Veranstaltung zog viele Besucher an, und man musste bei einigen Sessions schnell sein, um noch einen guten Platz zu bekommen. Dennoch hatten wir eine gute Zeit auf der Veranstaltung und konnten einige neue Einblicke in den Databricks-Kosmos gewinnen. Falls auch Sie Hilfe beim Sortieren Ihrer Daten und Ihrer Datenarchitektur benötigen, unterstützen wir Sie gerne mit unseren Serviceteams von Data Engineering bis Data Science.