Categories: Codierung

by Sally Bo Hatter

Share

by Sally Bo Hatter

Seien wir ehrlich – die meisten von uns haben das schon erlebt. Sie gehören zu einem Datenteam, das wochenlang darauf wartet, dass das zentrale Datenplattformteam Ihre Anfrage bearbeitet, oder Sie sind ein Fachexperte, der versucht, Ihre Geschäftsanforderungen jemandem zu erklären, der Ihr Fachgebiet nicht ganz „versteht“. Kommt Ihnen das bekannt vor?

Wenn Sie diese Frustrationen erlebt haben, sind Sie nicht allein. Viele Unternehmen stoßen mit zentralisierten Datenarchitekturen an dieselbe Wand, und genau deshalb gewinnt Data Mesh so sehr an Zugkraft.

Was ist Data Mesh?

Stellen Sie sich vor, dass Data Mesh die gleichen Prinzipien anwendet, die Microservices in der Softwareentwicklung erfolgreich gemacht haben, aber für die Datenarchitektur. Anstatt sich auf eine einzige, zentralisierte Datenplattform zu verlassen, von der alle abhängig sind, verteilen Sie das Eigentum an den Daten auf die Teams, die sich am besten damit auskennen – die Domain-Teams selbst.

Die Sache ist die: Ihr Vertriebsteam kennt seine Daten besser als jeder andere. Sie kennen die Feinheiten, die Grenzfälle und wissen, wie „gute“ Daten in ihrem Kontext aussehen. Warum sollten Sie es also nicht ihnen überlassen?

Data Mesh basiert auf vier Grundprinzipien, die zunächst ein wenig akademisch klingen mögen, aber sie sind ziemlich einfach:

Domäneneigentum: Lassen Sie die Leute, die die Daten erzeugen und verstehen, sich um sie kümmern. Keine Telefonspiele mehr zwischen Domänenexperten und Datenteams.

Daten als Produkt: Behandeln Sie Ihre Daten wie jedes andere Produkt, das Ihr Unternehmen liefert. Stellen Sie eine ordnungsgemäße Dokumentation bereit, setzen Sie klare Erwartungen und stellen Sie sicher, dass die Daten für die Benutzer funktionieren.

Self-Serve-Plattform: Bauen Sie eine Infrastruktur auf, die es den Teams ermöglicht, das zu bekommen, was sie brauchen, ohne Tickets einreichen und in Warteschlangen warten zu müssen. Betrachten Sie es als den Unterschied zwischen einem Anruf bei der IT-Abteilung, wenn Sie Software installieren müssen, und einem App-Store.

Föderierte Verwaltung: Dieser Punkt ist entscheidend – Sie wollen Autonomie, aber kein Chaos. Legen Sie Leitplanken und Standards fest, an die sich jeder hält, auch wenn er unabhängig arbeitet.

Machen Sie sich die Hände schmutzig: Implementierung mit Databricks

Lassen Sie uns einmal durchgehen, wie das in der Praxis funktioniert. Ich zeige Ihnen, wie wir mit Databricks Unity Catalog ein Data Mesh mit zwei Teams – Vertrieb und Marketing – eingerichtet haben, die zusammenarbeiten müssen, ohne sich gegenseitig auf die Füße zu treten.

Schritt 1: Domain-Linien zeichnen

Als erstes haben wir für jede Domäne in Unity Catalog separate Kataloge erstellt. Dabei geht es nicht nur um die Organisation, sondern auch darum, echte Eigentumsgrenzen festzulegen.

So haben wir es eingerichtet:

  • Sales Domain: Ihr Katalog mit Schemata für alle Ihre Datenprodukte
  • Marketing Domain: Völlig separater Arbeitsbereich mit eigener Katalogstruktur

Jedes Team erhält die vollständige Kontrolle über seine Domäne. Das Vertriebsteam kann seine Datenstrukturen weiterentwickeln, neue Datensätze hinzufügen und für seine Anwendungsfälle optimieren, ohne sich Sorgen machen zu müssen, dass etwas für ein anderes Team kaputt geht.

Schritt 2: Erstellung aktueller Datenprodukte

Jetzt kommt der interessante Teil. Das Vertriebsteam packt seine Daten nicht einfach in eine Tabelle und macht Feierabend. Sie behandeln sie wie ein Produkt, d.h. sie fügen den gesamten Kontext hinzu, der sie wertvoll macht:

  • Klare Beschreibungen, die erklären, was die Daten darstellen
  • Kontaktinformationen (weil jemand Fragen haben wird)
  • Aktualisieren Sie Zeitpläne und Zuverlässigkeitszusagen
  • Zugangsrichtlinien und Nutzungsrichtlinien

Diese Metadaten verwandeln eine Datenbanktabelle in etwas, das das Marketingteam tatsächlich entdecken und effektiv nutzen kann. Sie müssen nicht mehr raten, was order_status_code = 3 bedeutet, oder sich fragen, ob die Daten frisch genug für ihre Analyse sind.

Schritt 3: Funktionierende Governance

Hier glänzt Unity Catalog. Anstatt die Governance als nachträglichen Gedanken zu haben, ist sie direkt in die Plattform integriert. Das Marketingteam kann auf die Vertriebsdaten zugreifen (da es diese für seine Kampagnen benötigt), aber es kann sie nicht versehentlich ändern und die Prozesse des Vertriebsteams stören.

Und das Beste daran? Das Marketing muss nicht erst einen Antrag stellen, auf die Genehmigung warten und dann einen CSV-Export per E-Mail erhalten. Sie stellen über Unity Catalog eine Verbindung zu dem Datenprodukt her und beginnen mit der Arbeit.

Erweiterte Funktionen, die einen Unterschied machen

Wenn Sie die Grundlagen erst einmal im Griff haben, bringen einige Funktionen die Implementierung zum Strahlen:

Mit Delta Sharing können Sie Daten auf sichere Weise gemeinsam nutzen, ohne Zugriff auf den Arbeitsbereich zu gewähren. Dies ist besonders wichtig, wenn Sie mit externen Partnern arbeiten oder Daten über verschiedene Sicherheitsgrenzen hinweg gemeinsam nutzen.

Data Lineage bietet einen durchgängigen Überblick darüber, woher Ihre Daten stammen und wo sie letztendlich verwendet werden. Wenn etwas kaputt geht (und das wird es), können Sie das Problem zurückverfolgen, anstatt Detektiv zu spielen.

Was wir gelernt haben

Nachdem wir diesen Ansatz umgesetzt haben, sehen wir, dass alle vier Data Mesh-Prinzipien in der Praxis funktionieren:

  • Teams sind Eigentümer ihrer Daten und können Änderungen vornehmen, ohne sich mit einem zentralen Team abzustimmen
  • Die Daten sind ordnungsgemäß dokumentiert und es bestehen Service Level Verpflichtungen
  • Unity Catalog bietet konsistente Verwaltung, ohne restriktiv zu sein
  • Teams können Daten selbständig finden und nutzen

Der größte Gewinn? Wir haben die meisten dieser frustrierenden Wartezeiten eliminiert und gleichzeitig die Datenqualität und -verwaltung verbessert.

Die Quintessenz

Data Mesh ist nicht nur ein weiteres Schlagwort – es ist ein praktischer Ansatz, der sich mit den realen Problemen der meisten Datenteams befasst. Databricks Unity Catalog bietet eine solide Grundlage für die Implementierung dieser Prinzipien, ohne dass Sie alles von Grund auf neu aufbauen müssen.

Die wichtigste Erkenntnis ist folgende: Anstatt zu versuchen, alles zu zentralisieren, zentralisieren Sie die Governance-Ebene, während Sie das eigentliche Dateneigentum verteilen. Die Teams erhalten die Autonomie, die sie brauchen, ohne die Kontrolle zu verlieren oder ein Datenchaos zu erleben.

Wenn Sie in Ihrem Unternehmen mit Datenengpässen zu kämpfen haben, sollten Sie überlegen, ob ein verteilter Ansatz nicht effektiver ist als ein zentraler Ansatz. Fangen Sie klein an, indem Sie ein paar Domänen auswählen, die gut zusammenarbeiten, und sehen Sie, wie es läuft.

Die Zukunft der Datenarchitektur ist dezentral, und die Werkzeuge dafür sind bereits heute verfügbar.

Share