1. Ignite

12 Wochen Bis zu 62h

Ausgangspunkt

Anwender aus dem Business mit wenig oder keinen Vorkenntnissen in Datenbanken, SQL, Python und ETL. Arbeitet hauptsächlich mit Excel/CSV.

Stundenübersicht

Selbststudium: bis zu 48h
Instruktorgeführt: bis zu 8h
Community: bis zu 6 Mal

Erworbene Fähigkeiten

  • Von Excel/CSV-Workflows zu Databricks wechseln.
  • Daten importieren, bereinigen, transformieren und visualisieren.
  • Einfache Tabellen und Dashboards aufbauen.
  • SQL und Python für Analysen einsetzen.
  • Lakehouse-Architektur und Delta Lake verstehen.
  • Grundlagen von Datenpipelines und KI-gestützter Analyse erlernen.

Kursstruktur

Block 1: Grundlagen & Schnelleinstieg

  • Daten-Grundlagen: Tabellen, Spalten, Schlüssel, typische Excel-Fallstricke.
  • Von Excel/CSV zu Databricks: Dateien importieren und Überblick über das Lakehouse.
  • Architektur & Governance: Datenorganisation, Zugriffskontrollen und Compliance.
  • Visualisierung: Erste Analysen und Visualisierungen erstellen.
Instruktorgeführtes Training (B2B) • 2 Quizzes • Community Session • 1 Skill Lab

Block 2: Mit Daten & KI im Lakehouse arbeiten

  • Unity Catalog: Berechtigungen, Lineage, Auffindbarkeit und Eigentümerschaft.
  • Genie für Analytics: Fragen, Verfeinern, Validieren und Teilen.
  • Power BI: Databricks verbinden und Dashboards aufbauen.
  • Agentische Workflows: Kasal Low-Code-UI, mehrstufige Workflows.
Instruktorgeführtes Training (B2B) • 2 Quizzes • 1 Community Session • 1 Skill Lab

Block 3: SQL Analytics im Lakehouse (Analyst Track)

  • Databricks SQL Essentials: Warehouses vs. Cluster, SQL-Editor.
  • SQL Analytics: SELECT, Joins, Aggregationen, CTEs.
  • Erweitertes SQL: Window-Funktionen, Ranking, Zeitreihen, Grouping Sets.
  • Delta Lake-Konzepte: ACID, Time Travel, Tabelle vs. View.
2 Quizzes • 1 Community Session • 1 Skill Lab

Block 4: Python für Analytics auf Databricks (Builder Track)

  • Notebook-Produktivität: Variablen, Parameter, modulare Notebooks.
  • Python-Crashkurs: Variablen, Listen/Dicts, Funktionen.
  • Pandas & Spark-Grundlagen: Laden, bereinigen, transformieren; Umstieg auf Spark.
  • Operationalisierungs-Grundlagen: In Unity Catalog schreiben, Datenqualitätswarnungen, Scheduling.
2 Quizzes • 1 Community Session • 1 Skill Lab

2. Learn

12 Wochen Bis zu 84h

Ausgangspunkt

Neu in Databricks/Cloud-nativen Plattformen, aber erfahren in Excel/CSV-Transformationen, einfachem SQL/Python und Lakehouse-Grundlagen. Neugierig auf praxisnahe Szenarien.

Stundenübersicht

Selbststudium: bis zu 60h
Instruktorgeführt: bis zu 16h
Community: bis zu 8

Erworbene Fähigkeiten

  • Den Workspace navigieren und Notebooks effizient nutzen.
  • Wiederholbare Datenaufnahme und -transformation durchführen.
  • Optimierte, testbare ETL-Pipelines aufbauen (Lakeflow Pipelines).
  • Die richtigen Compute/Runtime-Einstellungen wählen.
  • Unity Catalog und MLflow auf hohem Niveau verstehen.
  • Sich auf die Databricks Associate-Zertifizierung vorbereiten.

Kursstruktur

Block 1: Databricks Intelligence Platform

  • Plattform-Grundlagen: Lakehouse vs. Data Warehouse, Medallion Architecture.
  • Workspace & Compute: Workspace navigieren, Cluster-Lebenszyklus, Liquid Clustering.
Instruktorgeführtes Training • 1 Quiz • 1 Community Session

Block 2: Entwicklung & Datenaufnahme

  • Databricks Connect: Lokale/remote Entwicklungsworkflows.
  • Notebooks & Debugging: Rapid Prototyping, Spark UI und Logs.
  • Auto Loader: Quellen, Syntax und Best Practices für die Datenaufnahme.
2 Quizzes • 1 Community Session • 1 Skill Lab

Block 3: Datenverarbeitung & Transformationen

  • Medallion Architecture: Schicht-Anwendung und Cluster-Dimensionierung.
  • Lakeflow Pipelines: Deklarative Pipelines, Expectations.
  • Transformationen: DDL/DML und PySpark DataFrame-Aggregationen/UDFs.
3 Quizzes • 1 Skill Lab • 1 Community Session

Block 4: Produktionsbetrieb, Governance & Qualität

  • Produktionsbetrieb: Databricks Asset Bundles (DAB), Workflow-Wiederherstellung, Serverless-Compute-Tuning.
  • Governance: Unity Catalog-Rollen, Berechtigungen, Lineage und Audit-Logs.
  • Sharing: Delta Sharing und Lakehouse Federation-Anwendungsfälle.
2 Quizzes • 1 Community Session • 1 Meilenstein-Recap • Optionale Prüfungsvorbereitung

3. Apply

12 Wochen Bis zu 82h

Ausgangspunkt

Grundlegende Databricks-Kenntnisse vorhanden. Bereit, von Sandbox-Lernen zu echten Anwendungsfällen, kollaborativen Projekten und CI/CD-Grundlagen überzugehen.

Stundenübersicht

Selbststudium: bis zu 50h
Instruktorgeführt: bis zu 8h
Community: bis zu 8
Coaching: bis zu 8h

Erworbene Fähigkeiten

  • Zuverlässige, wartbare ETL-Pipelines mit Lakeflow aufbauen.
  • Performance-Tuning und Datenmodellierungs-Best Practices anwenden.
  • Workflows mit Databricks Workflows orchestrieren.
  • ML-Workflows mit MLflow in Produktion operationalisieren.
  • Effektiv mit Notebooks und Unity Catalog zusammenarbeiten.

Kursstruktur

Block 1: Datenverarbeitung & Automatisierung

  • ETL-Pipelines: Deklarative Pipelines mit Lakeflow Jobs entwickeln.
  • Inkrementelle Datenaufnahme: Auto Loader für Cloud-Speicher.
  • Optimierung: Liquid Clustering, Caching, Partitionierung, Autoscaling.
  • Transformationen: Spark SQL & PySpark.
Quiz • Instruktorgeführtes Training • 1 Community Session

Block 2: Machine Learning & Operationalisierung

  • MLflow: Experimente verfolgen und Modelle deployen.
  • Feature Engineering: PySpark und Delta Lake.
  • Training: Spark MLlib, scikit-learn, XGBoost.
  • Modell-Lebenszyklus: Databricks Model Registry und Unity Catalog-Zugriff.
2 Quizzes • 1 Skill Lab • 1 Community Session

Block 3: Data Governance & Sicherheit

  • Unity Catalog: Zugriff, Lineage und Governance verwalten.
  • Sicherheit: RBAC und Sicherheitsrichtlinien implementieren.
  • Zusammenarbeit: Databricks Repos für Git-basierte Entwicklung.
  • Automatisierung: CI/CD-Pipelines entwerfen und automatisieren.
2 Quizzes • 1 Skill Lab • 1 Community Session

Block 4: Capstone-Projekt & Zertifizierungsvorbereitung

  • End-to-End-Aufbau: Produktionsreife ETL- und ML-Pipelines.
  • Betrieb: Jobs, Tasks und Kosten orchestrieren und überwachen.
  • Best Practices: Reproduzierbarkeit, Skalierbarkeit, Wartbarkeit.
  • Vorbereitung: Databricks Professional-Zertifizierungsvorbereitung.
1 Quiz • 1 Meilenstein-Recap • 1 Community Session • Optionale Prüfungsvorbereitung

4. Grow

12 Wochen Bis zu 80h

Ausgangspunkt

Aktiv in Databricks-Projekten tätig. Möchte Wirkung skalieren, andere mentoren, Liefermuster reflektieren und Architekturwissen vertiefen.

Stundenübersicht

Selbststudium: bis zu 40h
Instruktorgeführt: bis zu 8h
Community: bis zu 8
Coaching: bis zu 16h

Erworbene Fähigkeiten

  • Skalierbare, sichere Daten- und ML-Pipelines entwerfen.
  • Produktionsreife Lakeflow Pipelines und Structured Streaming aufbauen.
  • Workflows mit MLflow und Feature Store deployen.
  • Fortgeschrittene Governance, Lineage und FinOps anwenden.
  • Wiederverwendbare Frameworks für teamübergreifende Nutzung entwickeln.
  • Kolleginnen und Kollegen mentoren und Lieferstandards prägen.

Kursstruktur

Block 1: Plattform-Architektur & Skalierung

  • Architektonische Skalierung: Medallion Architecture im großen Maßstab anwenden.
  • Performance-Optimierung: Cluster, Autoscaling, Z-Ordering, Caching.
  • FinOps: Plattform-Governance und Best Practices zur Kostenkontrolle.
Quiz • Instruktorgeführtes Training • 1 Community Session

Block 2: Fortgeschrittene Datenverarbeitung & Automatisierung

  • Erweitertes ETL: Lakeflow Pipelines mit CDC und Schema-Evolution.
  • Streaming: Structured Streaming mit Checkpointing für Echtzeit-Daten.
  • Wiederverwendbarkeit: Parametrisierte Notebooks und gemeinsame Bibliotheken.
2 Quizzes • 1 Skill Lab • 1 Community Session

Block 3: Machine Learning & Operationalisierung

  • Erweitertes MLflow: Model Registry, Feature Engineering mit Delta Lake.
  • Deployment: Modelle für Batch- oder Echtzeit-Endpunkte deployen.
  • Zusammenarbeit: Sicheren Datenzugriff über Unity Catalog gewährleisten.
2 Quizzes • 1 Skill Lab • 1 Community Session

Block 4: Governance, Mentoring & Capstone

  • Governance: Unity Catalog Audit-APIs und sicheres Delta Sharing.
  • Leadership: Juniorkolleginnen und -kollegen mentoren und Retrospektiven leiten.
  • Capstone: E2E ETL- und ML-Pipelines für teamübergreifende Projekte aufbauen.
1 Quiz • 1 Meilenstein-Recap • 1 Community Session • Rollenentwicklung & Mentoring

5. Lead

12 Wochen Bis zu 78h

Ausgangspunkt

Anerkannte Expertinnen und Experten mit nachgewiesener Erfolgsbilanz in der Databricks-Umsetzung. Bereit, internes Coaching zu formalisieren und Enablement organisationsweit zu skalieren.

Stundenübersicht

Selbststudium: bis zu 30h
Instruktorgeführt: bis zu 16h
Community: bis zu 8
Coaching: bis zu 24h

Erworbene Fähigkeiten

  • Internes Enablement als Trainer/Coach leiten.
  • Großskalige Lösungen entwerfen, reviewen und optimieren.
  • Governance, CI/CD und Observability implementieren.
  • Wiederverwendbare Komponenten und Frameworks aufbauen.
  • Standards in komplexen, multiprojektübergreifenden Umgebungen vorantreiben.

Kursstruktur

Block 1: Architektonische Exzellenz

  • Referenzarchitekturen: Skalierbare Lösungen definieren und pflegen.
  • Review & Optimierung: Medallion Architecture, Lakeflow und ML-Workflows auditieren.
  • Best Practices: Sicherheit und Kosteneffizienz in Pipelines sicherstellen.
Quiz • Instruktorgeführtes Training • 1 Community Session

Block 2: Governance, Observability & Technische Schulden

  • Observability: Audit-Logs, Lineage und Kosten-Dashboards verwalten.
  • Compliance: CI/CD- und Unity Catalog-Standards durchsetzen.
  • Technische Schulden: Projektübergreifend identifizieren, priorisieren und beheben.
2 Quizzes • 1 Skill Lab • 1 Community Session

Block 3: Wiederverwendbare Komponenten & Frameworks

  • Standardisierung: Modulare Notebooks und Orchestrierungsvorlagen.
  • Gemeinsame Bibliotheken: Wiederverwendbare Muster für ETL, ML und Analytics etablieren.
  • Konsistenz: Wartbarkeit in organisationsweiten Projekten fördern.
2 Quizzes • 1 Skill Lab • 1 Community Session

Block 4: Leadership, Coaching & Multiplikation

  • Architektur-Reviews: Reviews und Design-Validierungen leiten.
  • Mentoring: Teams mentoren und trainieren, um interne Fähigkeiten aufzubauen.
  • Multiplikation: Trainingsstrukturen und Wissensteilungspraktiken etablieren.
1 Quiz • 1 Meilenstein-Recap • 1 Community Session • Umsetzungs-Mentoring