STACKIT Workflows

STACKIT Workflows ist ein Managed-Service, mit dem Sie komplexe Daten-Workflows erstellen, planen und überwachen können. Basierend auf Apache Airflow bietet Workflows eine produktionsbereite Plattform für die Orchestrierung von Daten-Pipelines, ETL-Prozessen und Automatisierungsaufgaben ohne den Aufwand für die Verwaltung der Infrastruktur. Workflows werden als Directed Acyclic Graphs (DAGs) unter Verwendung von Python erstellt.

Erste Schritte

Übersicht

Grundlagen

Verstehen Sie die grundlegende Architektur von STACKIT Workflows, lernen Sie die wichtigsten Funktionen kennen und erfahren Sie, wie Sie Ihre erste Umgebung einrichten.

Erste Schritte

Erstellen Sie Ihre erste STACKIT Workflows-Instanz und schreiben Sie Ihren ersten DAG.

How-Tos

Machen Sie sich mit STACKIT Workflows vertraut.

Tutorials

Diese Tutorial-Sammlung führt in Kernkonzepte und praktische Workflows für die Arbeit mit STACKIT Spark, Notebooks und Airflow Best Practices ein.

FAQ

Finden Sie schnell Antworten auf häufig gestellte Fragen zu STACKIT Workflows.

Funktionen

STACKIT Workflows bietet die gesamte Leistung von Apache Airflow mit Erweiterungen auf Enterprise-Niveau. Der Service bietet eine vollständig verwaltete Infrastruktur, sodass die Bereitstellung, Konfiguration oder Wartung von Airflow-Komponenten entfällt. Die dynamische Ressourcenzuweisung skaliert die Infrastruktur automatisch basierend auf den Workload-Anforderungen, während die flexiblen Retry-Mechanismen von Airflow eine robuste Workflow-Ausführung gewährleisten.

Zu den wichtigsten Funktionen gehören:

Intuitive Airflow-Web-UI zur Überwachung und Verwaltung von Workflows
Große Auswahl an vorinstallierten Operatoren für gängige Aufgaben
Secure by Design: Verbinden Sie Ihren Identitätsanbieter (IdP) via OIDC mit rollenbasierter Zugriffsteuerung (RBAC). Vorlagen für Keycloak, Entra ID, Okta, Google und AWS Cognito sind verfügbar.
Verbinden Sie Ihr eigenes Git-Repository für die DAG-Speicherung mit kontinuierlicher Abfrage auf Änderungen
Webbasierte DAG-Entwicklungsumgebung (DDE) zum Entwickeln und Testen von DAGs in der tatsächlichen Laufzeitumgebung (demnächst verfügbar)
Einfach zu bedienende Operatoren und Dekoratoren für Spark-Jobs und benutzerdefinierten Python-Code
Isolierte Aufgabenausführung in dedizierten Kubernetes-Pods (keine Beeinflussung durch andere Nutzer)
Nahtlose Integration von STACKIT Observability mit vordefinierten Dashboards
Unterstützung für den KubernetesPodOperator mit benutzerdefinierten Docker-Images
Dynamisch skalierte Kubernetes-Infrastruktur für Hochverfügbarkeit und Performance

Anwendungsfälle

Orchestrierung von Daten-Pipelines

Workflows eignet sich hervorragend für die Koordinierung komplexer Daten-Pipelines, die sich über mehrere Systeme erstrecken und ein präzises Timing sowie Abhängigkeitsmanagement erfordern. Ob bei der Verarbeitung von Batch-Daten, der Reaktion auf Änderungen in externen Systemen oder der Aufnahme von Daten – Workflows bietet die Zuverlässigkeit und Skalierbarkeit, die Sie benötigen.

Management von ETL/ELT-Prozessen

Automatisieren Sie Extraktions-, Transformations- und Ladevorgänge über verschiedene Datenquellen hinweg. Workflows orchestriert den Datentransfer zwischen Datenbanken, Data Lakes und Analyseplattformen und übernimmt gleichzeitig die Fehlerbehebung und Datenqualitätsprüfungen. Die Integration von STACKIT Spark vereinfacht die Datenextraktion aus verschiedenen Quellen und das Laden in die STACKIT Data Platform.

Automatisierung von Machine-Learning-Pipelines

Optimieren Sie ML-Workflows von der Datenvorbereitung bis zum Modell-Deployment. Koordinieren Sie Datenvorverarbeitung, Feature Engineering, Modelltraining, Validierung und Deployment in einer einzigen, übersichtlichen Pipeline.

Infrastruktur-Automatisierung

Automatisieren Sie routinemäßige Infrastrukturaufgaben, Systemwartungen und Betriebsabläufe. Planen Sie regelmäßige Sicherungen, System-Health-Checks und automatisierte Reaktionen auf gängige Betriebsszenarien.

Datenqualität und Governance

Implementieren Sie automatisierte Datenqualitätsprüfungen, Lineage-Tracking und Compliance-Reporting. Gewährleisten Sie die Datenintegrität in Ihrem gesamten Unternehmen mit geplanten Validierungs- und Monitoring-Workflows.