Architektur
STACKIT Observability ist eine vollständig verwaltete Observability-Plattform innerhalb der STACKIT Cloud. Sie stellt eine vollständige, vorkonfigurierte Toolchain zur Erfassung, Speicherung und Visualisierung von Telemetriedaten wie Metriken, Logs und Traces bereit. Der Service ermöglicht es Ihnen, Ihre Systeme über offene Standards anzubinden, Performance in Echtzeit zu analysieren und schnell auf Incidents zu reagieren – während STACKIT die zugrunde liegende Infrastruktur betreibt und wartet.
STACKIT Observability basiert auf bekannten Open-Source-Komponenten, die das Rückgrat moderner Monitoring-Stacks bilden:
- Prometheus zur Erfassung von Metriken
- Thanos für die Langzeitspeicherung
- Grafana Loki für Logs
- Grafana Tempo für verteilte Traces
- Grafana selbst für Dashboards und Visualisierung.
Zusammen mit Prometheus Alertmanager für die Alarmierung bilden sie eine integrierte und hochverfügbare Observability-Architektur, die vollständig von STACKIT betrieben wird.
Erfassung von Telemetriedaten und Jobs
Abschnitt betitelt „Erfassung von Telemetriedaten und Jobs“Um Ihre Systeme zu überwachen, definieren Sie Jobs, die festlegen, wie Telemetriedaten erfasst werden. Ein Job fragt regelmäßig einen oder mehrere Targets ab. Dabei handelt es sich um HTTP-Endpunkte, die Metriken im OpenMetrics- oder Prometheus-Format bereitstellen. Diese Targets repräsentieren die Systeme oder Anwendungen, die Sie überwachen möchten. Das Scraping-Intervall ist konfigurierbar und läuft typischerweise alle paar Minuten, sodass stets aktuelle Einblicke in Ihre Infrastruktur gewährleistet sind.
Alternativ können Telemetriedaten auch direkt über OpenTelemetry-Standards an den Service übertragen werden. Dies erleichtert die Integration unterschiedlichster Umgebungen – von containerisierten Anwendungen bis hin zu klassischen Servern – ohne aufwendige Konfiguration.
Datenverarbeitung und -speicherung
Abschnitt betitelt „Datenverarbeitung und -speicherung“Nach der Erfassung werden die Telemetriedaten vom Observability-Backend verarbeitet und gespeichert. Prometheus übernimmt die kurzfristige Speicherung von Metriken, während Thanos diese um eine Langzeitaufbewahrung von bis zu 26 Monaten erweitert. Logs werden von Grafana Loki gesammelt und indexiert, Traces werden mit Grafana Tempo gespeichert. Diese Architektur ermöglicht es Ihnen, Metriken, Logs und Traces miteinander zu korrelieren und so tiefgehende Analysen sowie effizientes Troubleshooting durchzuführen.
Das System verwaltet Skalierung und Aufbewahrung automatisch. Logs und Traces werden bis zu 30 Tage gespeichert und erlauben detaillierte kurzfristige Analysen, während Metriken für langfristige Trendanalysen und Kapazitätsplanung verfügbar bleiben.
Visualisierung und Dashboards
Abschnitt betitelt „Visualisierung und Dashboards“Auf der Visualisierungsebene stellt Grafana eine leistungsstarke und intuitive Dashboard-Oberfläche bereit. Hier können Sie interaktive Dashboards mit verschiedenen Diagrammtypen erstellen, Filter anwenden und Daten über mehrere Services hinweg korrelieren. Dashboards lassen sich in Ordnern organisieren, sodass Teams Ansichten nach Umgebung, Service oder Fachbereich trennen können.
Alle Visualisierungen sind über das STACKIT Portal zugänglich und können an Ihre Anforderungen angepasst werden. Die Integration in das Identitäts- und Zugriffsmanagement von STACKIT stellt sicher, dass nur autorisierte Benutzer bestimmte Dashboards anzeigen oder bearbeiten können.
Alarmierung und Benachrichtigungen
Abschnitt betitelt „Alarmierung und Benachrichtigungen“Das Alarmierungssystem basiert auf Prometheus Alertmanager. Es wertet kontinuierlich Ihre definierten Alarmregeln aus und benachrichtigt Sie, sobald definierte Schwellenwerte überschritten werden. Alarme können über verschiedene Kommunikationskanäle wie E-Mail oder Webhooks versendet werden, sodass Teams schnell auf kritische Ereignisse reagieren können. Die Konfiguration und Verwaltung von Alarmregeln und Empfängern ist sowohl über die Portal-Oberfläche als auch über die Observability API möglich.
Hochverfügbarkeit und Managed Betrieb
Abschnitt betitelt „Hochverfügbarkeit und Managed Betrieb“STACKIT Observability ist auf Zuverlässigkeit und minimalen Betriebsaufwand ausgelegt. Alle Komponenten sind hochverfügbar bereitgestellt und werden kontinuierlich von STACKIT überwacht. Updates, Skalierung und Wartung erfolgen automatisch, sodass Ihre Observability-Umgebung ohne manuelle Eingriffe sicher, aktuell und performant bleibt.
Durch das Managed-Service-Modell profitieren Kunden von konsistenter Verfügbarkeit und vorhersehbarer Performance, ohne selbst mehrere Observability-Tools betreiben und warten zu müssen.
Netzwerk und Sicherheit
Abschnitt betitelt „Netzwerk und Sicherheit“Die Kommunikation zwischen Ihren Systemen und dem Observability-Service ist durch verschlüsselte Verbindungen (TLS) abgesichert. Der Zugriff auf Dashboards, Metriken und Konfigurationen folgt dem integrierten Rollen- und Berechtigungsmodell von STACKIT. Dadurch wird sichergestellt, dass Monitoring-Daten nur für autorisierte Benutzer oder Gruppen zugänglich sind.
Sie können den Zugriff über das STACKIT Portal verwalten und festlegen, welche Benutzer oder Teams Dashboards erstellen, Alarme verwalten oder Service-Konfigurationen ändern dürfen. Das Service-Dashboard bietet zudem eine Übersicht über Ihre Observability-Instanzen, Konfigurationen und Verbindungsdetails.