Zum Inhalt springen

FAQ

  • Allgemein

    Was ist Observability?

    Observability ist ein gemanagter Service, der ein leistungsstarkes Observability-Toolset bereitstellt. Er kann Targets überwachen, die Daten im OpenTelemetry-Format bereitstellen. Telemetriedaten (Metriken, Logs und Traces) können an Observability gesendet werden. Zusätzlich ist es möglich, Metriken zu scrapen.
    Alle Telemetriedaten können mit verschiedenen Diagrammtypen in einem anpassbaren Dashboard visualisiert werden. Jedes Dashboard und jedes Diagramm-Widget ist hochgradig konfigurierbar. Darüber hinaus stellt der Service ein integriertes Alerting-System bereit, das Benutzergruppen über verschiedene Kommunikationskanäle benachrichtigen kann, wenn ein bestimmter Schwellenwert erreicht wird.

    Welche Komponenten sind in Observability enthalten?

    Wie kann ich Observability bestellen?

    Sie benötigen ein STACKIT-Konto, um Bestellungen durchführen zu können. Erstellen Sie ein Projekt oder verwenden Sie ein bestehendes Projekt, um einen neuen Observability-Service zu bestellen. Bitte folgen Sie unserer Dokumentation für weitere Details: Erstellen eines Observability-Services.

    Wie kann ich Observability konfigurieren?

    Nachdem Sie Observability bestellt haben, können Sie es über das Observability Service-Dashboard und die Observability API konfigurieren. Bitte folgen Sie unserer Dokumentation für weitere Details: Konfigurieren eines Observability-Services

    Bieten Sie einen gemanagten Grafana-Service an?

    Mit Observability erhalten Sie einen gemanagten Service, der verschiedene Komponenten umfasst. In unserem kleinsten Serviceplan Frontend erhalten Sie ausschließlich Grafana als gemanagten Service ohne weitere Komponenten.

    Bieten Sie einen gemanagten Prometheus-Service an?

    Mit Observability erhalten Sie einen gemanagten Service, der verschiedene Komponenten umfasst. In unseren Serviceplänen Monitoring und Observability ist ein gemanagter Prometheus enthalten, neben weiteren gemanagten Komponenten.

    Für welche Themen bin ich als Kunde verantwortlich?

    Unser Observability Service kümmert sich um Installation, Updates, Upgrades, Stabilität und Verfügbarkeit Ihrer Service-Komponenten (wie Grafana, Prometheus und Thanos).
    Sie sind für alles verantwortlich, was nachdem Sie sich bei den Tools angemeldet haben geschieht.
    Zum Beispiel: das Erstellen und Verwalten von Dashboards, das Anbinden Ihrer Targets über Jobs, das Einrichten von Alerts, die Pflege der Aufbewahrungszeit Ihrer Metrics sowie das Grafana-Benutzermanagement.

    Wo werden meine Daten gespeichert und verarbeitet?

    Derzeit bieten wir eine einzelne Region an: EU01. Die gesamte Datenverarbeitung und -speicherung erfolgt innerhalb dieser Region. EU01 befindet sich in Deutschland.

  • Integration

    Unterstützen Sie neben dem Prometheus-Expositionsformat / OpenTelemetry noch andere Formate?

    Nein. Das OpenTelemetry-Format ist seit einigen Jahren der De-facto-Standard im Monitoring. Daher haben wir uns entschieden, diesen Standard zu verwenden, um möglichst viele Targets und Kunden zu erreichen.

    Erlauben Sie die Nutzung der RemoteWrite-Funktion von Prometheus/Thanos?

    Wir empfehlen, den regulären Pull-basierten Ansatz zu verwenden. Wenn dies nicht möglich ist, können Sie RemoteWrite nutzen.

    Ist es möglich, Zugriff auf den Server zu erhalten?

    Da wir einen gemanagten Service bereitstellen, besteht für Sie weder die Notwendigkeit noch die Möglichkeit, sich auf dem Server anzumelden. Sie können Ihren Service über die Observability API oder das STACKIT Portal konfigurieren.

    Ich habe mehr als eine Observability-Instanz. Was ist der beste Weg, dieselben Metriken zu scrapen?

    Wenn Sie dieselben Metriken in mehreren Observability-Instanzen benötigen, müssen Sie dasselbe Target in jeder Observability-Instanz scrapen, in der diese Daten verfügbar sein sollen.
    Multi-Scrape ermöglicht es Ihnen, unterschiedliche Aufbewahrungszeiten zu pflegen, verschiedenen Personen Zugriff auf die jeweiligen Grafana-Instanzen zu gewähren usw.

    Ist es möglich, meine JSON-Datenquelle hinzuzufügen?

    Bitte verwenden Sie einen Konverter (z. B. Promtail oder Telegraf), um Ihre Daten in das OpenTelemetry-Format zu konvertieren, sodass Sie diese mit Observability scrapen können.

    Welche offiziellen IP-Adressbereiche verwendet der Observability-Cluster?

    Wenn Sie den Zugriff auf Ihre Systeme einschränken möchten, können Sie die folgenden IP-Adressbereiche verwenden:

    ClusterIP
    stackit145.135.246.168/32
    stackit245.135.247.188/32
    stackit345.135.244.2/32
    stackit445.135.246.86/32
    stackit545.135.244.47/32
    stackit6193.148.162.252/32
    stackit7193.148.174.113/32
    stackit8193.148.174.129/32
    stackit945.129.41.59/32
    stackit1045.135.245.89/32
    stackit11192.214.176.140/32
    stackit12192.214.174.229/32
  • Metriken

    Ist es möglich, Metriken häufiger als jede Minute zu erfassen?

    Metriken, die jede Minute erfasst werden, werden bereits als „High-Resolution-Metriken“ bezeichnet. Eine Erfassung in Abständen von weniger als einer Minute ist technisch möglich, erhöht jedoch die Systemlast erheblich. Aus diesem Grund haben wir entschieden, eine Minute als höchste Auflösung für Metriken zuzulassen.

    Ist es möglich, historische Daten einzufügen?

    Da wir eine Time-Series-Datenbank verwenden, ist es nicht möglich, historische Daten einzufügen. Sie können nur Daten ab dem aktuellen Zeitpunkt hinzufügen. Prometheus/Thanos haben Backfilling auf der zukünftigen Roadmap.

    Was ist PromQL?

    PromQL ist die Prometheus Query Language. Wenn Sie Dashboards und Panels in Grafana erstellen, benötigen Sie Kenntnisse in PromQL, um Ihre Metriken auszuwählen. Sehen Sie sich dazu die offiziellen Grundlagen zu Queries oder dieses PromQL Cheat Sheet an.

    Ich habe Metriken für verschiedene Länder. Ist es möglich, alle in einem Dashboard darzustellen?

    Ja. Wichtig ist lediglich, dass Ihre Metriken Informationen zu dem jeweiligen Land enthalten. Beispielsweise stellt Ihre Metrik diese Information in einem „country“-Tag bereit. Sie können die Ad-hoc-Filterfunktion in Ihrem Grafana-Dashboard verwenden oder für jede Metrik und jedes Land individuelle Panels erstellen.

    Unterstützen Sie Mehrsprachigkeit für Dashboards?

    Wir verwenden Grafana als Software zur Visualisierung Ihrer Metriken. Grafana unterstützt derzeit noch keine Mehrsprachigkeit.
    Es ist jedoch möglich, bestehende Dashboards zu kopieren und Titel sowie metrikspezifische Texte zu übersetzen.
    Wir empfehlen, alle Texte entweder in Ihrer Unternehmenssprache oder in englischer Sprache zu pflegen, wenn Sie mit verschiedenen Ländern zusammenarbeiten.

  • Grafana

    Ist es möglich, zusätzliche Grafana-Konten zu erstellen?

    Ja. Wir stellen Ihnen Administratorberechtigungen für Grafana zur Verfügung, sodass Sie zusätzliche Benutzer bis zum Limit Ihres Serviceplans erstellen können.

    Ich habe versehentlich einen Ordner oder ein Dashboard gelöscht. Wie kann ich es wiederherstellen?

    Grafana verfügt über keinen Papierkorb. Glücklicherweise bietet Observability automatisierte stündliche Backups, sodass Sie das neueste Grafana-Backup wiederherstellen können. Beachten Sie, dass Grafana dabei auf den Stand dieses Zeitpunkts zurückgesetzt wird. Alles, was seitdem erstellt wurde (z. B. Ordner, Dashboards, Benutzer), geht bei einer Wiederherstellung verloren.
    Interagieren Sie mit der Observability API. Rufen Sie den neuesten Zeitstempel Ihres Grafana-Backups über /v1/projects/[projectId]/instances/[instanceId]/backups ab; dieser hat beispielsweise das Format 01-09-2022T13:00:31. Mit diesem Wert können Sie /v1/projects/[projectId]/instances/[instanceId]/backup-restores/[backupDate] aufrufen, um Ihre Grafana-Konfiguration wiederherzustellen.

    Ich habe meinen Grafana-Admin-Benutzer versehentlich gelöscht oder vergessen. Wie kann ich ihn wiederherstellen?

    Observability verfügt über automatisierte stündliche Backups, sodass Sie das neueste Grafana-Backup wiederherstellen können. Beachten Sie, dass Grafana dabei auf den Stand dieses Zeitpunkts zurückgesetzt wird. Alles, was seitdem erstellt wurde (z. B. Ordner, Dashboards, Benutzer), geht bei einer Wiederherstellung verloren.
    Interagieren Sie mit der Observability API. Rufen Sie den neuesten Zeitstempel Ihres Grafana-Backups über /v1/projects/[projectId]/instances/[instanceId]/backups ab; dieser hat beispielsweise das Format 01-09-2022T13:00:31. Mit diesem Wert können Sie /v1/projects/[projectId]/instances/[instanceId]/backup-restores/[backupDate] aufrufen, um Ihre Grafana-Konfiguration wiederherzustellen.

  • Konfiguration

    Kann ich einen bestimmten Zeitraum oder alle meine Telemetriedaten löschen?

    Leider ist dies nicht möglich. Sie können lediglich Ihre Aufbewahrungszeit auf 1 Tag festlegen und 1 Tag warten. Alle Daten, die älter als 1 Tag sind, werden dann gelöscht.

    Kann ich Prometheus- oder Grafana-Konfigurationsdateien bearbeiten?

    Sie müssen sich nicht mit YAML-Dateien herumschlagen. Verwenden Sie einfach das STACKIT Portal und die Observability API, um Prometheus und Grafana zu konfigurieren.

    Ist es möglich, Backups meiner Konfigurationen und Dashboards zu erstellen?

    Es gibt ein stündlich geplantes Backup Ihrer Konfiguration. Sie können Backups von Konfigurationen und Dashboards über die Observability API wiederherstellen.

    Kann ich Grafana-Plugins installieren?

    Observability ist ein Managed Service. Daher haben Sie leider keinen Zugriff auf den Server und können Dinge wie Plugins nicht manuell installieren.

  • Ressourcen

    Kann ich die Auslastung meines Serviceplans überprüfen?

    Sie können die Limits Ihres aktuellen Serviceplans im Observability Service-Dashboard einsehen. Darüber hinaus stellen wir Ihnen in Grafana ein Dashboard zur Verbrauchsübersicht zur Verfügung.

    Kann ich meinen Plan upgraden oder downgraden?

    Ja, ein Upgrade ist jederzeit möglich. Ein Downgrade auf einen kleineren Plan ist ebenfalls möglich, sofern Ihre Konfiguration und Ihre Daten zum kleineren Plan passen. Ist dies nicht der Fall, wird das Downgrade abgebrochen, und es kommt zu keinem Datenverlust.

    Kann ich Observability während Wartungsarbeiten an meinen eigenen Systemen vorübergehend deaktivieren, sodass ich in diesem Zeitraum keine Alerts erhalte?

    Ihre Konfiguration wird stündlich über die Observability API gesichert. Löschen Sie Ihre Alerting-Konfiguration über die Observability API. Nachdem Ihre Wartungsarbeiten abgeschlossen sind, können Sie Ihre Alerting-Konfiguration aus einem entsprechenden Backup wiederherstellen.

  • Bekannte Probleme

    Ich erhalte in meinem Grafana-Dashboard immer „no data“. Ist meine Verbindung unterbrochen?

    Sie erhalten auch dann „no data“, wenn keine Metriken zum Erfassen vorhanden waren. Sie können in der Panel-Konfiguration einstellen, dass stattdessen der Wert 0 (oder ein anderer Text) angezeigt wird.

    Warum erhalte ich ständig mehrere identische Alerts?

    In den meisten Fällen ist das Alerting-Gruppenintervall zu klein.
    Das Gruppenintervall beschreibt, wie lange gewartet wird, bevor eine Benachrichtigung über neue Alerts gesendet wird, die zu einer Alert-Gruppe hinzugefügt werden, für die bereits eine initiale Benachrichtigung versendet wurde (in der Regel ca. 5 Minuten oder mehr).

    Warum wird mein Alert erst nach 2–8 Minuten ausgelöst?

    Bitte werfen Sie einen Blick auf das for-Attribut in Ihrer Alerting-Konfiguration. Alerts gelten als ausgelöst, sobald sie für die dort definierte Dauer aktiv waren.
    Alerts, die noch nicht lange genug aktiv sind, gelten als „pending“. Das bedeutet beispielsweise, dass bei „for 5 minutes“ der Ausdruck 5 Minuten lang aktiv sein muss, bevor der Alert ausgelöst wird.

    Warum habe ich Zeitlücken im Diagramm meiner Metrik?

    Einige Anbieter oder Konfigurationen Ihrer On-Premise-Systeme verfügen über Präventionsfilter oder Firewall-Einschränkungen, die wirksam werden können, wenn Sie Ihr Target jede Minute scrapen.
    Versuchen Sie, Ihre Konfiguration anzupassen oder das Scrape-Intervall beispielsweise auf alle 5 Minuten zu erhöhen.

    Ich habe eine Feature-Anfrage. Wo kann ich meine Anfrage einreichen?

    Bitte senden Sie Feature-Anfragen über den Service Desk an uns. Vielen Dank für Ihren Beitrag.

    Mein Prometheus-Sample-Limit wird überschritten, und der Metrics-Push-Endpunkt antwortet mit HTTP/429. Was kann ich tun?

    Jeder Service verfügt über ein Metrik-Sample-Limit pro Minute. Wenn Sie dieses Limit überschritten haben, können Sie auf einen höheren Plan upgraden.

    Ihnen fehlen Metriken, die per Remote-Write geschrieben werden, und Sie erhalten Thanos-/Prometheus-Fehler wie „Error on series with out-of-order labels“.

    Die Kombination aus einer neuen Thanos-/Prometheus-Version und einem alten Telegraf-Agent führt zu dieser Fehlermeldung. Bitte aktualisieren Sie Ihren Telegraf-Agent. Danach tritt der Fehler nicht mehr auf.