Zum Inhalt springen

Erstellen und Verwalten von Intakes

Bevor Sie mit der Erstellung und Verwaltung Ihrer Intakes über die STACKIT CLI beginnen, stellen Sie sicher, dass folgende Voraussetzungen erfüllt sind:

Ein Intake definiert die Datenpipeline, die Ihren Datenstrom mit der Ziel-Dremio-Iceberg-Tabelle verbindet.

Entscheidung über Dremio-Verbindung und Partitionierung

Abschnitt betitelt „Entscheidung über Dremio-Verbindung und Partitionierung“

Das Intake muss mit Details über den Dremio Iceberg REST-Katalog konfiguriert werden, in den der Datenstrom geschrieben werden soll. Zudem muss eine Entscheidung über das Partitionierungsschema getroffen werden:

  • none: Daten werden nicht partitioniert. Dies ist die Standardeinstellung. Für Produktions-Workloads ist dies unter Umständen nicht ratsam, da Tabellenoptimierungen wie Compactions mit dem Eintreffen neuer Daten kollidieren könnten.
  • intake-time: Daten werden täglich basierend auf dem Zeitpunkt partitioniert, an dem das Intake die Daten empfangen hat. Diese Zeit wird im Feld __intake_ts widergespiegelt, das Intake automatisch jeder empfangenen Nachricht hinzufügt. Dies ermöglicht es Ihnen, Optimierungen an älteren Partitionen vorzunehmen, während in der Partition des aktuellen Tages noch Daten eingehen.
  • manual: Sie können ein beliebiges Feld Ihres Datenstroms für die Partitionierung angeben.
  1. Öffnen Sie Ihr Projekt im STACKIT Portal.

  2. Navigieren Sie zu Data & AI > Intake.

  3. Klicken Sie in der Seitenleiste auf Intakes.

  4. Klicken Sie in der oberen Leiste auf Intake erstellen.

  5. Füllen Sie die Felder aus:

    FeldBeschreibungOptionenStandardOptional
    Nameein lesbarer Name für das IntakeString, nicht länger als 32 Zeichen
    Beschreibungeine textuelle Beschreibung des Zwecks des IntakesString, nicht länger als 1024 Zeichen""
    Intake Runnerdie ID des Intake Runners, auf dem das Intake bereitgestellt wirdUUID des Runners
    Tabellennameder Name der Iceberg-Tabelle, die den Datenstrom empfangen sollString, nicht länger als 1024 Zeichen”intake-<INTAKE_ID>“
    Iceberg-Warehouseder Name des Warehouses im KatalogIn der Regel catalog-s3
    Tabellen-Namespaceder Namespace, in dem die Iceberg-Tabelle im Katalog erstellt wirdString, nicht länger als 1024 Zeichen”intake”
    Tabellen-Partitionierungdas anzuwendende PartitionierungsschemaEines von:
    • none
    • intake-time
    • manual
    none
    Dremio-PATdas PAT des Benutzers für den Zugriff auf DremioString, nicht länger als 1024 Zeichen
    Iceberg-Katalog-Endpunktdie URL des Dremio Iceberg REST-Katalog-EndpunktsIn der Regel https://dremio-<ihr-dremio-instanzname>-catalog.data-platform.stackit.run/iceberg/
    Dremio-Token-Endpunktdie URL des Dremio OAuth 2-Token-EndpunktsIn der Regel https://dremio-<ihr-dremio-instanzname>.data-platform.stackit.run/oauth/token
  1. Öffnen Sie Ihr Projekt im STACKIT Portal.
  2. Navigieren Sie zu Data & AI > Intake.
  3. Klicken Sie in der Seitenleiste auf Intakes.
  4. Klicken Sie auf das Intake, das Sie anzeigen möchten.
  5. Die Details des Intakes werden angezeigt, einschließlich Konfiguration und Status.
  1. Öffnen Sie Ihr Projekt im STACKIT Portal.
  2. Navigieren Sie zu Data & AI > Intake.
  3. Klicken Sie in der Seitenleiste auf Intakes.
  4. Eine Liste aller mit Ihrem Projekt verknüpften Intakes wird zusammen mit deren Status und wichtigsten Details angezeigt.
  1. Öffnen Sie Ihr Projekt im STACKIT Portal.

  2. Navigieren Sie zu Data & AI > Intake.

  3. Klicken Sie in der Seitenleiste auf Intakes.

  4. Klicken Sie auf das Intake, das Sie aktualisieren möchten.

  5. Klicken Sie auf die Schaltfläche Bearbeiten.

  6. Ändern Sie die gewünschten Felder und klicken Sie auf Speichern, um die Änderungen anzuwenden:

    FeldBeschreibungOptionenStandardOptional
    Nameein lesbarer Name für das IntakeString, nicht länger als 32 Zeichen
    Beschreibungeine textuelle Beschreibung des Zwecks des IntakesString, nicht länger als 1024 Zeichen""
    Tabellennameder Name der Iceberg-Tabelle, die den Datenstrom empfangen sollString, nicht länger als 1024 Zeichen”intake-<INTAKE_ID>“
    Iceberg-Warehouseder Name des Warehouses im KatalogIn der Regel catalog-s3
    Tabellen-Namespaceder Namespace, in dem die Iceberg-Tabelle im Katalog erstellt wirdString, nicht länger als 1024 Zeichen”intake”
    Tabellen-Partitionierungdas anzuwendende PartitionierungsschemaEines von:
    • none
    • intake-time
    • manual
    none
    Dremio-PATdas PAT des Benutzers für den Zugriff auf DremioString, nicht länger als 1024 Zeichen
    Iceberg-Katalog-Endpunktdie URL des Dremio Iceberg REST-Katalog-EndpunktsIn der Regel https://dremio-<ihr-dremio-instanzname>-catalog.data-platform.stackit.run/iceberg/
    Dremio-Token-Endpunktdie URL des Dremio OAuth 2-Token-EndpunktsIn der Regel https://dremio-<ihr-dremio-instanzname>.data-platform.stackit.run/oauth/token
  1. Öffnen Sie Ihr Projekt im STACKIT Portal.

  2. Navigieren Sie zu Data & AI > Intake.

  3. Klicken Sie in der Seitenleiste auf Intakes.

  4. Klicken Sie auf die drei Punkte rechts neben dem Intake, das Sie löschen möchten.

  5. Wählen Sie Löschen.

  6. Bestätigen Sie den Löschvorgang durch Eingabe des Intake-Namens.

  7. Drücken Sie auf Löschen.

    Das Löschen eines Intakes ist ein unwiderruflicher Vorgang. Dabei werden auch alle zugehörigen Intake-Benutzer gelöscht.