Postgres-Änderungen an Dremio streamen

Zuletzt aktualisiert am 27. Jan. 2026

Überblick

Diese Anleitung erklärt, wie Sie Debezium konfigurieren, um eine lokale PostgreSQL-Datenbank zu überwachen, alle Änderungen auf Zeilenebene (INSERTs, UPDATEs, DELETEs) zu erfassen und diese Ereignisse direkt an STACKIT Intake zu streamen. Intake führt diese automatisch in eine Dremio-Iceberg-Tabelle für Echtzeitanalysen zusammen.

Voraussetzungen

Bevor Sie mit der Einrichtung der Pipeline beginnen, stellen Sie sicher, dass folgende Voraussetzungen erfüllt sind:

Sie verfügen über ein STACKIT-Projekt und die erforderlichen Berechtigungen (Intake.Admin, Intake.Editor oder Intake.Owner).
Sie haben die STACKIT CLI installiert und konfiguriert: Benutzerhandbuch
Sie haben Zugriff auf eine Dremio-Instanz und besitzen ein Personal Access Token (PAT).
Sie haben Docker und Docker Compose auf Ihrem lokalen Rechner installiert.

Schritt-für-Schritt-Konfiguration

Richten Sie Ihre STACKIT Intake-Umgebung ein

Sie müssen die Infrastruktur bereitstellen, die den Datenstrom empfangen wird. Dies umfasst das Erstellen eines Runners, eines Intakes und eines Intake-Benutzers.

Einen Intake Runner erstellen

Definieren Sie zunächst die Engine für Ihre Datenerfassung.

STACKIT Portal
STACKIT CLI

Inhalt folgt in Kürze.

Flags

Flag	Beschreibung	Standard	Optional
`display-name`	Ein lesbarer Name für den Intake Runner.
`max-message-size-kib`	Die maximale Größe einer einzelnen Nachricht in Kibibyte.
`max-messages-per-hour`	Die maximale Anzahl an Nachrichten, die der Runner pro Stunde verarbeiten kann.
`project-id`	Die ID Ihres STACKIT-Projekts.
`region`	Die Region für den Runner (z. B. `eu01`).

Erstellungsbefehl ausführen

Um Ihren Intake Runner zu erstellen, führen Sie den Befehl mit den entsprechenden Flags aus:

stackit beta intake runner create --display-name <DISPLAY_NAME> --max-message-size-kib <SIZE> --max-messages-per-hour <RATE> --project-id <PROJECT_ID> --region eu01

Bestätigen Sie nach dem Ausführen des Befehls mit y. Wenn die Instanz erfolgreich erstellt wurde, gibt die CLI die Instanz-ID zurück.

Beispiel

stackit beta intake runner create \
--display-name "debezium-pg-runner" \
--max-message-size-kib 1000 \
--max-messages-per-hour 1000 \
--project-id "1234-5678-90ab-cdef" \
--region eu01

Ausgabe:

Created Intake Runner for project "...". Runner ID: af1b6d5b-9dc5-4dee-ab48-e944a7a17a2b
Bootstrap Server: af1b6d5b.intake.eu01.onstackit.cloud:9094

Einen Intake erstellen

Der Intake fungiert als Datenleitung, die den Runner mit Ihrer Dremio-Tabelle verbindet.

STACKIT Portal
STACKIT CLI

Inhalt folgt in Kürze.

Flags

Flag	Beschreibung
`runner-id`	Die ID des im vorherigen Schritt erstellten Intake Runners.
`catalog-uri`	Der Dremio Catalog URI.
`catalog-warehouse`	Der Name des Dremio-Warehouses.
`catalog-table-name`	Der Name der Ziel-Tabelle in Dremio.
`dremio-pat`	Ihr Dremio Personal Access Token.
`dremio-token-endpoint`	Der Dremio-Authentifizierungsendpunkt.

Erstellungsbefehl ausführen

Um Ihren Intake zu erstellen, führen Sie den folgenden Befehl aus:

stackit beta intake create --runner-id <RUNNER_ID> --display-name <NAME> --catalog-uri <URI> --catalog-table-name <TABLE> --dremio-pat <PAT> ...

Beispiel

stackit beta intake create \
--display-name "debezium-intake" \
--runner-id "af1b6d5b-9dc5-4dee-ab48-e944a7a17a2b" \
--catalog-uri "[https://catalog.dremio](https://catalog.dremio)..." \
--catalog-warehouse "catalog-s3" \
--catalog-table-name "debezium_pg_users" \
--catalog-auth-type "dremio" \
--dremio-token-endpoint "[https://oauth.dremio](https://oauth.dremio)..." \
--dremio-pat "MY_SECRET_PAT" \
--project-id "1234-5678-90ab-cdef" \
--region eu01

Ausgabe:

Created Intake for Runner "...". Intake ID: 17802315-32c2-48ce-a33d-3043d8aec89b
Topic: intake-17802315-32c2-48ce-a33d-3043d8aec89b

Einen Intake-Benutzer erstellen

Sie müssen einen dedizierten Benutzer erstellen, damit Debezium sich gegenüber dem Intake authentifizieren kann.

STACKIT Portal
STACKIT CLI

Inhalt folgt in Kürze.

Flags

Flag	Beschreibung
`intake-id`	Die ID des im vorherigen Schritt erstellten Intakes.
`display-name`	Ein Name für den Benutzer.
`password`	Ein starkes Passwort (mind. 12 Zeichen, Groß- und Kleinschreibung, Zahlen, Sonderzeichen).
`type`	Muss auf `intake` gesetzt sein.

Erstellungsbefehl ausführen

stackit beta intake user create --intake-id <INTAKE_ID> --display-name <NAME> --password <PASSWORD> --type intake

Beispiel

stackit beta intake user create \
--intake-id "17802315-32c2-48ce-a33d-3043d8aec89b" \
--display-name "debezium-connector-user" \
--password "SuperSaf3Password!" \
--type "intake" \
--project-id "1234-5678-90ab-cdef" \
--region eu01

Ausgabe:

Created Intake user... User ID: e9e65d48...
Username: intake-user-e9e65d48...

Definieren Sie Ihre Dremio-Ziel-Tabelle (Empfohlen)

Um einen reibungslosen Erfassungsprozess zu gewährleisten, empfehlen wir, die Ziel-Tabelle in Dremio vorab zu erstellen. In diesem Tutorial wird Debezium so konfiguriert, dass eine vereinfachte JSON-Payload gesendet wird, die diesem Schema entspricht.

Öffnen Sie Ihre Dremio-Benutzeroberfläche.
Navigieren Sie zu Ihrer Quelle (z. B. catalog-s3).
Führen Sie folgendes SQL aus, um die Tabelle zu erstellen. Stellen Sie sicher, dass der Tabellenname mit dem in Schritt 1 verwendeten catalog-table-name übereinstimmt.
```
CREATE TABLE "catalog-s3"."intake"."debezium_pg_users" (
  id INT,
  name VARCHAR,
  email VARCHAR
)
```

Lokale Postgres- und Kafka Connect-Dateien einrichten

Sie erstellen nun die lokalen Konfigurationsdateien, die erforderlich sind, um den Connector im Standalone-Modus auszuführen.

Dateistruktur

    - intake-debezium-tutorial/
      - connect-data/
      - postgres-init/
        - init.sql
      - connect-log4j.properties
      - connect-standalone.properties
      - docker-compose.yml
      - pg-connector.properties

Projektverzeichnisse erstellen:

mkdir -p intake-debezium-tutorial/postgres-init intake-debezium-tutorial/connect-data
cd intake-debezium-tutorial

postgres-init/init.sql erstellen: Dieses Skript initialisiert die Datenbank und aktiviert die logische Replikation.

CREATE TABLE public.users (
  id SERIAL PRIMARY KEY,
  name VARCHAR(100),
  email VARCHAR(100)
);
INSERT INTO public.users (name, email) VALUES ('Alice', 'alice@example.com');
ALTER TABLE public.users REPLICA IDENTITY FULL;

connect-log4j.properties erstellen:

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=[%d] %p %m (%c:%L)%n

docker-compose.yml erstellen:

services:
  postgres:
    image: debezium/postgres:15-alpine
    platform: linux/amd64
    container_name: postgres_cdc
    ports:
      - "5432:5432"
    environment:
      - POSTGRES_USER=postgres
      - POSTGRES_PASSWORD=postgres
      - POSTGRES_DB=testdb
    volumes:
      - ./postgres-init:/docker-entrypoint-initdb.d
      - pg-data:/var/lib/postgresql/data
    networks:
      - cdc-network

  connect:
    image: debezium/connect:3.0.0.Final
    platform: linux/amd64
    container_name: connect_cdc
    depends_on:
      - postgres
    command: >
      /kafka/bin/connect-standalone.sh
      /kafka/config/connect-standalone.properties
      /connect/pg-connector.properties
    environment:
      - CONNECT_REST_ADVERTISED_HOST_NAME=localhost
      - CONNECT_REST_ADVERTISED_PORT=8083
    volumes:
      - ./connect-data:/connect
      - ./connect-log4j.properties:/kafka/config/connect-log4j.properties
      - ./connect-standalone.properties:/kafka/config/connect-standalone.properties
      - ./pg-connector.properties:/connect/pg-connector.properties
    networks:
      - cdc-network

volumes:
  pg-data:

networks:
  cdc-network:
    driver: bridge

connect-standalone.properties erstellen:

Ersetzen Sie <BOOTSTRAP_SERVER> durch den URI aus Schritt 1 in Richten Sie Ihre STACKIT Intake-Umgebung ein und <USERNAME>/<PASSWORD> durch die Zugangsdaten aus Schritt 3 in Richten Sie Ihre STACKIT Intake-Umgebung ein.

bootstrap.servers=<BOOTSTRAP_SERVER>
plugin.path=/kafka/connect

key.converter=org.apache.kafka.connect.storage.StringConverter
value.converter=org.apache.kafka.connect.json.JsonConverter
internal.key.converter=org.apache.kafka.connect.json.JsonConverter
internal.value.converter=org.apache.kafka.connect.json.JsonConverter

config.storage.class=org.apache.kafka.connect.storage.FileConfigBackingStore
offset.storage.class=org.apache.kafka.connect.storage.FileOffsetBackingStore
status.storage.class=org.apache.kafka.connect.storage.FileStatusBackingStore

config.storage.file.filename=/connect/standalone-configs.dat
offset.storage.file.filename=/connect/standalone-offsets.dat
status.storage.file.filename=/connect/standalone-status.dat
offset.flush.interval.ms=10000

security.protocol=SASL_SSL
sasl.mechanism=SCRAM-SHA-512
sasl.jaas.config=org.apache.kafka.common.security.scram.ScramLoginModule required username="<USERNAME>" password="<PASSWORD>";

producer.security.protocol=SASL_SSL
producer.sasl.mechanism=SCRAM-SHA-512
producer.sasl.jaas.config=org.apache.kafka.common.security.scram.ScramLoginModule required username="<USERNAME>" password="<PASSWORD>";

pg-connector.properties erstellen:

Ersetzen Sie <INTAKE_TOPIC> durch den Topic-Namen aus Schritt 2 in Richten Sie Ihre STACKIT Intake-Umgebung ein.

name=postgres-source-connector
connector.class=io.debezium.connector.postgresql.PostgresConnector

database.hostname=postgres
database.port=5432
database.user=postgres
database.password=postgres
database.dbname=testdb
database.server.name=my_postgres_server

topic.prefix=postgres_server
plugin.name=pgoutput
table.include.list=public.users

key.converter=org.apache.kafka.connect.storage.StringConverter
value.converter=org.apache.kafka.connect.json.JsonConverter
value.converter.schemas.enable=false

transforms=extractKey, unwrap, route

transforms.extractKey.type=org.apache.kafka.connect.transforms.ExtractField$Key
transforms.extractKey.field=id

transforms.unwrap.type=io.debezium.transforms.ExtractNewRecordState
transforms.unwrap.drop.tombstones=false

transforms.route.type=org.apache.kafka.connect.transforms.RegexRouter
transforms.route.regex=.*
transforms.route.replacement=<INTAKE_TOPIC>

Pipeline starten

Starten Sie die Container aus Ihrem Verzeichnis intake-debezium-tutorial:

docker-compose up -d

Überwachen Sie die Logs, um sicherzustellen, dass die Verbindung erfolgreich hergestellt wurde:

docker-compose logs -f connect_cdc

End-to-End-Datenfluss überprüfen

Dremio prüfen: Fragen Sie Ihre Tabelle in Dremio ab. Sie sollten den ersten Datensatz „Alice“ sehen.

Postgres aktualisieren: Öffnen Sie eine Shell im Datenbank-Container:

docker exec -it postgres_cdc psql -U postgres -d testdb

Führen Sie einige Änderungen aus:

INSERT INTO public.users (name, email) VALUES ('Bob', 'bob@example.com');
UPDATE public.users SET email = 'alice.new@example.com' WHERE name = 'Alice';

Verifizieren: Prüfen Sie Dremio erneut. Die Änderungen sollten in der Iceberg-Tabelle reflektiert werden.