Zum Inhalt springen

Kernfunktionen und Anwendungsfälle von AI Model Experiments

Zuletzt aktualisiert am

STACKIT AI Model Experiments wurde entwickelt, um Zuverlässigkeit, Transparenz und nahtlose Zusammenarbeit bei der Verwaltung des Machine-Learning-Lebenszyklus zu gewährleisten. In diesem Artikel sind die Kernfunktionen und Anwendungsfälle, die es zu einem unverzichtbaren Werkzeug für Data-Science-Teams machen, dargestellt:

Wir stellen einen vollständig verwalteten MLflow™-Tracking-Server bereit, einschließlich der Backend-Metadaten-Datenbank und einer gehosteten UI, damit Sie in Sekundenschnelle mit der Protokollierung von Experimenten beginnen können.

Verfolgen Sie jedes Detail der Entwicklung Ihres Modells. Protokollieren Sie Parameter, Metriken, Tags und Codeversionen, um sicherzustellen, dass jedes Ergebnis für jedes Teammitglied zu 100% reproduzierbar ist.

Behalten Sie die volle Kontrolle über Ihre Daten. Während wir die Metadaten der Experimente verwalten, werden alle Modell-Binärdateien, Datensätze und Plots über STACKIT Object Storage (Object Storage) direkt in Ihrem eigenen STACKIT-Projektraum gespeichert.

Admins können isolierte MLflow™-Instanzen für verschiedene Abteilungen, Projekte oder Staging-Umgebungen bereitstellen. Jede Instanz fungiert als dedizierte Sandbox mit eigener Konfiguration und eigenen Zugriffstoken.

Admins generieren an Berechtigungen orientierte Zugriffstoken für AI-Engineers und gewährleisten so eine sichere programmatische Interaktion mit dem Server über das Python-SDK, ohne Zugangsdaten teilen zu müssen.

Visualisieren Sie Ihren Fortschritt über die gehostete MLflow™-UI. Vergleichen Sie mehrere Durchläufe direkt miteinander und identifizieren Sie die leistungsstärksten Hyperparameter auf einen Blick.

Integrieren Sie den Dienst in Ihre bestehenden Codebasen. Unabhängig davon, ob Sie STACKIT Notebooks (Notebooks), lokale Skripte oder Remote-Training-Cluster verwenden, arbeitet der Dienst mit der Standard-mlflow-Bibliothek zusammen.

AI Model Experiments stellt die zentrale „Source of Truth“ dar, die für die moderne KI-Entwicklung erforderlich ist. Hier sind die wichtigsten Szenarien, in denen der Dienst den maximalen Mehrwert bietet:

Führen Sie Hunderte von Varianten eines Modells mit unterschiedlichen Optimierungs-Parametern aus. Nutzen Sie den Tracking-Server, um die Ergebnisse jeder Permutation automatisch aufzuzeichnen und den „Besten Durchlauf“ programmatisch für das Deployment abzurufen.

Brechen Sie Silos zwischen Data Scientists auf. Durch die Nutzung eines gemeinsam genutzten Managed Servers können Teammitglieder die Experimente der anderen überprüfen, Feedback in der UI geben und doppelte Arbeit an gescheiterten Architekturansätzen vermeiden.

Erfüllen Sie regulatorische Anforderungen, indem Sie eine dauerhafte Aufzeichnung darüber führen, wie ein Modell trainiert wurde.

Integrieren Sie das Experiment-Tracking in Ihre automatisierten Pipelines. Nutzen Sie das SDK, um Ergebnisse während automatisierter Retraining-Zyklen zu protokollieren und Deployment-Workflows erst dann auszulösen, wenn ein neues Modell einen bestimmten Leistungsschwellenwert überschreitet.

Überwachen Sie lang laufende Trainings-Jobs. Protokollieren Sie Systemmetriken und Verlustkurven in Echtzeit in der gehosteten UI, um frühe Anzeichen von Overfitting oder Hardware-Engpässen zu erkennen, bevor der Job abgeschlossen ist.

Vergleichen Sie verschiedene Modellarchitekturen auf demselben Datensatz. Nutzen Sie das zentrale Dashboard, um Evaluations-Metriken zu standardisieren und das effizienteste Champion-Modell auszuwählen.