FAQ

Wir möchten unseren Kunden die Informationen geben, die sie benötigen, um das Beste aus unserem STACKIT AI Model Serving herauszuholen. Dieser FAQ-Bereich beantwortet häufig gestellte Fragen. Dies hilft Ihnen, schnell Lösungen zu finden und Ihre Erfahrung zu verbessern. Wir empfehlen Ihnen, diese FAQ zu prüfen, bevor Sie unser Support-Team kontaktieren, da Sie hier möglicherweise bereits Ihre Antwort finden.

Allgemein
Welche Clients können mit STACKIT AI Model Serving verwendet werden?
STACKIT AI Model Serving bietet eine OpenAI-kompatible API. Daher lässt sich der Dienst gut in die meisten OpenAI-kompatiblen Clients integrieren. Um Modelle von STACKIT AI Model Serving anstelle von OpenAI zu verwenden, müssen die folgenden Konfigurationen entsprechend angepasst werden:
- API-Basis-URL: https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1
- API-Schlüssel / Authentifizierungstoken / Secret Key: STACKIT AI Model Serving Auth Token (Informationen zum Erstellen eines STACKIT AI Model Serving Auth Token im STACKIT Portal UI finden Sie unter Erste Schritte mit der STACKIT Portal UI)
Wohin gehen meine Daten?

Wir speichern keine Kundendaten aus den Anfragen. Ihre Daten gehören ausschließlich Ihnen und werden von uns weder gespeichert noch verwendet. Wir trainieren keine Modelle mit Ihren Daten.

Welche Daten werden zum Trainieren der LLMs verwendet?

Wir stellen nur Open-Source-Modelle bereit. Diese Modelle sind auf Hugging Face öffentlich verfügbar, zusammen mit ihren individuellen Modellkarten, die beispielsweise Informationen zu Trainingsdaten, Trainingsverfahren, Modellarchitektur und vielen weiteren Details enthalten. Wir trainieren diese Modelle mit keinen Daten, noch speichern wir Kundendaten.

Welche Modelle werden angeboten?

Mit dem STACKIT AI Model Serving ist es unser Ziel, unseren Kunden hochmoderne LLMs bereitzustellen. Die angebotenen Modelle werden sorgfältig ausgewählt. Eine aktuelle Tabelle der Shared Models finden Sie unter Erste Schritte mit Shared Models. Wir konzentrieren uns auf die besten Open-Source-Modelle von OpenAI und pflegen dabei ein stabiles Portfolio. Falls Sie zusätzliche Modelle benötigen, die das Shared Models-Angebot überschreiten, erstellen Sie bitte eine Serviceanfrage im STACKIT Help Center.
Why is my model output truncated, and how can I get the full response?
All LLM models have a certain output limit of generated tokens. If a model reaches this limit before completing the generation, the response will be truncated.

How to handle truncated responses
Section titled “How to handle truncated responses”

You can identify this state by checking the finish_reason field in the API response. If it is set to "length", the generation was stopped due to the token cap.

To retrieve the full output, implement the following logic:
1. Check for Truncation: Monitor the response for finish_reason: "length".
2. Submit a Continuation Prompt: Send the chat history — including the partial response — back to the model.
3. Trigger Completion: Use a prompt instruction such as “continue”.
The model will then resume the generation from where it left off. This iterative approach ensures you can capture full responses for complex reasoning tasks that might exceed single-request limits. This approach might need some use-case specific fine-tuning to get the best results.
Ich benötige ein bestimmtes Modell. Können Sie es für mich bereitstellen?

Falls unser Modell-Portfolio Ihre Anforderungen nicht abdeckt, erstellen Sie bitte eine Serviceanfrage im STACKIT Help Center; wir freuen uns, von Ihren Anforderungen zu hören und eine Lösung zu finden, die Ihre Bedürfnisse abdeckt.

Kann ich mehrere Modelle mit einem einzigen Authentifizierungstoken verwenden? / Benötige ich unterschiedliche Authentifizierungstoken für unterschiedliche Modelltypen (z. B. Embedding-Modelle, Chat-Modelle)?

Ein Authentifizierungstoken, bekannt als STACKIT AI Model Serving Auth Token, ist für alle Shared Models, einschließlich aller Modelltypen, gültig. Ein einziges STACKIT AI Model Serving Auth Token kann zum Erstellen von Embeddings, zum Testen und zum Beantworten von Fragen in der Chat Completions API verwendet werden.

Warum antwortet der Nextcloud Assistant erst nach ca. 5 Minuten?

Der Nextcloud Assistant arbeitet mit Hintergrundaufgaben in Nextcloud. Standardmäßig werden diese Aufgaben alle 5 Minuten übernommen. Hinweise zur Leistungsverbesserung finden Sie in der Offiziellen Nextcloud-Dokumentation.
Fehler

Warum funktioniert mein Authentifizierungstoken (alias API-Schlüssel) nicht?

Um das STACKIT AI Model Serving zu nutzen, benötigen Sie ein gültiges STACKIT AI Model Serving Auth Token. Befolgen Sie unsere Anleitung Erste Schritte mit der STACKIT Portal UI, um ein gültiges STACKIT AI Model Serving Auth Token für Shared Models zu erstellen. Beachten Sie, dass wir zwischen dem allgemeinen STACKIT Authentifizierungstoken und dem produktspezifischen STACKIT AI Model Serving Auth Token unterscheiden, das mit der OpenAI-kompatiblen API verwendet wird. Details dazu finden Sie auch in den Anleitungen Auth Token verwalten und Modelle verwenden.

Wie kann ich einen „404 Not Found“-Fehler von der API beheben?

Dieser Fehler tritt auf, wenn eine angeforderte Ressource nicht gefunden werden kann. Dies liegt höchstwahrscheinlich an einem falschen „model“-Parameter im Anfragetext. Beachten Sie, dass alle unsere Modelle exklusiv für ihren Modelltyp (z. B. Chat, Embedding) sind. Das bedeutet, ein Chat-Modell kann nicht zur Berechnung von Embeddings verwendet werden und umgekehrt. Eine Liste der verfügbaren Modelle und ihrer Typen finden Sie in der Dokumentation Erste Schritte mit Shared Models.

Meine Anfrage führt zu einem „LengthFinishReasonError“, insbesondere bei der Arbeit mit strukturierter Ausgabe.

Dieses Problem kann durch Anpassen des Parameters frequency_penalty gelöst werden. Ein Wert von 0,7 oder höher hat sich als ausreichend erwiesen.
Known issues
Unexpected Tool Calling with Empty `tools` Parameter
We have observed inconsistent behavior in specific Llama-based models when the tools parameter is present in the request body but provided as an empty array ("tools": []). Contrary to the expected OpenAI-compatible behavior—where an empty tools list should be ignored—these models interpret the presence of the parameter as a signal to enter “tool-calling mode.” Consequently, the model may ignore the natural language prompt and instead generate a hallucinated JSON function call.

This behavior currently affects the following tool-calling enabled models:
- neuralmagic/Meta-Llama-3.1-8B-Instruct-FP8
- cortecs/Llama-3.3-70B-Instruct-FP8-Dynamic
Workaround
Section titled “Workaround”

To avoid hallucinated tool calls, do not send the tools parameter with an empty list. If your client logic dynamically constructs requests, ensure that the tools key is completely omitted from the JSON payload when no tools are available, rather than passing [] or null.

Incorrect Request (Causes Hallucination)
Section titled “Incorrect Request (Causes Hallucination)”

Sending an empty array forces the model to attempt a function call.
payload = { "model": "cortecs/Llama-3.3-70B-Instruct-FP8-Dynamic", "messages": [{"role": "user", "content": "What is the capital of Germany?"}], "tools": [] # This causes the issue }
Correct Request (Recommended)
Section titled “Correct Request (Recommended)”

Omit the key entirely for standard text generation.
payload = { "model": "cortecs/Llama-3.3-70B-Instruct-FP8-Dynamic", "messages": [{"role": "user", "content": "What is the capital of Germany?"}] }

FAQ

Allgemein

Welche Clients können mit STACKIT AI Model Serving verwendet werden?

Wohin gehen meine Daten?

Welche Daten werden zum Trainieren der LLMs verwendet?

Welche Modelle werden angeboten?

Why is my model output truncated, and how can I get the full response?

How to handle truncated responses

Ich benötige ein bestimmtes Modell. Können Sie es für mich bereitstellen?

Kann ich mehrere Modelle mit einem einzigen Authentifizierungstoken verwenden? / Benötige ich unterschiedliche Authentifizierungstoken für unterschiedliche Modelltypen (z. B. Embedding-Modelle, Chat-Modelle)?

Warum antwortet der Nextcloud Assistant erst nach ca. 5 Minuten?

Fehler

Warum funktioniert mein Authentifizierungstoken (alias API-Schlüssel) nicht?

Wie kann ich einen „404 Not Found“-Fehler von der API beheben?

Meine Anfrage führt zu einem „LengthFinishReasonError“, insbesondere bei der Arbeit mit strukturierter Ausgabe.

Known issues

Unexpected Tool Calling with Empty `tools` Parameter

Workaround

Incorrect Request (Causes Hallucination)

Correct Request (Recommended)