Verfügbare Shared Models

Chat-Modelle

Qwen3-VL 235B

Voller Name: Qwen/Qwen3-VL-235B-A22B-Instruct-FP8

Das bereitgestellte Modell ist ein 8-Bit quantisierte Version des originalen Qwen3-VL 235B A22B-Modells.

Lernen Sie Qwen3-VL kennen – das bisher leistungsstärkste Vision-Language-Modell der Qwen-Serie.

Diese Generation zeichnet sich durch die visuelle Interaktion mit grafischen Benutzeroberflächen (GUIs) auf PCs und Mobilgeräten sowie die autonome Erledigung von Aufgaben aus. Sie verbessert das visuelle Coding durch die Erstellung von Draw.io-Diagrammen oder HTML/CSS/JS aus Bildern oder Videos. Dank fortschrittlicher räumlicher Wahrnehmung beurteilt das Modell Objektpositionen, Verdeckungen und Blickwinkel präzise. Dies ermöglicht robustes 2D- sowie aufstrebendes 3D-Grounding für räumliches Denken und Anwendungen im Bereich der Embodied AI. Die verbesserte visuelle Erkennung verarbeitet ein breites Spektrum an Themen dank eines umfassenderen und hochwertigeren Pretrainings. Die erweiterte Texterkennung (OCR) unterstützt 32 Sprachen, meistert schwierige Bedingungen, analysiert komplexe Dokumente und lässt sich nahtlos in ein Textverständnis integrieren, das reinen LLMs ebenbürtig ist, um ein einheitliches Vision-Text-Verständnis zu erreichen.

Facts


URL	`https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1`
Art	Chat
Kategorie	LLM-Premium
Betriebsmodus	Eingabe ist Text und Bild, Ausgabe ist Text.
Kontextgröße	218K Token
Anzahl der Parameter	235 Billion in 8-Bit Quantisierung
Spezifikation	kompatibel zu OpenAI
TPM-Limit	200000
RPM-Limit	80
Lizenz	Lizenz auf Hugging Face
Status	im Support

Verfügbare API-Endpunkte

POST /chat/completions
POST /completions
GET /models

Llama 3.3 70B

Voller Name: cortecs/Llama-3.3-70B-Instruct-FP8-Dynamic

Das bereitgestellte Modell ist eine 8-Bit quantisierte Version des originalen Meta Llama 3.3 70B.

Das Meta Llama 3.3-Modell ist ein signifikant verbessertes auto-regressives Chat Model mit 70 Milliarden Parametern, das eine ähnliche Leistung wie das Llama 3.1-Modell mit 405 Milliarden Parametern bietet. Es wurde auf einer neuen Mischung aus öffentlich verfügbaren Online-Daten trainiert. Dieses Modell ist in der Lage, mehrsprachigen Text zu verarbeiten und zu generieren und kann auch Code produzieren. Es wurde mit einem Fokus auf allgemeine Fragenbeantwortungsaufgaben (GQA) feinabgestimmt. Das Modell hat eine Token-Anzahl von über 15 Milliardenen und sein Wissensstand reicht bis Dezember 2023. Das Meta Llama 3.3-Modell unterstützt acht Sprachen: Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thai.

Das Modell ist für assistentenähnlichen Chat vorgesehen und kann in einer Vielzahl von Anwendungen eingesetzt werden, z. B. agentische KI, RAG, Code-Generierung, Chatbot.

Daten


URL	`https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1`
Art	Chat
Kategorie	LLM-Plus
Betriebsmodus	Eingabe and Ausgabe sind Text.
Funktionen	Tool-Calling aktiviert
Kontextgröße	128K Token
Anzahl der Parameter	70.6 Milliarden in 8 bit Quantisierung
Spezifikation	kompatibel zu OpenAI
TPM-Limit	200000
RPM-Limit	80
Lizenz	Lizenz auf Hugging Face
Status	im Support

Verfügbare API-Endpunkte

POST /chat/completions
POST /completions
GET /models

GPT-OSS 120B

Voller Name: openai/gpt-oss-120b

Das bereitgestellte Modell ist ein Open-Weight-Modell, das für leistungsstarkes logisches Denken (Reasoning) mit 4-Bit-Quantisierung (MXFP4) und insgesamt 120 Milliarden Parametern entwickelt wurde.

Das GPT-OSS 120B-Modell wurde mit einer breiten Mischung öffentlich verfügbarer Daten trainiert und für starkes logisches Denken, Werkzeugnutzung und allgemeine Assistenzaufgaben nachtrainiert. Das Modell unterstützt die Verarbeitung langer Kontexte (bis zu 131.000 Token), erzeugt qualitativ hochwertigen Text und Code und ist für agentenbasierte Anwendungen wie RAG-Systeme, Code-Assistenten und KI-Tools konzipiert.

Daten


URL	`https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1`
Art	Chat
Kategorie	LLM-Plus
Betriebsmodus	Eingabe and Ausgabe sind Text.
Funktionen	Tool-Calling aktiviert
Kontextgröße	131K Token
Anzahl der Paramete	120 Milliarden in 4 bit Quantisierung
Spezifikation	kompatibel zu OpenAI
TPM limit^*	200000
RPM limit^**	30
Lizenz	Lizenz auf Hugging Face
Status	im Support

Verfügbare API-Endpunkte

POST /chat/completions
POST /completions
GET /models

Gemma 3 27B

Voller Name: google/gemma-3-27b-it

Gemma ist eine Familie leichter, hochmoderner offener Modelle von Google. Gemma 3-Modelle sind multimodal, verarbeiten Text- und Bildeingaben und generieren Textausgaben. Gemma 3 verfügt über ein großes Kontextfenster von 128K, mehrsprachige Unterstützung in über 140 Sprachen und ist in mehr Größen als frühere Versionen verfügbar. Gemma 3-Modelle eignen sich gut für eine Vielzahl von Textgenerierungs- und Bildverständnisaufgaben, einschließlich Fragenbeantwortung, Zusammenfassung und Schlussfolgerung.

Das Modell ist für assistentenähnlichen Chat mit Bildverständnis vorgesehen und kann in einer Vielzahl von Anwendungen eingesetzt werden, z. B. Bildverständnis, visuelles Dokumentenverständnis, agentische KI, RAG, Code-Generierung, Chatbot.

Daten


URL	`https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1`
Art	Chat
Kategorie	LLM-Plus
Betriebsmodus	Eingabe sind Text und Bilder, Ausgabe ist Text.
Kontextgröße	37K-Token
Anzahl der Parameter	27.4 Milliarden in 16 Bit-Quantisierung
Spezifikation	kompatibel zu OpenAI
TPM-Limit	200000
RPM-Limit	80
Lizenz	Lizenz auf Google AI
Status	im Support

Verfügbare API-Endpunkte

POST /chat/completions
POST /completions
GET /models

Mistral-Nemo

Full Name: neuralmagic/Mistral-Nemo-Instruct-2407-FP8

Das bereitgestellte Modell ist eine auf 8 Bit quantisierte Version des originalen Mistral Nemo Instruct 2407-Modells.

Das Mistral-Nemo-Instruct-2407 Large Language Model (LLM) ist eine auf Anweisungen feinabgestimmte Version des Mistral-Nemo-Base-2407. Es wurde gemeinsam von Mistral AI und NVIDIA trainiert und übertrifft bestehende Modelle kleinerer oder ähnlicher Größe signifikant. Das Modell wurde mit einem 128k Kontextfenster auf einem großen Anteil mehrsprachiger Daten und Code trainiert. Es unterstützt mehrere Sprachen, darunter Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Russisch, Chinesisch und Japanisch, mit unterschiedlichen Kenntnisniveaus.

Das Modell ist für die kommerzielle und Forschungsnutzung in Englisch vorgesehen, insbesondere für assistentenähnliche Chat-Anwendungen.

Daten


URL	`https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1`
Art	Chat
Kategorie	LLM-Plus
Betriebsmodus	Input is text and Output is text.
Kontextgröße	128K Token
Anzahl der Parameter	12.2 Milliarden in 8 Bit-Quantisierung
Spezifikation	kompatibel zu OpenAI
TPM-Limit	200000
RPM-Limit	80
Lizenz	License on Hugging Face
Status	im Support

Verfügbare API-Endpunkte

POST /chat/completions
POST /completions
GET /models

Llama 3.1 8B

Full Name: neuralmagic/Meta-Llama-3.1-8B-Instruct-FP8

Die bereitgestellte Modellversion ist eine 8-Bit-quantisierte Ausgabe des ursprünglichen Meta Llama 3.1 8B.

Llama 3.1 ist ein autoregressives Chat Model, das eine optimierte Transformer-Architektur verwendet. Die abgestimmten Versionen nutzen überwachtes Fine-Tuning (SFT) und Reinforcement Learning mit menschlichem Feedback (RLHF), um das Modell an menschliche Präferenzen hinsichtlich Hilfsbereitschaft und Sicherheit anzupassen. Das Meta-Llama-3.1-Modell unterstützt acht Sprachen: Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch.

Es ist für mehrsprachige Dialoganwendungen optimiert und übertrifft viele verfügbare Open-Source- und proprietäre Chatmodelle in gängigen Branchen-Benchmarks.

Daten


URL	`https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1`
Art	Chat
Kategorie	LLM-Standard
Betriebsmodus	Eingabe ist Text und Ausgabe ist text.
Features	Tool calling enabled
Kontextgröße	128K Token
Anzahl der Parameter	8.03 Milliarden in 8 Bit-Quantisierung
Spezifikation	kompatibel zu OpenAI
TPM-Limit	200000
RPM-Limit	80
Lizenz	Lizenz auf Hugging Face
Status	im Support

Verfügbare API-Endpunkte

POST /chat/completions
POST /completions
GET /models

Embedding-Modelle

E5 Mistral 7B

Full Name: intfloat/e5-mistral-7b-instruct

Dies ist ein Embedding-Modell und verfügt nicht über Chat-Funktionalität.

Das E5 Mistral 7B Instruct-Modell ist ein leistungsstarkes Chat Model, das sich hervorragend für Text-Embedding-Aufgaben eignet, insbesondere in Englisch. Mit 32 Layern und einer Embedding-Größe von 4096 ist es gut geeignet für Aufgaben wie Passage-Ranking und Retrieval. Es wird jedoch empfohlen, dieses Modell nur für englischsprachige Aufgaben zu verwenden, da seine Leistung bei anderen Sprachen möglicherweise abnimmt. Es ist in der Lage, lange Eingabesequenzen von bis zu 4096 Tokens zu verarbeiten, wodurch es sich gut für komplexe Aufgaben eignet. Insgesamt bietet das E5 Mistral 7B Instruct-Modell eine robuste und effiziente Lösung für Text-Embedding-Aufgaben und ist somit ein wertvolles Werkzeug für Anwendungen zur Verarbeitung natürlicher Sprache.

Facts


URL	`https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1`
Art	Embedding
Kategorie	Embedding-Standard
Betriebsmodus	Eingabe: Text - Ausgabe: Embedding-Vektor
Maximum input tokens	4096
Output dimension	4096
Anzahl der Parameter	7 Milliarden
Spezifikation	kompatibel zu OpenAI
TPM-Limit	200000
RPM-Limit	600
Lizenz	Lizenz auf Hugging Face
Status	im Support

Qwen3 Vision-Language Embedding

Full Name: Qwen/Qwen3-VL-Embedding-8B

Dies ist ein Embedding-Modell. Es berechnet semantische Embedding-Vektoren aus Chat-Nachrichten – einschließlich Text- und Bildinhalten – sowie aus reinen Texteingaben.

Qwen3-VL-Embedding-8B ist ein multimodales Embedding-Modell, das vom Qwen-Team entwickelt wurde. Es wurde Anfang 2026 veröffentlicht und ist darauf ausgelegt, verschiedene Datentypen – Text und Bilder – in einen einheitlichen semantischen Vektorraum zu projizieren. Im Gegensatz zu herkömmlichen rein textbasierten Modellen ermöglicht es modalitätenübergreifendes Retrieval (Cross-Modal Retrieval), wie etwa die Suche nach Bildern mittels Text oder das Finden relevanter Dokumente anhand von Bildern. Es unterstützt über 30 Sprachen und bietet eine Embedding-Dimension von 4096.

Facts


URL	`https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1`
Art	Embedding
Kategorie	Embedding-Plus
Betriebsmodus	Eingabe: Text oder Bilder - Ausgabe: Embedding-Vektor
Maximum input tokens	32000
Output dimension	4096
Anzahl der Parameter	7 Milliarden
Spezifikation	kompatibel zu OpenAI
TPM-Limit	200000
RPM-Limit	600
Lizenz	Lizenz auf Hugging Face
Status	im Support

Verfügbare API-Endpunkte

POST /embeddings
GET /models

Limits

Modell-Limits stellen die Verfügbarkeit der Modelle für alle Benutzer sicher und garantieren eine faire Nutzung.

TPM

Token pro Minute: Das TPM-Limit wird berechnet, indem die Prompt-Token zu den Generation-Token addiert werden, wobei Generation-Token mit einem Faktor von 5 gewichtet werden.

RPM

Anfragen pro Minute