Verfügbare Shared Models
Chat-Modelle
Abschnitt betitelt „Chat-Modelle“Llama 3.3 70B
Abschnitt betitelt „Llama 3.3 70B“Voller Name: cortecs/Llama-3.3-70B-Instruct-FP8-Dynamic
Abschnitt betitelt „Voller Name: cortecs/Llama-3.3-70B-Instruct-FP8-Dynamic“Das bereitgestellte Modell ist eine 8-Bit quantisierte Version des originalen Meta Llama 3.3 70B.
Das Meta Llama 3.3-Modell ist ein signifikant verbessertes auto-regressives Chat Model mit 70 Milliarden Parametern, das eine ähnliche Leistung wie das Llama 3.1-Modell mit 405 Milliarden Parametern bietet. Es wurde auf einer neuen Mischung aus öffentlich verfügbaren Online-Daten trainiert. Dieses Modell ist in der Lage, mehrsprachigen Text zu verarbeiten und zu generieren und kann auch Code produzieren. Es wurde mit einem Fokus auf allgemeine Fragenbeantwortungsaufgaben (GQA) feinabgestimmt. Das Modell hat eine Token-Anzahl von über 15 Milliardenen und sein Wissensstand reicht bis Dezember 2023. Das Meta Llama 3.3-Modell unterstützt acht Sprachen: Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thai.
Das Modell ist für assistentenähnlichen Chat vorgesehen und kann in einer Vielzahl von Anwendungen eingesetzt werden, z. B. agentische KI, RAG, Code-Generierung, Chatbot.
| URL | https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1 |
| Art | Chat |
| Kategorie | LLM-Plus |
| Betriebsmodus | Eingabe and Ausgabe sind Text. |
| Funktionen | Tool-Calling aktiviert |
| Kontextgröße | 128K Token |
| Anzahl der Parameter | 70.6 Milliarden in 8 bit Quantisierung |
| Spezifikation | OpenAI kompatibel |
| TPM-Limit* | 200000 |
| RPM-Limit** | 80 |
| Lizenz | Lizenz auf Hugging Face |
| Status | im Support |
Verfügbare API-Endpunkte
Abschnitt betitelt „Verfügbare API-Endpunkte“POST /chat/completionsPOST /completionsGET /models
Gemma 3 27B
Abschnitt betitelt „Gemma 3 27B“Gemma ist eine Familie leichter, hochmoderner offener Modelle von Google. Gemma 3-Modelle sind multimodal, verarbeiten Text- und Bildeingaben und generieren Textausgaben. Gemma 3 verfügt über ein großes Kontextfenster von 128K, mehrsprachige Unterstützung in über 140 Sprachen und ist in mehr Größen als frühere Versionen verfügbar. Gemma 3-Modelle eignen sich gut für eine Vielzahl von Textgenerierungs- und Bildverständnisaufgaben, einschließlich Fragenbeantwortung, Zusammenfassung und Schlussfolgerung.
Das Modell ist für assistentenähnlichen Chat mit Bildverständnis vorgesehen und kann in einer Vielzahl von Anwendungen eingesetzt werden, z. B. Bildverständnis, visuelles Dokumentenverständnis, agentische KI, RAG, Code-Generierung, Chatbot.
| URL | https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1 |
| Art | Chat |
| Kategorie | LLM-Plus |
| Betriebsmodus | Eingabe sind Text und Bilder, Ausgabe ist Text. |
| Kontextgröße | 37K-Token |
| Anzahl der Parameter | 27.4 Milliarden in 16 Bit-Quantisierung |
| Spezifikation | OpenAI kompatibel |
| TPM-Limit* | 200000 |
| RPM-Limit** | 80 |
| Lizenz | Lizenz auf Google AI |
| Status | im Support |
Verfügbare API-Endpunkte
Abschnitt betitelt „Verfügbare API-Endpunkte“POST /chat/completionsPOST /completionsGET /models
Mistral-Nemo
Abschnitt betitelt „Mistral-Nemo“Full Name: neuralmagic/Mistral-Nemo-Instruct-2407-FP8
Abschnitt betitelt „Full Name: neuralmagic/Mistral-Nemo-Instruct-2407-FP8“Das bereitgestellte Modell ist eine auf 8 Bit quantisierte Version des originalen Mistral Nemo Instruct 2407-Modells.
Das Mistral-Nemo-Instruct-2407 Large Language Model (LLM) ist eine auf Anweisungen feinabgestimmte Version des Mistral-Nemo-Base-2407. Es wurde gemeinsam von Mistral AI und NVIDIA trainiert und übertrifft bestehende Modelle kleinerer oder ähnlicher Größe signifikant. Das Modell wurde mit einem 128k Kontextfenster auf einem großen Anteil mehrsprachiger Daten und Code trainiert. Es unterstützt mehrere Sprachen, darunter Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Russisch, Chinesisch und Japanisch, mit unterschiedlichen Kenntnisniveaus.
Das Modell ist für die kommerzielle und Forschungsnutzung in Englisch vorgesehen, insbesondere für assistentenähnliche Chat-Anwendungen.
| URL | https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1 |
| Art | Chat |
| Kategorie | LLM-Plus |
| Betriebsmodus | Input is text and Output is text. |
| Kontextgröße | 128K Token |
| Anzahl der Parameter | 12.2 Milliarden in 8 Bit-Quantisierung |
| Spezifikation | OpenAI kompatibel |
| TPM-Limit* | 200000 |
| RPM-Limit** | 80 |
| Lizenz | License on Hugging Face |
| Status | im Support |
Verfügbare API-Endpunkte
Abschnitt betitelt „Verfügbare API-Endpunkte“POST /chat/completionsPOST /completionsGET /models
Llama 3.1 8B
Abschnitt betitelt „Llama 3.1 8B“Full Name: neuralmagic/Meta-Llama-3.1-8B-Instruct-FP8
Abschnitt betitelt „Full Name: neuralmagic/Meta-Llama-3.1-8B-Instruct-FP8“Die bereitgestellte Modellversion ist eine 8-Bit-quantisierte Ausgabe des ursprünglichen Meta Llama 3.1 8B.
Llama 3.1 ist ein autoregressives Chat Model, das eine optimierte Transformer-Architektur verwendet. Die abgestimmten Versionen nutzen überwachtes Fine-Tuning (SFT) und Reinforcement Learning mit menschlichem Feedback (RLHF), um das Modell an menschliche Präferenzen hinsichtlich Hilfsbereitschaft und Sicherheit anzupassen. Das Meta-Llama-3.1-Modell unterstützt acht Sprachen: Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch.
Es ist für mehrsprachige Dialoganwendungen optimiert und übertrifft viele verfügbare Open-Source- und proprietäre Chatmodelle in gängigen Branchen-Benchmarks.
| URL | https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1 |
| Art | Chat |
| Kategorie | LLM-Standard |
| Betriebsmodus | Eingabe ist Text und Ausgabe ist text. |
| Features | Tool calling enabled |
| Kontextgröße | 128K Token |
| Anzahl der Parameter | 8.03 Milliarden in 8 Bit-Quantisierung |
| Spezifikation | OpenAI kompatibel |
| TPM-Limit* | 200000 |
| RPM-Limit** | 80 |
| Lizenz | Lizenz auf Hugging Face |
| Status | im Support |
Verfügbare API-Endpunkte
Abschnitt betitelt „Verfügbare API-Endpunkte“POST /chat/completionsPOST /completionsGET /models
Embedding-Modelle
Abschnitt betitelt „Embedding-Modelle“E5 Mistral 7B
Abschnitt betitelt „E5 Mistral 7B“Full Name: intfloat/e5-mistral-7b-instruct
Abschnitt betitelt „Full Name: intfloat/e5-mistral-7b-instruct“Dies ist ein Embedding-Modell und verfügt nicht über Chat-Funktionalität.
Das E5 Mistral 7B Instruct-Modell ist ein leistungsstarkes Chat Model, das sich hervorragend für Text-Embedding-Aufgaben eignet, insbesondere in Englisch. Mit 32 Layern und einer Embedding-Größe von 4096 ist es gut geeignet für Aufgaben wie Passage-Ranking und Retrieval. Es wird jedoch empfohlen, dieses Modell nur für englischsprachige Aufgaben zu verwenden, da seine Leistung bei anderen Sprachen möglicherweise abnimmt. Es ist in der Lage, lange Eingabesequenzen von bis zu 4096 Tokens zu verarbeiten, wodurch es sich gut für komplexe Aufgaben eignet. Insgesamt bietet das E5 Mistral 7B Instruct-Modell eine robuste und effiziente Lösung für Text-Embedding-Aufgaben und ist somit ein wertvolles Werkzeug für Anwendungen zur Verarbeitung natürlicher Sprache.
| URL | https://api.openai-compat.model-serving.eu01.onstackit.cloud/v1 |
| Art | Embedding |
| Kategorie | Embedding-Standard |
| Betriebsmodus | Input is text and Output are embeddings. |
| Features | Tool calling enabled |
| Maximum input tokens | 4096 |
| Output dimension | 4096 |
| Anzahl der Parameter | 7 Milliarden |
| Spezifikation | OpenAI kompatibel |
| TPM-Limit* | 200000 |
| RPM-Limit** | 600 |
| Lizenz | Lizenz auf Hugging Face |
| Status | im Support |
Verfügbare API-Endpunkte
Abschnitt betitelt „Verfügbare API-Endpunkte“POST /completionsGET /models