Zum Inhalt springen

Verfügbare Shared Models

Das bereitgestellte Modell ist eine 8-Bit quantisierte Version des originalen Meta Llama 3.3 70B.

Das Meta Llama 3.3-Modell ist ein signifikant verbessertes auto-regressives Chat Model mit 70 Milliarden Parametern, das eine ähnliche Leistung wie das Llama 3.1-Modell mit 405 Milliarden Parametern bietet. Es wurde auf einer neuen Mischung aus öffentlich verfügbaren Online-Daten trainiert. Dieses Modell ist in der Lage, mehrsprachigen Text zu verarbeiten und zu generieren und kann auch Code produzieren. Es wurde mit einem Fokus auf allgemeine Fragenbeantwortungsaufgaben (GQA) feinabgestimmt. Das Modell hat eine Token-Anzahl von über 15 Milliardenen und sein Wissensstand reicht bis Dezember 2023. Das Meta Llama 3.3-Modell unterstützt acht Sprachen: Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thai.

Das Modell ist für assistentenähnlichen Chat vorgesehen und kann in einer Vielzahl von Anwendungen eingesetzt werden, z. B. agentische KI, RAG, Code-Generierung, Chatbot.

URLhttps://api.openai-compat.model-serving.eu01.onstackit.cloud/v1
ArtChat
KategorieLLM-Plus
BetriebsmodusEingabe and Ausgabe sind Text.
FunktionenTool-Calling aktiviert
Kontextgröße128K Token
Anzahl der Parameter70.6 Milliarden in 8 bit Quantisierung
SpezifikationOpenAI kompatibel
TPM-Limit*200000
RPM-Limit**80
LizenzLizenz auf Hugging Face
Statusim Support
  • POST /chat/completions
  • POST /completions
  • GET /models

Gemma ist eine Familie leichter, hochmoderner offener Modelle von Google. Gemma 3-Modelle sind multimodal, verarbeiten Text- und Bildeingaben und generieren Textausgaben. Gemma 3 verfügt über ein großes Kontextfenster von 128K, mehrsprachige Unterstützung in über 140 Sprachen und ist in mehr Größen als frühere Versionen verfügbar. Gemma 3-Modelle eignen sich gut für eine Vielzahl von Textgenerierungs- und Bildverständnisaufgaben, einschließlich Fragenbeantwortung, Zusammenfassung und Schlussfolgerung.

Das Modell ist für assistentenähnlichen Chat mit Bildverständnis vorgesehen und kann in einer Vielzahl von Anwendungen eingesetzt werden, z. B. Bildverständnis, visuelles Dokumentenverständnis, agentische KI, RAG, Code-Generierung, Chatbot.

URLhttps://api.openai-compat.model-serving.eu01.onstackit.cloud/v1
ArtChat
KategorieLLM-Plus
BetriebsmodusEingabe sind Text und Bilder, Ausgabe ist Text.
Kontextgröße37K-Token
Anzahl der Parameter27.4 Milliarden in 16 Bit-Quantisierung
SpezifikationOpenAI kompatibel
TPM-Limit*200000
RPM-Limit**80
LizenzLizenz auf Google AI
Statusim Support
  • POST /chat/completions
  • POST /completions
  • GET /models

Das bereitgestellte Modell ist eine auf 8 Bit quantisierte Version des originalen Mistral Nemo Instruct 2407-Modells.

Das Mistral-Nemo-Instruct-2407 Large Language Model (LLM) ist eine auf Anweisungen feinabgestimmte Version des Mistral-Nemo-Base-2407. Es wurde gemeinsam von Mistral AI und NVIDIA trainiert und übertrifft bestehende Modelle kleinerer oder ähnlicher Größe signifikant. Das Modell wurde mit einem 128k Kontextfenster auf einem großen Anteil mehrsprachiger Daten und Code trainiert. Es unterstützt mehrere Sprachen, darunter Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Russisch, Chinesisch und Japanisch, mit unterschiedlichen Kenntnisniveaus.

Das Modell ist für die kommerzielle und Forschungsnutzung in Englisch vorgesehen, insbesondere für assistentenähnliche Chat-Anwendungen.

URLhttps://api.openai-compat.model-serving.eu01.onstackit.cloud/v1
ArtChat
KategorieLLM-Plus
BetriebsmodusInput is text and Output is text.
Kontextgröße128K Token
Anzahl der Parameter12.2 Milliarden in 8 Bit-Quantisierung
SpezifikationOpenAI kompatibel
TPM-Limit*200000
RPM-Limit**80
LizenzLicense on Hugging Face
Statusim Support
  • POST /chat/completions
  • POST /completions
  • GET /models

Die bereitgestellte Modellversion ist eine 8-Bit-quantisierte Ausgabe des ursprünglichen Meta Llama 3.1 8B.

Llama 3.1 ist ein autoregressives Chat Model, das eine optimierte Transformer-Architektur verwendet. Die abgestimmten Versionen nutzen überwachtes Fine-Tuning (SFT) und Reinforcement Learning mit menschlichem Feedback (RLHF), um das Modell an menschliche Präferenzen hinsichtlich Hilfsbereitschaft und Sicherheit anzupassen. Das Meta-Llama-3.1-Modell unterstützt acht Sprachen: Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch.

Es ist für mehrsprachige Dialoganwendungen optimiert und übertrifft viele verfügbare Open-Source- und proprietäre Chatmodelle in gängigen Branchen-Benchmarks.

URLhttps://api.openai-compat.model-serving.eu01.onstackit.cloud/v1
ArtChat
KategorieLLM-Standard
BetriebsmodusEingabe ist Text und Ausgabe ist text.
FeaturesTool calling enabled
Kontextgröße128K Token
Anzahl der Parameter8.03 Milliarden in 8 Bit-Quantisierung
SpezifikationOpenAI kompatibel
TPM-Limit*200000
RPM-Limit**80
LizenzLizenz auf Hugging Face
Statusim Support
  • POST /chat/completions
  • POST /completions
  • GET /models

Dies ist ein Embedding-Modell und verfügt nicht über Chat-Funktionalität.

Das E5 Mistral 7B Instruct-Modell ist ein leistungsstarkes Chat Model, das sich hervorragend für Text-Embedding-Aufgaben eignet, insbesondere in Englisch. Mit 32 Layern und einer Embedding-Größe von 4096 ist es gut geeignet für Aufgaben wie Passage-Ranking und Retrieval. Es wird jedoch empfohlen, dieses Modell nur für englischsprachige Aufgaben zu verwenden, da seine Leistung bei anderen Sprachen möglicherweise abnimmt. Es ist in der Lage, lange Eingabesequenzen von bis zu 4096 Tokens zu verarbeiten, wodurch es sich gut für komplexe Aufgaben eignet. Insgesamt bietet das E5 Mistral 7B Instruct-Modell eine robuste und effiziente Lösung für Text-Embedding-Aufgaben und ist somit ein wertvolles Werkzeug für Anwendungen zur Verarbeitung natürlicher Sprache.

URLhttps://api.openai-compat.model-serving.eu01.onstackit.cloud/v1
ArtEmbedding
KategorieEmbedding-Standard
BetriebsmodusInput is text and Output are embeddings.
FeaturesTool calling enabled
Maximum input tokens4096
Output dimension4096
Anzahl der Parameter7 Milliarden
SpezifikationOpenAI kompatibel
TPM-Limit*200000
RPM-Limit**600
LizenzLizenz auf Hugging Face
Statusim Support
  • POST /completions
  • GET /models