Die besten Open-Source-KIs auf Abruf in einer unabhängigen Cloud
Entdecken Sie die besten Open-Source-Alternativen zu ChatGPT, Gemini, Midjourney oder Claude, um sensible Daten in vollständigem Einklang mit europäischem und schweizerischem Recht zu verarbeiten.
LLM↓
Einbettungen↓
Audio↓
Image↓
Grosse Sprachmodelle (LLM)
Die besten Open-Source-Alternativen zu ChatGPT, Gemini und Microsoft Copilot für die Interaktion, Analyse und Generierung von Inhalten mit KI.
Qwen/Qwen3.5-122B-A10B-FP8
Der Leistungsfähigste
Beta
- ●
Entwickelt für komplexe Aufgaben, die einen breiten Kontext und eine hohe Präzision beim logischen Denken erfordern.
- ●
Eine optimierte Architektur für schnellere Inferenz und einen geringeren Energieverbrauch, wodurch erhebliche Rechenressourcen freigesetzt werden.
- ●
Auf Millionen von Agenten und Aufgaben mit steigendem Schwierigkeitsgrad trainiert, um eine robuste Anpassungsfähigkeit an die reale Welt zu gewährleisten.
Modalität
Image-Text to Text
Max. Token-Input
200’000
Sprachen
100+ Sprachen
Funktionsaufruf
Ja
Kategorie der Vorlage
chat_large
- ●
Entwickelt für komplexe Aufgaben, die einen breiten Kontext und eine hohe Präzision beim logischen Denken erfordern.
- ●
Eine optimierte Architektur für schnellere Inferenz und einen geringeren Energieverbrauch, wodurch erhebliche Rechenressourcen freigesetzt werden.
- ●
Auf Millionen von Agenten und Aufgaben mit steigendem Schwierigkeitsgrad trainiert, um eine robuste Anpassungsfähigkeit an die reale Welt zu gewährleisten.
Modalität
Image-Text to Text
Max. Token-Input
200’000
Sprachen
100+ Sprachen
Funktionsaufruf
Ja
Kategorie der Vorlage
chat_large
Apertus-70B-Instruct-2509
Am ethischsten
Beta
- ●
Ideal für mehrsprachige Abteilungen, Behörden und FuE-Teams, die ein zuverlässiges und anpassungsfähiges Modell benötigen
- ●
Dokumentierte Daten und Methoden für bislang einmalige Transparenz
- ●
Entspricht dem AI Act und achtet die Privatsphäre und geistiges Eigentum
- ●
Eine 70B-Variante mit einer Leistung, die mit den aktuellen Marktführern vergleichbar ist
Modalität
Text to Text
Max. Token-Input
65’536
Sprachen
100+ Sprachen
Funktionsaufruf
Nein
Kategorie der Vorlage
chat_medium
- ●
Ideal für mehrsprachige Abteilungen, Behörden und FuE-Teams, die ein zuverlässiges und anpassungsfähiges Modell benötigen
- ●
Dokumentierte Daten und Methoden für bislang einmalige Transparenz
- ●
Entspricht dem AI Act und achtet die Privatsphäre und geistiges Eigentum
- ●
Eine 70B-Variante mit einer Leistung, die mit den aktuellen Marktführern vergleichbar ist
Modalität
Text to Text
Max. Token-Input
65’536
Sprachen
100+ Sprachen
Funktionsaufruf
Nein
Kategorie der Vorlage
chat_medium
google/gemma-4-31B-it
Die perfekte Balance
Beta
- ●
Der ideale Kompromiss zwischen Reaktionsgeschwindigkeit und Leistungsstärke, entwickelt für herausragende Leistungen bei logischen Schlussfolgerungen, gründlicher Dokumentenanalyse und der Erstellung zuverlässigen Codes.
- ●
Nutzt eine hochmoderne Architektur, um ein differenziertes Verständnis für umfangreiche Kontexte und komplexe Anweisungen zu ermöglichen.
- ●
Ideal für komplexe Chatbots und Unternehmensworkflows, die eine hohe Flexibilität erfordern, ohne dabei an Ausführungsgeschwindigkeit einzubüßen.
Modalität
Text-zu-Text (für den Unterricht optimiert)
Max. Token-Input
100’000
Sprachen
140+ Sprachen
Funktionsaufruf
Ja (nativ und optimiert)
Kategorie der Vorlage
chat_medium
- ●
Der ideale Kompromiss zwischen Reaktionsgeschwindigkeit und Leistungsstärke, entwickelt für herausragende Leistungen bei logischen Schlussfolgerungen, gründlicher Dokumentenanalyse und der Erstellung zuverlässigen Codes.
- ●
Nutzt eine hochmoderne Architektur, um ein differenziertes Verständnis für umfangreiche Kontexte und komplexe Anweisungen zu ermöglichen.
- ●
Ideal für komplexe Chatbots und Unternehmensworkflows, die eine hohe Flexibilität erfordern, ohne dabei an Ausführungsgeschwindigkeit einzubüßen.
Modalität
Text-zu-Text (für den Unterricht optimiert)
Max. Token-Input
100’000
Sprachen
140+ Sprachen
Funktionsaufruf
Ja (nativ und optimiert)
Kategorie der Vorlage
chat_medium
moonshotai/Kimi-K2.6
Am leistungsstärksten für Vibe-Coding
Beta
- ●
Native Multimodalität: Wandelt Text, Bilder oder Modelle in voll funktionsfähigen Code um.
- ●
Konzipiert für gross angelegte Entwicklungen: Umfasst ein erweitertes Kontextfenster mit bis zu 256k Tokens zur Verwaltung komplexer Projekte
- ●
Optimiert für Vibe-Coding: schnell, flüssig und kreativ – konzipiert für Entwickler und Produktdesigner
- ●
Kompatibel mit agentenbasierten Workflows: Automatisiert die Analyse, die Codegenerierung und die End-to-End-Ausführung
Modalität
Image-Text to Text
Max. Token-Input
256’000
Sprachen
Mehrsprachig
Funktionsaufruf
Ja
Kategorie der Vorlage
code
- ●
Native Multimodalität: Wandelt Text, Bilder oder Modelle in voll funktionsfähigen Code um.
- ●
Konzipiert für gross angelegte Entwicklungen: Umfasst ein erweitertes Kontextfenster mit bis zu 256k Tokens zur Verwaltung komplexer Projekte
- ●
Optimiert für Vibe-Coding: schnell, flüssig und kreativ – konzipiert für Entwickler und Produktdesigner
- ●
Kompatibel mit agentenbasierten Workflows: Automatisiert die Analyse, die Codegenerierung und die End-to-End-Ausführung
Modalität
Image-Text to Text
Max. Token-Input
256’000
Sprachen
Mehrsprachig
Funktionsaufruf
Ja
Kategorie der Vorlage
code
mistralai/Ministral-3-14B-Instruct-2512
Der Allrounder
Beta
- ●
Optimiert für eine schnelle und kostengünstige Bereitstellung, ideal für Chatbots, Dokumentenanalyse und spezielle Aufgaben.
- ●
Bietet eine Leistung, die mit der des Mistral Small 3.2 24B vergleichbar ist, und das bei minimalem Aufwand.
- ●
Kann Bilder analysieren und neben Text auch Informationen auf der Grundlage des Bildinhalts liefern.
Modalität
Image-Text to Text
Max. Token-Input
100’000
Sprachen
EN, ES, FR, DE, IT...
Funktionsaufruf
Ja
Kategorie der Vorlage
chat_small
- ●
Optimiert für eine schnelle und kostengünstige Bereitstellung, ideal für Chatbots, Dokumentenanalyse und spezielle Aufgaben.
- ●
Bietet eine Leistung, die mit der des Mistral Small 3.2 24B vergleichbar ist, und das bei minimalem Aufwand.
- ●
Kann Bilder analysieren und neben Text auch Informationen auf der Grundlage des Bildinhalts liefern.
Modalität
Image-Text to Text
Max. Token-Input
100’000
Sprachen
EN, ES, FR, DE, IT...
Funktionsaufruf
Ja
Kategorie der Vorlage
chat_small
Modelle zur Neubewertung
Die besten kompatiblen Open-Source-Alternativen zur Optimierung der Relevanz Ihrer Suchergebnisse. Verfeinern Sie die Rangfolge Ihrer Dokumente, verbessern Sie die Genauigkeit Ihrer RAG-Systeme und sorgen Sie für eine intelligentere und kontextbezogene Informationsgewinnung.
BAAI/bge-reranker-v2-m3
Der Allrounder
- ●
Ein mehrsprachiges Expert-Modell, das gleichzeitig kurze Anfragen, Absätze und lange Dokumente mit einer Länge von bis zu 8192 Tokens verarbeiten kann
- ●
Kombiniert lexikalische (Schlüsselwörter) und semantische (Bedeutung) Analyse für eine unübertroffene Klassifizierungsgenauigkeit bei komplexen Korpora
- ●
Ideale Lösung für Unternehmenssuchmaschinen und RAG-Anwendungen, die ein tiefgreifendes Verständnis des Kontexts erfordern
Modalität
Text to Text
Max. Token-Input
8192
Sprachen
Über 100 Sprachen
Funktionsaufruf
Nein
Typ
Rang
- ●
Ein mehrsprachiges Expert-Modell, das gleichzeitig kurze Anfragen, Absätze und lange Dokumente mit einer Länge von bis zu 8192 Tokens verarbeiten kann
- ●
Kombiniert lexikalische (Schlüsselwörter) und semantische (Bedeutung) Analyse für eine unübertroffene Klassifizierungsgenauigkeit bei komplexen Korpora
- ●
Ideale Lösung für Unternehmenssuchmaschinen und RAG-Anwendungen, die ein tiefgreifendes Verständnis des Kontexts erfordern
Modalität
Text to Text
Max. Token-Input
8192
Sprachen
Über 100 Sprachen
Funktionsaufruf
Nein
Typ
Rang
Qwen/Qwen3-Reranker-0.6B
Am effektivsten
- ●
Ultraleichte Architektur (0,6 Milliarden Parameter), entwickelt für Inferenz mit extrem geringer Latenz und minimalem Energieverbrauch
- ●
Behält eine hohe Relevanzgenauigkeit bei, selbst bei einem Kontextfenster von bis zu 32768 Tokens
- ●
Ideal für Echtzeit-Datenströme, autonome Agenten und groß angelegte Bereitstellungen
Modalität
Text to Text
Max. Token-Input
32768
Sprachen
Über 100 Sprachen
Funktionsaufruf
Nein
Typ
Rang
- ●
Ultraleichte Architektur (0,6 Milliarden Parameter), entwickelt für Inferenz mit extrem geringer Latenz und minimalem Energieverbrauch
- ●
Behält eine hohe Relevanzgenauigkeit bei, selbst bei einem Kontextfenster von bis zu 32768 Tokens
- ●
Ideal für Echtzeit-Datenströme, autonome Agenten und groß angelegte Bereitstellungen
Modalität
Text to Text
Max. Token-Input
32768
Sprachen
Über 100 Sprachen
Funktionsaufruf
Nein
Typ
Rang
Einbettungsmodelle
Die besten Open-Source-Einbettungsmodelle, um Ihre Daten in intelligente Vektoren zu verwandeln. Verbessern Sie die Genauigkeit Ihrer Suche, passen Sie Ihre Empfehlungen individuell an, vereinfachen Sie die Datenanalyse, loten Sie semantische Links aus und klassifizieren Sie Text auf einfache Weise.
Bge Multilingual Gemma2
Der / die / das hochwertigste
- ●
Das leistungsstärkste Open-Source-Einbettungsmodell des Marktes
- ●
Der Massstab für semantische Suchaufgaben und Augmented Search (ASS)
- ●
Ideal für die fortgeschrittene Nutzung von Einbettungsvektoren in verschiedenen Anwendungsfällen
- ●
Aussergewöhnliche Leistung unabhängig von der Sprache des Textes (100+ Sprachen)
Max. Token-Input
8192
Einstellungen
9.2 B
Abmessungen
3584
Sprachen
EN, ES, FR, DE, IT...
Typ
Text
- ●
Das leistungsstärkste Open-Source-Einbettungsmodell des Marktes
- ●
Der Massstab für semantische Suchaufgaben und Augmented Search (ASS)
- ●
Ideal für die fortgeschrittene Nutzung von Einbettungsvektoren in verschiedenen Anwendungsfällen
- ●
Aussergewöhnliche Leistung unabhängig von der Sprache des Textes (100+ Sprachen)
Max. Token-Input
8192
Einstellungen
9.2 B
Abmessungen
3584
Sprachen
EN, ES, FR, DE, IT...
Typ
Text
All MiniLM L12 v2
Das beste Preis-Leistungs-Verhältnis
- ●
Dieses Modell ist das Ergebnis einer Gemeinschaftsarbeit auf Grundlage eines von Microsoft veröffentlichten Modells
- ●
Hervorragendes Preis-Leistungs-Verhältnis: ideal für die Erstellung von Prototypen und einfache Aufgaben mit begrenzten Ressourcen
- ●
Interessante Leistung für vergleichsweise einfache Aufgaben unabhängig von der Sprache des Textes
- ●
Extreme Geschwindigkeit zur Indizierung riesiger Datenbanken oder Echtzeitverarbeitung
- ●
Hohe Energieeffizienz zur Verringerung der Umweltauswirkungen
Max. Token-Input
512
Einstellungen
33 M
Abmessungen
384
Sprachen
EN, ES, FR, DE, IT...
Typ
Text
- ●
Dieses Modell ist das Ergebnis einer Gemeinschaftsarbeit auf Grundlage eines von Microsoft veröffentlichten Modells
- ●
Hervorragendes Preis-Leistungs-Verhältnis: ideal für die Erstellung von Prototypen und einfache Aufgaben mit begrenzten Ressourcen
- ●
Interessante Leistung für vergleichsweise einfache Aufgaben unabhängig von der Sprache des Textes
- ●
Extreme Geschwindigkeit zur Indizierung riesiger Datenbanken oder Echtzeitverarbeitung
- ●
Hohe Energieeffizienz zur Verringerung der Umweltauswirkungen
Max. Token-Input
512
Einstellungen
33 M
Abmessungen
384
Sprachen
EN, ES, FR, DE, IT...
Typ
Text
Spracherkennung
Die besten Open-Source-KIs, um Audiodateien in Text umzuwandeln oder realistische menschliche Stimmen zu erzeugen.
Whisper V3
Für komplexe Transkriptionen
- ●
Auf über 1 Million Stunden an Daten basierendes Modell
- ●
Bis zu 20% weniger Transkriptionsfehler im Vergleich zu Whisper V2
- ●
Bessere Bewältigung von Akzenten, Hintergrundgeräuschen und komplexer Ausdrucksweise (z. B. bei Anrufen oder Videokonferenzen)
- ●
Verbesserte mehrsprachige Unterstützung und Übersetzung von Transkriptionen in andere Sprachen als Englisch
Maximale Dateigrösse
25 MB
Unterstützte Formate
mp3, mp4, aac, wav, flac, ogg, opus, wma, m4a
- ●
Auf über 1 Million Stunden an Daten basierendes Modell
- ●
Bis zu 20% weniger Transkriptionsfehler im Vergleich zu Whisper V2
- ●
Bessere Bewältigung von Akzenten, Hintergrundgeräuschen und komplexer Ausdrucksweise (z. B. bei Anrufen oder Videokonferenzen)
- ●
Verbesserte mehrsprachige Unterstützung und Übersetzung von Transkriptionen in andere Sprachen als Englisch
Maximale Dateigrösse
25 MB
Unterstützte Formate
mp3, mp4, aac, wav, flac, ogg, opus, wma, m4a
Bildgenerierung und -bearbeitung
Die besten Open-Source-Alternativen zu Midjourney, Microsoft Copilot Designer oder Gemini, um Bilder zu generieren, zusammenzuführen oder zu interpretieren.
Photomaker V2
Ideal für Bildgenerierung
- ●
Die beste Kombination aus Qualität und Geschwindigkeit bei der Bildgenerierung durch eine generative KI
- ●
Schnelle Generierung fotorealistischer Bilder aus Prompts in 1, 2, 4 oder 8 Schritten
- ●
Funktioniert durch Destillation, was die Energieeffizienz erhöht und hervorragende Qualität garantiert
- ●
Optimiert für Englisch, mit begrenzten Kenntnissen in anderen Sprachen (FR, DE, ES, IT usw.)
Max. Token-Input
77
Max. Bild-Output
5
Sprachen
EN
Maximale Auflösung
1024x1024, 1792x1024, 1024x1792
- ●
Die beste Kombination aus Qualität und Geschwindigkeit bei der Bildgenerierung durch eine generative KI
- ●
Schnelle Generierung fotorealistischer Bilder aus Prompts in 1, 2, 4 oder 8 Schritten
- ●
Funktioniert durch Destillation, was die Energieeffizienz erhöht und hervorragende Qualität garantiert
- ●
Optimiert für Englisch, mit begrenzten Kenntnissen in anderen Sprachen (FR, DE, ES, IT usw.)
Max. Token-Input
77
Max. Bild-Output
5
Sprachen
EN
Maximale Auflösung
1024x1024, 1792x1024, 1024x1792
Flux schnell
Ideal zum Bearbeiten und Zusammenführen von Personenporträts
- ●
Erstellen von Fotos in mehreren Stilen aus einem oder mehreren Profilfotos
- ●
Leistungsstark und flexibel: Rekontextualisierung, Kolorierung, Alters- und Geschlechtswechsel, Mischung von Identitäten usw.
Max. Token-Input
77
Max. Bild-Input
6
Max. Bild-Output
5
Sprachen
EN
Maximale Auflösung
1024x1024, 1792x1024, 1024x1792
- ●
Erstellen von Fotos in mehreren Stilen aus einem oder mehreren Profilfotos
- ●
Leistungsstark und flexibel: Rekontextualisierung, Kolorierung, Alters- und Geschlechtswechsel, Mischung von Identitäten usw.
Max. Token-Input
77
Max. Bild-Input
6
Max. Bild-Output
5
Sprachen
EN
Maximale Auflösung
1024x1024, 1792x1024, 1024x1792


