#1
Qwen3-Embedding-8B
Alibaba EU-Fit hoch Self-Host Apache 2.0 8B
Top-Tier mehrsprachige RAG + Code-Retrieval auf EU-GPU mit Budget für 8B-Inferenz.
Aktuell stärkstes Open-Source-Embedding-Modell (MTEB Multilingual 70,58, MTEB-Code Top-1). 100+ Sprachen, 32K-Kontext, MRL 32–4096 Dims für Storage-Tradeoffs. Best Choice für RAG-Pipelines mit hohem Qualitätsanspruch und vorhandenem GPU-Budget; Apache-2.0-Lizenz erlaubt unbeschränkte kommerzielle Nutzung trotz CN-Origin, weil Inferenz vollständig in eigener EU-Infrastruktur läuft.
- Dims:
- 4096 Dim (MRL 32–4096)
- Kontext:
- 32.768 Tokens
- Sprachen:
- 100+ (inkl. DE, Code)
- MTEB:
- Multi 70.58 · Code 70
CN-Origin (Alibaba), aber Apache-2.0-lizenziert — Inferenz läuft vollständig auf eigener EU-GPU, keine Provider-Telemetrie.
Stärken
- + MTEB Multilingual #1 (70,58) — schlägt OpenAI & Cohere API-Modelle
- + Apache 2.0 — kommerziell unbeschränkt, Self-Host auf EU-GPU
- + 32K-Kontext + MRL (32–4096 Dims) für flexible Vektor-Datenbanken
Limitierungen
- − 8B Parameter → ~16 GB VRAM für FP16-Inferenz
- − CN-Origin (Alibaba) — Supply-Chain-Audit der HF-Artefakte ratsam
- − Höherer TCO als 568M-Modelle bei hohem Indexierungsvolumen
EU-Fit hoch Self-Host MIT 568M
DACH-Multilingual-RAG mit nativem Hybrid Dense+Sparse Retrieval auf knapper GPU.
Multilinguales Embedding-Workhorse (568M Parameter, MIT-lizenziert) auf einer einzelnen L4/A10 GPU. Einzigartig: nativer Hybrid-Modus (Dense + Sparse + Multi-Vector) in einem Forward-Pass, ideal wenn Recall in juristischen oder industriellen Dokumenten-Korpora maximiert werden muss. 8K-Kontext, 100+ Sprachen mit starker DE-Performance. Erste Wahl für DACH-RAG auf knappem GPU-Budget.
- Dims:
- 1024 Dim
- Kontext:
- 8.192 Tokens
- Sprachen:
- 100+
- MTEB:
- Multi 68
CN-Origin (BAAI Peking), MIT-lizenziert — Inferenz auf eigener EU-GPU, weltweit am breitesten in OSS-Vektor-DBs unterstützt.
Stärken
- + Hybrid Dense + Sparse + Multi-Vector in einem Forward-Pass
- + MIT-Lizenz + 568M Parameter → läuft auf einzelner L4/A10
- + 8K Kontext, 100+ Sprachen, starke DE-Performance
Limitierungen
- − Kein MRL — fixe 1024-Dim-Vektoren
- − CN-Origin (BAAI Peking) — Supply-Chain-Audit der HF-Artefakte ratsam
- − Hybrid braucht Vektor-DB-Support (Milvus, Vespa, Qdrant)
#3
Gemini Embedding 2
Google EU-Fit mittel API proprietär (API) API
Multimodale RAG-Pipelines (PDF/Bild/Audio in einem Vektorraum) ohne Self-Host-Aufwand.
Googles erstes natively multimodales Embedding (text/image/video/audio/PDF in einem 3072-dim Vektorraum), MRL bis 128 Dims runter. MTEB Multilingual 69,9 (Top-API). Preview-API gemini-embedding-2-preview über Vertex AI EU-Region verfügbar, $0.20/Mtok. Best Choice wenn RAG-Quellen heterogen sind (PDFs mit Diagrammen, Audio-Memos) und Self-Host-Komplexität vermieden werden soll.
- Dims:
- 3072 Dim (MRL 128–3072)
- Kontext:
- 8.192 Tokens
- Sprachen:
- 100+ (im MTEB-Benchmark über 250+ Sprachen evaluiert)
- MTEB:
- Multi 69.9 · Code 84
- Preis:
- ~€0.180 / Mtok
US-Provider; EU-Endpoint über Vertex AI (europe-west1/3/4) verfügbar, Standard-Vertex-DPA gilt.
Stärken
- + Erstes natively multimodales Embedding (Text/Bild/Video/Audio/PDF)
- + MTEB Multilingual #1 unter APIs (69,9) + MTEB-Code 84,0
- + Matryoshka Representation Learning — 128 → 3072 Dims ohne Re-Embed
Limitierungen
- − Preview-Status (gemini-embedding-2-preview) — GA-Migration kann Re-Embed erfordern
- − US-Provider; Vertex-EU-DPA als rechtliche Grundlage nötig
- − $0.20/Mtok — höher als Mistral Embed ($0.10) oder Self-Host
#4
Mistral Embed
Mistral AI EU-Fit hoch API proprietär (API) API
EU-souveräne, schlanke RAG-API mit DSGVO-konformer Datenresidenz für DACH-Behörden und Mittelstand.
mistral-embed-2312 ist Mistrals EU-native (Paris) Embedding-API, 1024 Dim, 8K-Kontext, $0.10/Mtok. MTEB moderat (~55–58), keine 2026er-Refresh-Iteration. Trotzdem die richtige Wahl wenn (a) Datenresidenz in der EU vertraglich gesetzt sein muss, (b) Self-Host-Stack nicht aufgebaut werden kann, (c) RAG-Qualität auf Mittelmaß ausreicht (z. B. interne Wissensbasen ohne Long-Tail-Recall-Anforderung).
- Dims:
- 1024 Dim
- Kontext:
- 8.192 Tokens
- Sprachen:
- DE/EN/FR/ES/IT (Mistral-Trainings-Sprachen)
- MTEB:
- Multi 57
- Preis:
- ~€0.092 / Mtok
EU-native (Paris, Frankreich) — DSGVO direkt, keine US-Mutter, kein CLOUD-Act.
Stärken
- + EU-native (FR), keine CLOUD-Act-Exposition
- + $0.10/Mtok — günstigste API-Option in dieser Liste
- + Stabiler Production-Endpoint seit Ende 2023
Limitierungen
- − MTEB-Score deutlich unter Qwen3/BGE-M3/Gemini (~57 vs 68-70)
- − Modell von Ende 2023, keine 2026er-Iteration angekündigt
- − Kein MRL — fixe 1024-Dim-Vektoren
#5
mxbai-embed-large
Mixedbread AI EU-Fit hoch Self-Host Apache 2.0 335M
EU-native (Berlin) Self-Host für englisch-lastige RAG mit binärer Quantisierung (32× Storage-Reduktion).
Mixedbread AI (Berlin), Apache 2.0, 335M Parameter, MRL + binäre Quantisierung (32× Storage-Reduktion mit ~1–3 Punkten Recall-Verlust). Primär englisch trainiert — kein DE-MTEB-Champion, dafür EU-native Konzernstruktur, single-GPU-fähig, quantisierungsfreundlich für Cold-Storage-RAG. Best Choice für englischsprachige Codebases / Dokumentations-Suchen wenn EU-Sovereignty über Multilingualität dominiert.
- Dims:
- 1024 Dim (MRL 256–1024)
- Kontext:
- 512 Tokens
- Sprachen:
- primär EN (begrenzte DE/Multilingual-Qualität)
- MTEB:
- EN 64.7
EU-native (Mixedbread AI, Berlin) — Apache 2.0, vollständig Self-Host-fähig auf EU-GPU.
Stärken
- + EU-native (Berlin) + Apache 2.0 — saubere Sovereignty-Story
- + Binäre Quantisierung: 32× Storage-Reduktion bei ~1-3 Punkten Recall-Verlust
- + 335M Parameter → läuft auf einer einzelnen L4/A10 GPU
Limitierungen
- − Primär englisch — schwache DE/Multilingual-Performance
- − Kurzer Kontext (512 Tokens) — Chunking-Strategie wird zur Pflicht
- − MTEB-Score ~64.7 EN — unter Qwen3 und Gemini Embedding 2