RAG Embedding Modelle

Kuratierte Top-5 Embedding-Modelle für Retrieval-Augmented Generation — mit konkreter RAG-Empfehlung je Modell, MTEB-Scores, Lizenz, EU-Fit und Hosting-Variante. Auswahl-Kriterien: EU-Sovereignty, permissive Lizenz für kommerzielle RAG, DE/Multilingual-MTEB-Performance.

Stand: 14. Juni 2026 · Basis: MTEB Multilingual, MTEB-Code, Provider-Dokumentation, Hugging Face Hub-Statistiken, interner EU-Deep-Research-Report

Qwen3-Embedding-8B

Alibaba

EU-Fit hoch Self-Host Apache 2.0 8B

Top-Tier mehrsprachige RAG + Code-Retrieval auf EU-GPU mit Budget für 8B-Inferenz.

Aktuell stärkstes Open-Source-Embedding-Modell (MTEB Multilingual 70,58, MTEB-Code Top-1). 100+ Sprachen, 32K-Kontext, MRL 32–4096 Dims für Storage-Tradeoffs. Best Choice für RAG-Pipelines mit hohem Qualitätsanspruch und vorhandenem GPU-Budget; Apache-2.0-Lizenz erlaubt unbeschränkte kommerzielle Nutzung trotz CN-Origin, weil Inferenz vollständig in eigener EU-Infrastruktur läuft.

Dims:: 4096 Dim (MRL 32–4096)
Kontext:: 32.768 Tokens
Sprachen:: 100+ (inkl. DE, Code)
MTEB:: Multi 70.58 · Code 70

CN-Origin (Alibaba), aber Apache-2.0-lizenziert — Inferenz läuft vollständig auf eigener EU-GPU, keine Provider-Telemetrie.

Stärken

+ MTEB Multilingual #1 (70,58) — schlägt OpenAI & Cohere API-Modelle
+ Apache 2.0 — kommerziell unbeschränkt, Self-Host auf EU-GPU
+ 32K-Kontext + MRL (32–4096 Dims) für flexible Vektor-Datenbanken

Limitierungen

− 8B Parameter → ~16 GB VRAM für FP16-Inferenz
− CN-Origin (Alibaba) — Supply-Chain-Audit der HF-Artefakte ratsam
− Höherer TCO als 568M-Modelle bei hohem Indexierungsvolumen

BGE-M3

BAAI

EU-Fit hoch Self-Host MIT 568M

DACH-Multilingual-RAG mit nativem Hybrid Dense+Sparse Retrieval auf knapper GPU.

Multilinguales Embedding-Workhorse (568M Parameter, MIT-lizenziert) auf einer einzelnen L4/A10 GPU. Einzigartig: nativer Hybrid-Modus (Dense + Sparse + Multi-Vector) in einem Forward-Pass, ideal wenn Recall in juristischen oder industriellen Dokumenten-Korpora maximiert werden muss. 8K-Kontext, 100+ Sprachen mit starker DE-Performance. Erste Wahl für DACH-RAG auf knappem GPU-Budget.

Dims:: 1024 Dim
Kontext:: 8.192 Tokens
Sprachen:: 100+
MTEB:: Multi 68

CN-Origin (BAAI Peking), MIT-lizenziert — Inferenz auf eigener EU-GPU, weltweit am breitesten in OSS-Vektor-DBs unterstützt.

Stärken

+ Hybrid Dense + Sparse + Multi-Vector in einem Forward-Pass
+ MIT-Lizenz + 568M Parameter → läuft auf einzelner L4/A10
+ 8K Kontext, 100+ Sprachen, starke DE-Performance

Limitierungen

− Kein MRL — fixe 1024-Dim-Vektoren
− CN-Origin (BAAI Peking) — Supply-Chain-Audit der HF-Artefakte ratsam
− Hybrid braucht Vektor-DB-Support (Milvus, Vespa, Qdrant)

Gemini Embedding 2

Google

EU-Fit mittel API proprietär (API) API

Multimodale RAG-Pipelines (PDF/Bild/Audio in einem Vektorraum) ohne Self-Host-Aufwand.

Googles erstes natively multimodales Embedding (text/image/video/audio/PDF in einem 3072-dim Vektorraum), MRL bis 128 Dims runter. MTEB Multilingual 69,9 (Top-API). Preview-API gemini-embedding-2-preview über Vertex AI EU-Region verfügbar, $0.20/Mtok. Best Choice wenn RAG-Quellen heterogen sind (PDFs mit Diagrammen, Audio-Memos) und Self-Host-Komplexität vermieden werden soll.

Dims:: 3072 Dim (MRL 128–3072)
Kontext:: 8.192 Tokens
Sprachen:: 100+ (im MTEB-Benchmark über 250+ Sprachen evaluiert)
MTEB:: Multi 69.9 · Code 84
Preis:: ~€0.180 / Mtok

US-Provider; EU-Endpoint über Vertex AI (europe-west1/3/4) verfügbar, Standard-Vertex-DPA gilt.

Stärken

+ Erstes natively multimodales Embedding (Text/Bild/Video/Audio/PDF)
+ MTEB Multilingual #1 unter APIs (69,9) + MTEB-Code 84,0
+ Matryoshka Representation Learning — 128 → 3072 Dims ohne Re-Embed

Limitierungen

− Preview-Status (gemini-embedding-2-preview) — GA-Migration kann Re-Embed erfordern
− US-Provider; Vertex-EU-DPA als rechtliche Grundlage nötig
− $0.20/Mtok — höher als Mistral Embed ($0.10) oder Self-Host

Mistral Embed

Mistral AI

EU-Fit hoch API proprietär (API) API

EU-souveräne, schlanke RAG-API mit DSGVO-konformer Datenresidenz für DACH-Behörden und Mittelstand.

mistral-embed-2312 ist Mistrals EU-native (Paris) Embedding-API, 1024 Dim, 8K-Kontext, $0.10/Mtok. MTEB moderat (~55–58), keine 2026er-Refresh-Iteration. Trotzdem die richtige Wahl wenn (a) Datenresidenz in der EU vertraglich gesetzt sein muss, (b) Self-Host-Stack nicht aufgebaut werden kann, (c) RAG-Qualität auf Mittelmaß ausreicht (z. B. interne Wissensbasen ohne Long-Tail-Recall-Anforderung).

Dims:: 1024 Dim
Kontext:: 8.192 Tokens
Sprachen:: DE/EN/FR/ES/IT (Mistral-Trainings-Sprachen)
MTEB:: Multi 57
Preis:: ~€0.092 / Mtok

EU-native (Paris, Frankreich) — DSGVO direkt, keine US-Mutter, kein CLOUD-Act.

Stärken

+ EU-native (FR), keine CLOUD-Act-Exposition
+ $0.10/Mtok — günstigste API-Option in dieser Liste
+ Stabiler Production-Endpoint seit Ende 2023

Limitierungen

− MTEB-Score deutlich unter Qwen3/BGE-M3/Gemini (~57 vs 68-70)
− Modell von Ende 2023, keine 2026er-Iteration angekündigt
− Kein MRL — fixe 1024-Dim-Vektoren

mxbai-embed-large

Mixedbread AI

EU-Fit hoch Self-Host Apache 2.0 335M

EU-native (Berlin) Self-Host für englisch-lastige RAG mit binärer Quantisierung (32× Storage-Reduktion).

Mixedbread AI (Berlin), Apache 2.0, 335M Parameter, MRL + binäre Quantisierung (32× Storage-Reduktion mit ~1–3 Punkten Recall-Verlust). Primär englisch trainiert — kein DE-MTEB-Champion, dafür EU-native Konzernstruktur, single-GPU-fähig, quantisierungsfreundlich für Cold-Storage-RAG. Best Choice für englischsprachige Codebases / Dokumentations-Suchen wenn EU-Sovereignty über Multilingualität dominiert.

Dims:: 1024 Dim (MRL 256–1024)
Kontext:: 512 Tokens
Sprachen:: primär EN (begrenzte DE/Multilingual-Qualität)
MTEB:: EN 64.7

EU-native (Mixedbread AI, Berlin) — Apache 2.0, vollständig Self-Host-fähig auf EU-GPU.

Stärken

+ EU-native (Berlin) + Apache 2.0 — saubere Sovereignty-Story
+ Binäre Quantisierung: 32× Storage-Reduktion bei ~1-3 Punkten Recall-Verlust
+ 335M Parameter → läuft auf einer einzelnen L4/A10 GPU

Limitierungen

− Primär englisch — schwache DE/Multilingual-Performance
− Kurzer Kontext (512 Tokens) — Chunking-Strategie wird zur Pflicht
− MTEB-Score ~64.7 EN — unter Qwen3 und Gemini Embedding 2