← Start

RAG Embedding Modelle

Kuratierte Top-5 Embedding-Modelle für Retrieval-Augmented Generation — mit konkreter RAG-Empfehlung je Modell, MTEB-Scores, Lizenz, EU-Fit und Hosting-Variante. Auswahl-Kriterien: EU-Sovereignty, permissive Lizenz für kommerzielle RAG, DE/Multilingual-MTEB-Performance.

Stand: 14. Juni 2026 · Basis: MTEB Multilingual, MTEB-Code, Provider-Dokumentation, Hugging Face Hub-Statistiken, interner EU-Deep-Research-Report

#1

Qwen3-Embedding-8B

Alibaba
EU-Fit hoch Self-Host Apache 2.0 8B

Top-Tier mehrsprachige RAG + Code-Retrieval auf EU-GPU mit Budget für 8B-Inferenz.

Aktuell stärkstes Open-Source-Embedding-Modell (MTEB Multilingual 70,58, MTEB-Code Top-1). 100+ Sprachen, 32K-Kontext, MRL 32–4096 Dims für Storage-Tradeoffs. Best Choice für RAG-Pipelines mit hohem Qualitätsanspruch und vorhandenem GPU-Budget; Apache-2.0-Lizenz erlaubt unbeschränkte kommerzielle Nutzung trotz CN-Origin, weil Inferenz vollständig in eigener EU-Infrastruktur läuft.

Dims:
4096 Dim (MRL 32–4096)
Kontext:
32.768 Tokens
Sprachen:
100+ (inkl. DE, Code)
MTEB:
Multi 70.58 · Code 70

CN-Origin (Alibaba), aber Apache-2.0-lizenziert — Inferenz läuft vollständig auf eigener EU-GPU, keine Provider-Telemetrie.

Stärken

  • + MTEB Multilingual #1 (70,58) — schlägt OpenAI & Cohere API-Modelle
  • + Apache 2.0 — kommerziell unbeschränkt, Self-Host auf EU-GPU
  • + 32K-Kontext + MRL (32–4096 Dims) für flexible Vektor-Datenbanken

Limitierungen

  • − 8B Parameter → ~16 GB VRAM für FP16-Inferenz
  • − CN-Origin (Alibaba) — Supply-Chain-Audit der HF-Artefakte ratsam
  • − Höherer TCO als 568M-Modelle bei hohem Indexierungsvolumen
#2

BGE-M3

BAAI
EU-Fit hoch Self-Host MIT 568M

DACH-Multilingual-RAG mit nativem Hybrid Dense+Sparse Retrieval auf knapper GPU.

Multilinguales Embedding-Workhorse (568M Parameter, MIT-lizenziert) auf einer einzelnen L4/A10 GPU. Einzigartig: nativer Hybrid-Modus (Dense + Sparse + Multi-Vector) in einem Forward-Pass, ideal wenn Recall in juristischen oder industriellen Dokumenten-Korpora maximiert werden muss. 8K-Kontext, 100+ Sprachen mit starker DE-Performance. Erste Wahl für DACH-RAG auf knappem GPU-Budget.

Dims:
1024 Dim
Kontext:
8.192 Tokens
Sprachen:
100+
MTEB:
Multi 68

CN-Origin (BAAI Peking), MIT-lizenziert — Inferenz auf eigener EU-GPU, weltweit am breitesten in OSS-Vektor-DBs unterstützt.

Stärken

  • + Hybrid Dense + Sparse + Multi-Vector in einem Forward-Pass
  • + MIT-Lizenz + 568M Parameter → läuft auf einzelner L4/A10
  • + 8K Kontext, 100+ Sprachen, starke DE-Performance

Limitierungen

  • − Kein MRL — fixe 1024-Dim-Vektoren
  • − CN-Origin (BAAI Peking) — Supply-Chain-Audit der HF-Artefakte ratsam
  • − Hybrid braucht Vektor-DB-Support (Milvus, Vespa, Qdrant)
#3

Gemini Embedding 2

Google
EU-Fit mittel API proprietär (API) API

Multimodale RAG-Pipelines (PDF/Bild/Audio in einem Vektorraum) ohne Self-Host-Aufwand.

Googles erstes natively multimodales Embedding (text/image/video/audio/PDF in einem 3072-dim Vektorraum), MRL bis 128 Dims runter. MTEB Multilingual 69,9 (Top-API). Preview-API gemini-embedding-2-preview über Vertex AI EU-Region verfügbar, $0.20/Mtok. Best Choice wenn RAG-Quellen heterogen sind (PDFs mit Diagrammen, Audio-Memos) und Self-Host-Komplexität vermieden werden soll.

Dims:
3072 Dim (MRL 128–3072)
Kontext:
8.192 Tokens
Sprachen:
100+ (im MTEB-Benchmark über 250+ Sprachen evaluiert)
MTEB:
Multi 69.9 · Code 84
Preis:
~€0.180 / Mtok

US-Provider; EU-Endpoint über Vertex AI (europe-west1/3/4) verfügbar, Standard-Vertex-DPA gilt.

Stärken

  • + Erstes natively multimodales Embedding (Text/Bild/Video/Audio/PDF)
  • + MTEB Multilingual #1 unter APIs (69,9) + MTEB-Code 84,0
  • + Matryoshka Representation Learning — 128 → 3072 Dims ohne Re-Embed

Limitierungen

  • − Preview-Status (gemini-embedding-2-preview) — GA-Migration kann Re-Embed erfordern
  • − US-Provider; Vertex-EU-DPA als rechtliche Grundlage nötig
  • − $0.20/Mtok — höher als Mistral Embed ($0.10) oder Self-Host
#4

Mistral Embed

Mistral AI
EU-Fit hoch API proprietär (API) API

EU-souveräne, schlanke RAG-API mit DSGVO-konformer Datenresidenz für DACH-Behörden und Mittelstand.

mistral-embed-2312 ist Mistrals EU-native (Paris) Embedding-API, 1024 Dim, 8K-Kontext, $0.10/Mtok. MTEB moderat (~55–58), keine 2026er-Refresh-Iteration. Trotzdem die richtige Wahl wenn (a) Datenresidenz in der EU vertraglich gesetzt sein muss, (b) Self-Host-Stack nicht aufgebaut werden kann, (c) RAG-Qualität auf Mittelmaß ausreicht (z. B. interne Wissensbasen ohne Long-Tail-Recall-Anforderung).

Dims:
1024 Dim
Kontext:
8.192 Tokens
Sprachen:
DE/EN/FR/ES/IT (Mistral-Trainings-Sprachen)
MTEB:
Multi 57
Preis:
~€0.092 / Mtok

EU-native (Paris, Frankreich) — DSGVO direkt, keine US-Mutter, kein CLOUD-Act.

Stärken

  • + EU-native (FR), keine CLOUD-Act-Exposition
  • + $0.10/Mtok — günstigste API-Option in dieser Liste
  • + Stabiler Production-Endpoint seit Ende 2023

Limitierungen

  • − MTEB-Score deutlich unter Qwen3/BGE-M3/Gemini (~57 vs 68-70)
  • − Modell von Ende 2023, keine 2026er-Iteration angekündigt
  • − Kein MRL — fixe 1024-Dim-Vektoren
#5

mxbai-embed-large

Mixedbread AI
EU-Fit hoch Self-Host Apache 2.0 335M

EU-native (Berlin) Self-Host für englisch-lastige RAG mit binärer Quantisierung (32× Storage-Reduktion).

Mixedbread AI (Berlin), Apache 2.0, 335M Parameter, MRL + binäre Quantisierung (32× Storage-Reduktion mit ~1–3 Punkten Recall-Verlust). Primär englisch trainiert — kein DE-MTEB-Champion, dafür EU-native Konzernstruktur, single-GPU-fähig, quantisierungsfreundlich für Cold-Storage-RAG. Best Choice für englischsprachige Codebases / Dokumentations-Suchen wenn EU-Sovereignty über Multilingualität dominiert.

Dims:
1024 Dim (MRL 256–1024)
Kontext:
512 Tokens
Sprachen:
primär EN (begrenzte DE/Multilingual-Qualität)
MTEB:
EN 64.7

EU-native (Mixedbread AI, Berlin) — Apache 2.0, vollständig Self-Host-fähig auf EU-GPU.

Stärken

  • + EU-native (Berlin) + Apache 2.0 — saubere Sovereignty-Story
  • + Binäre Quantisierung: 32× Storage-Reduktion bei ~1-3 Punkten Recall-Verlust
  • + 335M Parameter → läuft auf einer einzelnen L4/A10 GPU

Limitierungen

  • − Primär englisch — schwache DE/Multilingual-Performance
  • − Kurzer Kontext (512 Tokens) — Chunking-Strategie wird zur Pflicht
  • − MTEB-Score ~64.7 EN — unter Qwen3 und Gemini Embedding 2

Auswahlbasis: MTEB Multilingual Leaderboard 2026, Hugging Face Hub, Provider-Dokumentation, interner EU-Deep-Research-Report. Wöchentliche Drift-Prüfung durch refresh-models Cron-Job.