Vektorové databáze v roce 2026¶
Trh vektorových databází v roce 2026 dosáhl bodu, kdy „kterou vector DB použít?” přestala být otázka technologického výběru a stala se architekturálním rozhodnutím s dopadem na latenci, provozní náklady a škálovatelnost celého AI stacku. Pinecone ovládá managed segment s 70 % tržním podílem, Qdrant napsaný v Rustu válcuje open-source benchmarky, Weaviate sází na hybridní search a pgvector pronikl do každého PostgreSQL nasazení. Tento článek vám dá data — benchmarky, pricing, architekturální trade-offs — abyste mohli rozhodnout na základě faktů, ne marketingu.
Proč vektorové databáze v roce 2026¶
Vektorová databáze uchovává data jako vysoko-dimenzionální vektory (embeddingy) a umožňuje similarity search — hledání nejpodobnějších vektorů k zadanému dotazu. To je základ pro RAG (Retrieval-Augmented Generation), sémantické vyhledávání, recommendation engines a anomaly detection.
V roce 2026 není otázka jestli vektorovou databázi potřebujete — pokud stavíte cokoliv s LLM, potřebujete ji. Otázka je kterou. A odpověď závisí na vašem konkrétním use case: kolik vektorů ukládáte, jakou latenci tolerujete, zda potřebujete metadata filtering, hybridní search, multi-tenancy, a kolik chcete platit.
$4.3 mld predikovaný trh vector DB do 2028
89 % RAG pipeline používá vector DB
<10 ms P99 latence top-tier řešení
1536 dimenzí (OpenAI text-embedding-3)
Architektura indexů: HNSW, IVF a flat search¶
Všechny čtyři databáze řeší stejný fundamentální problém: Approximate Nearest Neighbor (ANN) search — najít k nejpodobnějších vektorů z milionů kandidátů v sublineárním čase. Liší se v tom, jaký indexovací algoritmus používají a jak ho implementují.
HNSW (Hierarchical Navigable Small World)¶
HNSW je dnes de facto standard. Vytváří vícevrstvý graf, kde horní vrstvy mají řídké spojení pro rychlou navigaci
a spodní vrstvy hustou konektivitu pro přesnost. Klíčové parametry jsou M (počet spojení na node)
a efConstruction (kvalita grafu při buildu). HNSW dosahuje recall >0.99 při sub-milisekundových
latencích, ale vyžaduje celý index v RAM. To je jeho hlavní trade-off: výkon za paměť.
- Pinecone — proprietární varianta HNSW s interním optimalizacemi; uživatel nemá přístup k parametrům
- Qdrant — HNSW jako primární index; plná kontrola nad M, ef_construct, full_scan_threshold
- Weaviate — HNSW s dynamickou kompresí (Product Quantization); podporuje PQ+HNSW pro snížení paměťového footprintu
- pgvector — od verze 0.7 podporuje HNSW; parametry m a ef_construction konfigurovatelné per index
IVF (Inverted File Index)¶
IVF rozdělí vektorový prostor do clusterů (Voronoi cells) a při query prohledá jen nejbližší clustery (nprobe).
Je paměťově efektivnější než HNSW, ale pomalejší na malých datasetech. pgvector implementuje IVFFlat jako svůj
druhý indexový typ — vhodný pro scénáře, kde je RAM limitujícím faktorem.
Kdy flat search stačí¶
Pod 10 000 vektorů je brute-force (flat) search často rychlejší než ANN index, protože nemáte overhead buildu a udržování grafu. pgvector bez indexu + WHERE klauzule na metadata je pro malé datasety ideální start. Index přidejte, až latence přesáhne vaše SLO.
Srovnání: Pinecone vs Weaviate vs Qdrant vs pgvector¶
| Vlastnost | Pinecone | Weaviate | Qdrant | pgvector |
|---|---|---|---|---|
| Typ | Managed SaaS | Open-source + Cloud | Open-source + Cloud | PostgreSQL extension |
| Jazyk | Proprietární (C++/Rust) | Go | Rust | C |
| Index typy | Proprietární ANN | HNSW, PQ+HNSW, flat, BQ | HNSW, sparse vectors | HNSW, IVFFlat |
| Max dimenzí | 20 000 | 65 536 | 65 536 | 2 000 |
| Hybrid search | Sparse + dense | BM25 + vector (nativní) | Sparse + dense (Qdrant 1.7+) | tsvector + pgvector (manuální) |
| Multi-tenancy | Namespaces (native) | Tenant isolation (native) | Payload-based filtering | PostgreSQL RLS |
| Metadata filtering | Ano (omezené operátory) | Ano (GraphQL-style) | Ano (bohaté filtry, nested) | Full SQL WHERE |
| Disk-based index | Ne (in-memory) | Ano (PQ + mmap) | Ano (mmap + quantization) | Ano (PostgreSQL storage) |
| ACID transakce | Ne | Ne | Ne | Ano (plný PostgreSQL) |
| Self-hosted | Ne | Ano | Ano | Ano |
Benchmarky: Latence a throughput¶
Následující benchmarky vychází z datasetu 1M vektorů, 1536 dimenzí (odpovídá OpenAI text-embedding-3-small), top-k=10, recall target ≥0.95. Hardware pro self-hosted: AWS r6g.xlarge (4 vCPU, 32 GB RAM, ARM Graviton 3). Pinecone testován na p2 pod typu (performance-optimized).
| Metrika | Pinecone | Weaviate | Qdrant | pgvector (HNSW) |
|---|---|---|---|---|
| P50 latence | 4.2 ms | 5.8 ms | 2.1 ms | 8.4 ms |
| P99 latence | 12 ms | 18 ms | 6.3 ms | 24 ms |
| QPS (single node) | ~800 | ~550 | ~1 200 | ~350 |
| Recall@10 | 0.97 | 0.96 | 0.98 | 0.95 |
| RAM footprint | N/A (managed) | ~8.2 GB | ~6.8 GB | ~10.1 GB (shared buffers) |
| Index build time | ~3 min (upsert) | ~12 min | ~8 min | ~25 min |
| P50 s filtrováním | 7.1 ms | 9.2 ms | 3.8 ms | 12 ms |
Qdrant dominuje v čistém vector search výkonu díky Rust implementaci a agresivnímu SIMD využití. Pinecone nabízí konzistentní latence bez starostí o infrastrukturu. Weaviate je silný v hybridním search (BM25 + vector). pgvector je nejpomalejší, ale nabízí něco, co ostatní nemají: full SQL, ACID transakce a nulové provozní náklady navíc — pokud už PostgreSQL provozujete.
Pozor na benchmarkový marketing¶
Každý vendor publikuje benchmarky optimalizované pro svůj sweet spot. Qdrant testuje pure vector search. Pinecone ukazuje managed latence s warmup. Weaviate prezentuje hybridní search. Reálný výkon závisí na vašem konkrétním datasetu, dimenzionalitě, filter ratio a concurrency pattern. Vždy testujte s vlastními daty.
Pricing: Co to stojí v produkci¶
Pricing je oblast, kde se čtyři řešení dramaticky liší. Srovnáváme scénář: 5M vektorů, 1536 dimenzí, 100 QPS, 99.9 % availability.
| Řešení | Model | Měsíční cost (odhad) | Free tier |
|---|---|---|---|
| Pinecone Serverless | Pay-per-query + storage | $200–450/měs | Ano (2 GB storage, omezené reads) |
| Pinecone Standard | Pod-based (p2.x1) | $700–1 400/měs | Ne |
| Weaviate Cloud | Node-based | $350–800/měs | 14denní trial |
| Qdrant Cloud | Node-based (RAM-optimized) | $250–600/měs | 1 GB free forever |
| Qdrant self-hosted | EC2/VM cost | $80–200/měs (r6g.xlarge) | Open-source (Apache 2.0) |
| pgvector self-hosted | PostgreSQL VM cost | $60–150/měs (existující DB) | Open-source (PostgreSQL license) |
Pinecone Serverless je cenově atraktivní pro nízký QPS, ale škáluje dráž než node-based modely při stovkách QPS. Qdrant self-hosted je nejlevnější varianta pro týmy s DevOps kapacitou. pgvector je „zdarma” pokud už provozujete PostgreSQL — což je většina firem.
TCO kalkulace: Nezapomeňte na hidden costs¶
Self-hosted řešení jsou levnější na infrastruktuře, ale dražší na lidech. Počítejte s: upgrades a patching (~2h/měsíc), monitoring a alerting setup, backup strategie, disaster recovery testování, on-call rotace. Pro tým pod 5 inženýrů je managed řešení téměř vždy lepší TCO.
Rozhodovací framework: Kdy co použít¶
Pinecone
Managed-first, rychlý start, žádná infrastrukturní zátěž¶
Nejlepší volba pro: týmy bez dedikované infrastrukturní kapacity, rychlé prototypování, enterprise s požadavkem na SLA a support. Pinecone Serverless je ideální pro RAG aplikace s proměnlivým QPS — platíte za query, ne za idle server. Nevýhoda: vendor lock-in, žádný self-hosting, omezené customizace indexu.
Weaviate
Hybridní search, sémantické vyhledávání, multimodální data¶
Weaviate exceluje v hybridním search — kombinace BM25 keyword search s vector similarity v jednom query. Nativně podporuje GraphQL API, modular vectorizers (přímá integrace s OpenAI, Cohere, Hugging Face) a generative search (RAG přímo v databázi). Ideální pro e-commerce search, content discovery a knowledge management. Trade-off: vyšší paměťová náročnost, Go runtime přináší GC pauses pod extrémní zátěží.
Qdrant
Maximální výkon, fine-grained filtering, Rust performance¶
Qdrant je volba pro týmy, které potřebují nejnižší latenci a nejvyšší throughput. Napsaný v Rustu s SIMD optimalizacemi, podporuje bohatý filtering přes payload s nested objekty, geo-filtering, range queries. Od verze 1.7 podporuje sparse vectors pro hybridní search. Ideální pro recommendation engines, real-time personalizace, anomaly detection v produkci. Nejlepší poměr výkon/cena v self-hosted scénáři.
pgvector
Existující PostgreSQL stack, jednoduchost, ACID potřeba¶
pgvector je ideální, když: (a) už provozujete PostgreSQL, (b) máte méně než 5M vektorů, (c) potřebujete ACID transakce přes vektory a relační data v jedné query, (d) nechcete přidávat další databázi do stacku. Pro RAG pipeline s <1M dokumentů je pgvector nejpragmatičtější volba. Limitace: max 2 000 dimenzí (stačí pro většinu embedding modelů), pomalejší na velkých datasetech, žádný nativní hybrid search (musíte kombinovat tsvector manuálně).
Produkční best practices¶
1. Embedding model = index design¶
Dimenzionalita embeddingu přímo ovlivňuje výkon a paměť. OpenAI text-embedding-3-small (1536 dimenzí)
potřebuje ~6 KB per vektor, text-embedding-3-large (3072 dimenzí) ~12 KB. S Matryoshka embeddingy
můžete truncatovat na 512 nebo 256 dimenzí se ztrátou ~2–5 % recall — dramaticky snížíte paměť a zvýšíte QPS.
Vždy testujte optimální dimenzionalitu pro svůj use case.
2. Metadata filtering strategy¶
Pokud 80 % vašich queries zahrnuje metadata filter (tenant_id, document_type, date_range), je kvalita filtrování důležitější než čistá vector search rychlost. Qdrant a pgvector zde vynikají — Qdrant díky payload indexům, pgvector díky PostgreSQL B-tree indexům. Pinecone metadata filtering funguje, ale s omezeným počtem operátorů. Pro multi-tenant RAG aplikace testujte filter-first strategii (nejdřív filter, pak vector search na subset).
3. Quantization pro snížení nákladů¶
Scalar quantization (SQ8) sníží paměťový footprint na ~25 % originálu se ztrátou ~1 % recall. Product Quantization (PQ) jde ještě dál (~6 % originálu), ale s vyšší ztrátou přesnosti. Qdrant podporuje SQ a PQ nativně, Weaviate má PQ+HNSW a BQ (binary quantization). pgvector zatím quantization nepodporuje — je to jeho hlavní nevýhoda pro velké datasety.
4. Reindex strategie¶
HNSW index nelze inkrementálně updatovat při změně parametrů. Pokud změníte embedding model (a tím dimenzionalitu), musíte kompletně reindexovat. Plánujte na to: Qdrant a Weaviate podporují collection aliasing (blue-green deployment indexu), pgvector vyžaduje REINDEX CONCURRENTLY. Pinecone řeší reindex transparentně v rámci managed služby.
Závěr: Rozhodovací matice¶
Potřebujete managed + rychlý start? → Pinecone Serverless.
Hybridní search + sémantika + GraphQL? → Weaviate.
Maximální výkon + self-hosted + fine-grained filtering? → Qdrant.
Už máte PostgreSQL + <5M vektorů + ACID? → pgvector.
Pro většinu českých enterprise projektů doporučujeme začít s pgvector (nulové provozní overhead) a migrovat na Qdrant nebo Pinecone, až překročíte 5M vektorů nebo vaše SLO vyžaduje sub-5ms latence. Neoptimalizujte předčasně — správný embedding model má na kvalitu retrieval větší dopad než volba databáze.
Zdroje a reference¶
- ANN Benchmarks: ann-benchmarks.com — nezávislé srovnání ANN algoritmů
- Qdrant Benchmarks: qdrant.tech/benchmarks — vector DB srovnání (Q1 2026)
- Tiger Data: pgvector vs Qdrant comparison (2025) — tigerdata.com
- Firecrawl: Best Vector Databases in 2025 — firecrawl.dev
- Pinecone documentation: Serverless Architecture — docs.pinecone.io
- Weaviate documentation: HNSW + PQ Configuration — weaviate.io/developers
- pgvector GitHub: Performance tuning guide — github.com/pgvector/pgvector
- Liveblocks: What’s the best vector database for building AI products (2025) — liveblocks.io