Vektorové databáze v roce 2026¶

Trh vektorových databází v roce 2026 dosáhl bodu, kdy „kterou vector DB použít?” přestala být otázka technologického výběru a stala se architekturálním rozhodnutím s dopadem na latenci, provozní náklady a škálovatelnost celého AI stacku. Pinecone ovládá managed segment s 70 % tržním podílem, Qdrant napsaný v Rustu válcuje open-source benchmarky, Weaviate sází na hybridní search a pgvector pronikl do každého PostgreSQL nasazení. Tento článek vám dá data — benchmarky, pricing, architekturální trade-offs — abyste mohli rozhodnout na základě faktů, ne marketingu.

Proč vektorové databáze v roce 2026¶

Vektorová databáze uchovává data jako vysoko-dimenzionální vektory (embeddingy) a umožňuje similarity search — hledání nejpodobnějších vektorů k zadanému dotazu. To je základ pro RAG (Retrieval-Augmented Generation), sémantické vyhledávání, recommendation engines a anomaly detection.

V roce 2026 není otázka jestli vektorovou databázi potřebujete — pokud stavíte cokoliv s LLM, potřebujete ji. Otázka je kterou. A odpověď závisí na vašem konkrétním use case: kolik vektorů ukládáte, jakou latenci tolerujete, zda potřebujete metadata filtering, hybridní search, multi-tenancy, a kolik chcete platit.

$4.3 mld predikovaný trh vector DB do 2028

89 % RAG pipeline používá vector DB

<10 ms P99 latence top-tier řešení

1536 dimenzí (OpenAI text-embedding-3)

Architektura indexů: HNSW, IVF a flat search¶

Všechny čtyři databáze řeší stejný fundamentální problém: Approximate Nearest Neighbor (ANN) search — najít k nejpodobnějších vektorů z milionů kandidátů v sublineárním čase. Liší se v tom, jaký indexovací algoritmus používají a jak ho implementují.

HNSW (Hierarchical Navigable Small World)¶

HNSW je dnes de facto standard. Vytváří vícevrstvý graf, kde horní vrstvy mají řídké spojení pro rychlou navigaci a spodní vrstvy hustou konektivitu pro přesnost. Klíčové parametry jsou M (počet spojení na node) a efConstruction (kvalita grafu při buildu). HNSW dosahuje recall >0.99 při sub-milisekundových latencích, ale vyžaduje celý index v RAM. To je jeho hlavní trade-off: výkon za paměť.

Pinecone — proprietární varianta HNSW s interním optimalizacemi; uživatel nemá přístup k parametrům
Qdrant — HNSW jako primární index; plná kontrola nad M, ef_construct, full_scan_threshold
Weaviate — HNSW s dynamickou kompresí (Product Quantization); podporuje PQ+HNSW pro snížení paměťového footprintu
pgvector — od verze 0.7 podporuje HNSW; parametry m a ef_construction konfigurovatelné per index

IVF (Inverted File Index)¶

IVF rozdělí vektorový prostor do clusterů (Voronoi cells) a při query prohledá jen nejbližší clustery (nprobe). Je paměťově efektivnější než HNSW, ale pomalejší na malých datasetech. pgvector implementuje IVFFlat jako svůj druhý indexový typ — vhodný pro scénáře, kde je RAM limitujícím faktorem.

Kdy flat search stačí¶

Pod 10 000 vektorů je brute-force (flat) search často rychlejší než ANN index, protože nemáte overhead buildu a udržování grafu. pgvector bez indexu + WHERE klauzule na metadata je pro malé datasety ideální start. Index přidejte, až latence přesáhne vaše SLO.

Srovnání: Pinecone vs Weaviate vs Qdrant vs pgvector¶

Vlastnost	Pinecone	Weaviate	Qdrant	pgvector
Typ	Managed SaaS	Open-source + Cloud	Open-source + Cloud	PostgreSQL extension
Jazyk	Proprietární (C++/Rust)	Go	Rust	C
Index typy	Proprietární ANN	HNSW, PQ+HNSW, flat, BQ	HNSW, sparse vectors	HNSW, IVFFlat
Max dimenzí	20 000	65 536	65 536	2 000
Hybrid search	Sparse + dense	BM25 + vector (nativní)	Sparse + dense (Qdrant 1.7+)	tsvector + pgvector (manuální)
Multi-tenancy	Namespaces (native)	Tenant isolation (native)	Payload-based filtering	PostgreSQL RLS
Metadata filtering	Ano (omezené operátory)	Ano (GraphQL-style)	Ano (bohaté filtry, nested)	Full SQL WHERE
Disk-based index	Ne (in-memory)	Ano (PQ + mmap)	Ano (mmap + quantization)	Ano (PostgreSQL storage)
ACID transakce	Ne	Ne	Ne	Ano (plný PostgreSQL)
Self-hosted	Ne	Ano	Ano	Ano

Benchmarky: Latence a throughput¶

Následující benchmarky vychází z datasetu 1M vektorů, 1536 dimenzí (odpovídá OpenAI text-embedding-3-small), top-k=10, recall target ≥0.95. Hardware pro self-hosted: AWS r6g.xlarge (4 vCPU, 32 GB RAM, ARM Graviton 3). Pinecone testován na p2 pod typu (performance-optimized).

Metrika	Pinecone	Weaviate	Qdrant	pgvector (HNSW)
P50 latence	4.2 ms	5.8 ms	2.1 ms	8.4 ms
P99 latence	12 ms	18 ms	6.3 ms	24 ms
QPS (single node)	~800	~550	~1 200	~350
Recall@10	0.97	0.96	0.98	0.95
RAM footprint	N/A (managed)	~8.2 GB	~6.8 GB	~10.1 GB (shared buffers)
Index build time	~3 min (upsert)	~12 min	~8 min	~25 min
P50 s filtrováním	7.1 ms	9.2 ms	3.8 ms	12 ms

Qdrant dominuje v čistém vector search výkonu díky Rust implementaci a agresivnímu SIMD využití. Pinecone nabízí konzistentní latence bez starostí o infrastrukturu. Weaviate je silný v hybridním search (BM25 + vector). pgvector je nejpomalejší, ale nabízí něco, co ostatní nemají: full SQL, ACID transakce a nulové provozní náklady navíc — pokud už PostgreSQL provozujete.

Pozor na benchmarkový marketing¶

Každý vendor publikuje benchmarky optimalizované pro svůj sweet spot. Qdrant testuje pure vector search. Pinecone ukazuje managed latence s warmup. Weaviate prezentuje hybridní search. Reálný výkon závisí na vašem konkrétním datasetu, dimenzionalitě, filter ratio a concurrency pattern. Vždy testujte s vlastními daty.

Pricing: Co to stojí v produkci¶

Pricing je oblast, kde se čtyři řešení dramaticky liší. Srovnáváme scénář: 5M vektorů, 1536 dimenzí, 100 QPS, 99.9 % availability.

Řešení	Model	Měsíční cost (odhad)	Free tier
Pinecone Serverless	Pay-per-query + storage	$200–450/měs	Ano (2 GB storage, omezené reads)
Pinecone Standard	Pod-based (p2.x1)	$700–1 400/měs	Ne
Weaviate Cloud	Node-based	$350–800/měs	14denní trial
Qdrant Cloud	Node-based (RAM-optimized)	$250–600/měs	1 GB free forever
Qdrant self-hosted	EC2/VM cost	$80–200/měs (r6g.xlarge)	Open-source (Apache 2.0)
pgvector self-hosted	PostgreSQL VM cost	$60–150/měs (existující DB)	Open-source (PostgreSQL license)

Pinecone Serverless je cenově atraktivní pro nízký QPS, ale škáluje dráž než node-based modely při stovkách QPS. Qdrant self-hosted je nejlevnější varianta pro týmy s DevOps kapacitou. pgvector je „zdarma” pokud už provozujete PostgreSQL — což je většina firem.

TCO kalkulace: Nezapomeňte na hidden costs¶

Self-hosted řešení jsou levnější na infrastruktuře, ale dražší na lidech. Počítejte s: upgrades a patching (~2h/měsíc), monitoring a alerting setup, backup strategie, disaster recovery testování, on-call rotace. Pro tým pod 5 inženýrů je managed řešení téměř vždy lepší TCO.

Rozhodovací framework: Kdy co použít¶

Pinecone

Managed-first, rychlý start, žádná infrastrukturní zátěž¶

Nejlepší volba pro: týmy bez dedikované infrastrukturní kapacity, rychlé prototypování, enterprise s požadavkem na SLA a support. Pinecone Serverless je ideální pro RAG aplikace s proměnlivým QPS — platíte za query, ne za idle server. Nevýhoda: vendor lock-in, žádný self-hosting, omezené customizace indexu.

Weaviate

Hybridní search, sémantické vyhledávání, multimodální data¶

Weaviate exceluje v hybridním search — kombinace BM25 keyword search s vector similarity v jednom query. Nativně podporuje GraphQL API, modular vectorizers (přímá integrace s OpenAI, Cohere, Hugging Face) a generative search (RAG přímo v databázi). Ideální pro e-commerce search, content discovery a knowledge management. Trade-off: vyšší paměťová náročnost, Go runtime přináší GC pauses pod extrémní zátěží.

Qdrant

Maximální výkon, fine-grained filtering, Rust performance¶

Qdrant je volba pro týmy, které potřebují nejnižší latenci a nejvyšší throughput. Napsaný v Rustu s SIMD optimalizacemi, podporuje bohatý filtering přes payload s nested objekty, geo-filtering, range queries. Od verze 1.7 podporuje sparse vectors pro hybridní search. Ideální pro recommendation engines, real-time personalizace, anomaly detection v produkci. Nejlepší poměr výkon/cena v self-hosted scénáři.

pgvector

Existující PostgreSQL stack, jednoduchost, ACID potřeba¶

pgvector je ideální, když: (a) už provozujete PostgreSQL, (b) máte méně než 5M vektorů, (c) potřebujete ACID transakce přes vektory a relační data v jedné query, (d) nechcete přidávat další databázi do stacku. Pro RAG pipeline s <1M dokumentů je pgvector nejpragmatičtější volba. Limitace: max 2 000 dimenzí (stačí pro většinu embedding modelů), pomalejší na velkých datasetech, žádný nativní hybrid search (musíte kombinovat tsvector manuálně).

Produkční best practices¶

1. Embedding model = index design¶

Dimenzionalita embeddingu přímo ovlivňuje výkon a paměť. OpenAI text-embedding-3-small (1536 dimenzí) potřebuje ~6 KB per vektor, text-embedding-3-large (3072 dimenzí) ~12 KB. S Matryoshka embeddingy můžete truncatovat na 512 nebo 256 dimenzí se ztrátou ~2–5 % recall — dramaticky snížíte paměť a zvýšíte QPS. Vždy testujte optimální dimenzionalitu pro svůj use case.

2. Metadata filtering strategy¶

Pokud 80 % vašich queries zahrnuje metadata filter (tenant_id, document_type, date_range), je kvalita filtrování důležitější než čistá vector search rychlost. Qdrant a pgvector zde vynikají — Qdrant díky payload indexům, pgvector díky PostgreSQL B-tree indexům. Pinecone metadata filtering funguje, ale s omezeným počtem operátorů. Pro multi-tenant RAG aplikace testujte filter-first strategii (nejdřív filter, pak vector search na subset).

3. Quantization pro snížení nákladů¶

Scalar quantization (SQ8) sníží paměťový footprint na ~25 % originálu se ztrátou ~1 % recall. Product Quantization (PQ) jde ještě dál (~6 % originálu), ale s vyšší ztrátou přesnosti. Qdrant podporuje SQ a PQ nativně, Weaviate má PQ+HNSW a BQ (binary quantization). pgvector zatím quantization nepodporuje — je to jeho hlavní nevýhoda pro velké datasety.

4. Reindex strategie¶

HNSW index nelze inkrementálně updatovat při změně parametrů. Pokud změníte embedding model (a tím dimenzionalitu), musíte kompletně reindexovat. Plánujte na to: Qdrant a Weaviate podporují collection aliasing (blue-green deployment indexu), pgvector vyžaduje REINDEX CONCURRENTLY. Pinecone řeší reindex transparentně v rámci managed služby.

Závěr: Rozhodovací matice¶

Potřebujete managed + rychlý start? → Pinecone Serverless.

Hybridní search + sémantika + GraphQL? → Weaviate.

Maximální výkon + self-hosted + fine-grained filtering? → Qdrant.

Už máte PostgreSQL + <5M vektorů + ACID? → pgvector.

Pro většinu českých enterprise projektů doporučujeme začít s pgvector (nulové provozní overhead) a migrovat na Qdrant nebo Pinecone, až překročíte 5M vektorů nebo vaše SLO vyžaduje sub-5ms latence. Neoptimalizujte předčasně — správný embedding model má na kvalitu retrieval větší dopad než volba databáze.

Zdroje a reference¶

ANN Benchmarks: ann-benchmarks.com — nezávislé srovnání ANN algoritmů
Qdrant Benchmarks: qdrant.tech/benchmarks — vector DB srovnání (Q1 2026)
Tiger Data: pgvector vs Qdrant comparison (2025) — tigerdata.com
Firecrawl: Best Vector Databases in 2025 — firecrawl.dev
Pinecone documentation: Serverless Architecture — docs.pinecone.io
Weaviate documentation: HNSW + PQ Configuration — weaviate.io/developers
pgvector GitHub: Performance tuning guide — github.com/pgvector/pgvector
Liveblocks: What’s the best vector database for building AI products (2025) — liveblocks.io

Vektorové databáze v roce 2026: Pinecone vs Weaviate vs Qdrant vs pgvector