Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Knowledge Base O nás Spolupráce Kariéra
Pojďme to probrat

vLLM pro produkční inference — maximální throughput z open-source LLM

10. 02. 2025 1 min čtení CORE SYSTEMSai

Self-hosting LLM je ekonomicky zajímavý, ale inference musí být efektivní. vLLM s PagedAttention nabízí 2-4x vyšší throughput.

PagedAttention

Spravuje KV cache jako virtuální paměť — dynamická alokace stránek. Efektivnější GPU paměť, víc concurrent requestů.

Benchmarky

  • Mistral 7B na A100: 2.5x throughput vs HuggingFace
  • Mixtral 8x7B na 2xA100: 80+ tokens/sec
  • Llama 70B na 4xA100: 25+ tokens/sec, 100+ concurrent

Alternativy

TensorRT-LLM: Nejrychlejší na NVIDIA, vendor lock-in. TGI: HuggingFace integrace. Ollama: Development, ne high-throughput.

vLLM je default pro LLM serving

PagedAttention, continuous batching, OpenAI-compatible API. Production-ready.

vllmllm inferenceproductiongpu