Ollama je nejjednodušší cesta k lokálním LLM. vLLM je optimalizovaný pro produkční serving.
Ollama¶
- Jednoduchá instalace (curl + ollama run)
- Model management (pull, list, rm)
- REST API kompatibilní s OpenAI
- Ideální pro vývoj a experimentování
- macOS, Linux, Windows
ollama pull llama3.2 ollama run llama3.2 ‘Vysvětli Docker’ curl http://localhost:11434/api/generate -d ‘{“model”:”llama3.2”,”prompt”:”Hello”}’
vLLM¶
- PagedAttention — efektivní GPU memory management
- Continuous batching — vysoký throughput
- OpenAI-kompatibilní API server
- Tensor parallelism (multi-GPU)
- Optimalizovaný pro produkci
pip install vllm python -m vllm.entrypoints.openai.api_server \ –model meta-llama/Llama-3-8B-Instruct
Srovnání¶
- Jednoduchost: Ollama >> vLLM
- Throughput: vLLM >> Ollama (2-5×)
- GPU utilization: vLLM lepší
- Model format: Ollama = GGUF, vLLM = HuggingFace
- CPU inference: Ollama OK, vLLM GPU-only
Ollama pro dev, vLLM pro produkci¶
Ollama pro lokální vývoj a experimentování. vLLM pro production serving s vysokým throughputem.
ollamavllmllmaiinference