Spusťte AI modely lokálně. Žádné API klíče, žádné poplatky, plná kontrola.
Co je Ollama¶
Ollama = Docker pro LLM modely. Stáhne, nastaví a spustí AI modely lokálně. Jednoduché CLI + REST API.
Instalace¶
macOS / Linux¶
curl -fsSL https://ollama.com/install.sh | sh
Spustit model¶
ollama run llama3.2
Stáhnout model¶
ollama pull nomic-embed-text
Dostupné modely¶
- llama3.2 (3B) — rychlý, dobrý pro chat
- llama3.1 (8B/70B) — výkonnější
- mistral (7B) — dobrý poměr výkon/rychlost
- codellama (7B/34B) — pro kód
- nomic-embed-text — embeddings
- qwen2.5vl — vision model
REST API¶
Generate¶
curl http://localhost:11434/api/generate -d ‘{“model”:”llama3.2”,”prompt”:”Hello”}’
Chat¶
curl http://localhost:11434/api/chat -d ‘{“model”:”llama3.2”,”messages”:[{“role”:”user”,”content”:”Hi”}]}’
Embeddings¶
curl http://localhost:11434/api/embeddings -d ‘{“model”:”nomic-embed-text”,”prompt”:”Hello world”}’
Python integrace¶
import ollama
response = ollama.chat(model=”llama3.2”, messages=[
{“role”: “user”, “content”: “Explain Docker in one sentence.”}
])
print(response[“message”][“content”])
Modelfile — custom model¶
FROM llama3.2
SYSTEM “You are a helpful coding assistant. Respond in Czech.”
PARAMETER temperature 0.7
Hardware požadavky¶
- 3B model: 4 GB RAM
- 7B model: 8 GB RAM
- 13B model: 16 GB RAM
- 70B model: 48+ GB RAM
- Apple Silicon: unified memory = ideální pro lokální AI
Use cases¶
- Coding assistant (offline)
- RAG (Retrieval Augmented Generation)
- Document analysis
- Embeddings pro search
- Experimenty bez API nákladů
Proč lokální AI¶
Žádné API poplatky. Žádná latence. Plná kontrola nad daty. A s Apple Silicon je to překvapivě rychlé.