Spusťte AI modely lokálně. Žádné API klíče, žádné poplatky, plná kontrola.

Co je Ollama¶

Ollama = Docker pro LLM modely. Stáhne, nastaví a spustí AI modely lokálně. Jednoduché CLI + REST API.

Instalace¶

macOS / Linux¶

curl -fsSL https://ollama.com/install.sh | sh

Spustit model¶

ollama run llama3.2

Stáhnout model¶

ollama pull nomic-embed-text

Dostupné modely¶

llama3.2 (3B) — rychlý, dobrý pro chat
llama3.1 (8B/70B) — výkonnější
mistral (7B) — dobrý poměr výkon/rychlost
codellama (7B/34B) — pro kód
nomic-embed-text — embeddings
qwen2.5vl — vision model

REST API¶

Generate¶

curl http://localhost:11434/api/generate -d ‘{“model”:”llama3.2”,”prompt”:”Hello”}’

Chat¶

curl http://localhost:11434/api/chat -d ‘{“model”:”llama3.2”,”messages”:[{“role”:”user”,”content”:”Hi”}]}’

Embeddings¶

curl http://localhost:11434/api/embeddings -d ‘{“model”:”nomic-embed-text”,”prompt”:”Hello world”}’

Python integrace¶

import ollama

response = ollama.chat(model=”llama3.2”, messages=[
{“role”: “user”, “content”: “Explain Docker in one sentence.”}
])
print(response[“message”][“content”])

Modelfile — custom model¶

FROM llama3.2
SYSTEM “You are a helpful coding assistant. Respond in Czech.”
PARAMETER temperature 0.7

Hardware požadavky¶

3B model: 4 GB RAM
7B model: 8 GB RAM
13B model: 16 GB RAM
70B model: 48+ GB RAM
Apple Silicon: unified memory = ideální pro lokální AI

Use cases¶

Coding assistant (offline)
RAG (Retrieval Augmented Generation)
Document analysis
Embeddings pro search
Experimenty bez API nákladů

Proč lokální AI¶

Žádné API poplatky. Žádná latence. Plná kontrola nad daty. A s Apple Silicon je to překvapivě rychlé.

ollamaaillmlocal

Kompletní průvodce Ollama + local AI