Zum Inhalt springen
_CORE
KI & Agentensysteme Unternehmensinformationssysteme Cloud & Platform Engineering Datenplattform & Integration Sicherheit & Compliance QA, Testing & Observability IoT, Automatisierung & Robotik Mobile & Digitale Produkte Banken & Finanzen Versicherungen Öffentliche Verwaltung Verteidigung & Sicherheit Gesundheitswesen Energie & Versorgung Telko & Medien Industrie & Fertigung Logistik & E-Commerce Retail & Treueprogramme
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

Ollama — LLM auf Ihrem Laptop in 5 Minuten

30. 01. 2024 Aktualisiert: 27. 03. 2026 1 Min. Lesezeit CORE SYSTEMSai
Ollama — LLM auf Ihrem Laptop in 5 Minuten

“Ich will ein LLM lokal ausprobieren, aber kein CUDA einrichten, Quantisierung konfigurieren und llama.cpp kompilieren.” Ollama ist die Antwort: ein Befehl zur Installation, einer zum Starten eines Modells. Es ist Docker fuer LLMs — es laedt das Modell herunter, richtet die Inference-Runtime ein und stellt eine API bereit. In fuenf Minuten haben Sie eine funktionierende lokale AI, ohne GPU-Speicherverwaltung oder Modellformate verstehen zu muessen.

Warum lokale Inferenz

  • Datenschutz: Daten verlassen nie Ihren Rechner — entscheidend fuer sensible Dokumente und Code
  • Offline: Funktioniert ohne Internet — ideal fuer Arbeit im Flugzeug oder in gesicherten Umgebungen
  • Kosten: 0 $ pro Token — unbegrenztes Experimentieren ohne Budgetueberwachung
  • Latenz: Kein Netzwerk-Roundtrip — Antwortzeit haengt nur von der lokalen Hardware ab

Fuer Entwickler ist lokale Inferenz beim Prototyping von AI-Features unschaetzbar. Sie testen Prompts, optimieren RAG-Pipelines und iterieren ueber Ausgaben ohne auf eine API zu warten und ohne Kosten. Der resultierende Prompt laesst sich leicht auf ein Cloud-Modell fuer die Produktion uebertragen.

OpenAI-kompatible API

Ollama stellt eine OpenAI-kompatible API auf localhost:11434 bereit. Leiten Sie Ihren bestehenden Code durch Aenderung der Base-URL um — keine Aenderungen der Anwendungslogik erforderlich. LangChain, LlamaIndex, Continue.dev und die meisten AI-Tools integrieren Ollama nativ. Sie koennen lokal mit Mistral entwickeln und in der Produktion auf GPT-4 wechseln, indem Sie eine einzige Variable aendern.

Empfohlene Modelle

  • Mistral (7B): Vielseitig, ordentliche tschechische Sprachunterstuetzung, bestes Qualitaet/Groesse-Verhaeltnis fuer lokale Nutzung
  • codellama (7B/13B): Optimiert fuer Code-Generierung, Completion und Review
  • phi-2 (2.7B): Ultraleichtes Modell von Microsoft, ueberraschend leistungsfaehig fuer seine Groesse
  • llama3 (8B): Metas neuestes offenes Modell mit ausgezeichnetem Reasoning

Mit 16 GB RAM koennen Sie 7B-Modelle ausfuehren, mit 32 GB sogar 13B. Modelle werden automatisch quantisiert (Q4_0 oder Q5_K_M) fuer ein optimales Qualitaet-zu-Speicher-Verhaeltnis.

Lokale AI ist Realitaet

Jeder Entwickler kann ein hochwertiges LLM lokal betreiben. Ollama ist ein Must-Have-Werkzeug im Entwickler-Toolbox fuer Prototyping, Testing und Offline-AI-Arbeit.

ollamalocal aillmdeveloper tools
Teilen:

CORE SYSTEMS

Wir bauen Kernsysteme und KI-Agenten, die den Betrieb am Laufen halten. 15 Jahre Erfahrung mit Enterprise-IT.

Brauchen Sie Hilfe bei der Implementierung?

Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.

Kontaktieren Sie uns
Brauchen Sie Hilfe bei der Implementierung? Termin vereinbaren