Co kdyby AI model běžel přímo v prohlížeči uživatele — bez serveru, bez latence, bez odesílání dat? WebGPU to v roce 2026 umožňuje. A mění to pravidla hry pro privátnost, UX i náklady na infrastrukturu.
WebGPU — nástupce WebGL pro compute¶
WebGPU je nové nízkoúrovňové grafické a compute API pro web, které přináší přímý přístup ke GPU z prohlížeče. Na rozdíl od WebGL, které bylo primárně grafické, WebGPU nabízí plnohodnotné compute shaders — klíčový ingredience pro spouštění neuronových sítí.
V roce 2026 je WebGPU podporováno ve všech major prohlížečích: Chrome (od verze 113), Firefox (stabilní od Q3 2025), Safari (od macOS Sequoia a iOS 18). To znamená pokrytí přes 90 % uživatelů na desktopech a většiny mobilních zařízení.
Proč AI inference v prohlížeči¶
Důvodů pro přesun inference z cloudu do prohlížeče je několik:
- Privátnost: Data nikdy neopustí zařízení uživatele. Žádné GDPR starosti, žádné data leaky.
- Latence: Zero network round-trip. Inference response pod 50 ms pro malé modely.
- Náklady: Žádné GPU servery, žádné API poplatky. Uživatel platí vlastním hardware.
- Offline: Funguje i bez připojení — ideální pro mobilní a edge use cases.
- Škálovatelnost: Každý uživatel = vlastní inference server. Žádné capacity planning.
Co dnes reálně běží v prohlížeči¶
Díky kvantizaci a optimalizovaným runtime frameworks lze v roce 2026 spouštět v prohlížeči překvapivě schopné modely:
- Jazykové modely (1–3B parametrů): Phi-3 Mini, Gemma 2B, Llama 3.2 1B — plnohodnotné chatboty s 4-bit kvantizací na 4 GB VRAM
- Vision modely: MobileNet, EfficientNet, YOLO-NAS — real-time object detection z kamery
- Whisper: Speech-to-text přímo v prohlížeči — přepis meetingů bez odesílání audia na server
- Stable Diffusion: Generování obrázků (512×512) za ~15 sekund na střední GPU
- Embedding modely: all-MiniLM, nomic-embed — klientský semantic search bez API callů
Technický stack pro WebGPU inference¶
Ekosystém nástrojů pro browser-based inference rychle zraje:
- ONNX Runtime Web: Nejuniverzálnější runtime — podporuje ONNX modely s WebGPU backendem, fallback na WASM
- Transformers.js (Hugging Face): High-level API pro NLP, vision a audio modely. Automatická kvantizace a caching.
- WebLLM (MLC): Specializovaný runtime pro LLM s optimalizovaným attention kernelem pro WebGPU
- MediaPipe (Google): Pre-built ML pipeline pro vision — face detection, hand tracking, pose estimation
Typický development flow: natrénujete model v PyTorch, exportujete do ONNX, kvantizujete na 4-bit, a servírujete přes CDN. Uživatel stáhne model jednou, prohlížeč ho cachuje, a další inference jsou instantní.
Limity a výzvy¶
Browser inference má své hranice:
- Model size: Praktický limit je ~4 GB kvůli VRAM omezením. Modely nad 7B parametrů vyžadují agresivní kvantizaci s degradací kvality.
- First-load time: Stažení 2 GB modelu trvá. Řešení: progresivní loading, streaming inference, a předem cachované modely.
- Heterogenní hardware: Výkon se dramaticky liší mezi MacBook Pro M3 a tříletým Android telefonem. Feature detection a graceful degradation jsou nutnost.
- Memory pressure: Browser s AI modelem spotřebuje hodně RAM. Na zařízeních s 8 GB a méně to může způsobit problémy.
- Precision: WebGPU zatím nemá nativní podporu pro FP8/INT4. Kvantizované modely vyžadují dequantizaci za běhu, což přidává overhead.
Praktické use cases pro enterprise¶
Kde dává browser inference smysl v enterprise kontextu:
- Formulářová asistence: Auto-complete, validace, klasifikace — bez odesílání citlivých dat na server
- Dokumentová analýza: OCR + NER přímo v prohlížeči pro interní dokumenty
- Real-time překlad: Interní komunikace v multinacionálních týmech bez cloud translation API
- Quality inspection: Vision model pro kontrolu kvality na tabletu v továrně — i bez Wi-Fi
- Personalizace: On-device recommendation model, který se učí z chování uživatele lokálně
Hybrid architektura: browser + cloud¶
Nejpraktičtější přístup v roce 2026 je hybridní architektura. Malé, rychlé modely běží v prohlížeči pro instant response. Komplexní úlohy eskalují na cloud API. Uživatel dostane rychlou odezvu okamžitě a přesnější výsledek o chvíli později.
Tento „speculative inference” pattern — inspirovaný speculative decoding v LLM — přináší perceived latency pod 100 ms i pro složité úlohy.
GPU v každém prohlížeči mění rovnici¶
WebGPU demokratizuje přístup ke GPU compute. Pro vývojáře to znamená novou kategorii aplikací — AI-powered, privacy-first, zero-infrastructure. Pro firmy to znamená nižší náklady a eliminaci celé třídy compliance problémů.
Náš tip: Identifikujte jeden use case, kde latence nebo privátnost dat jsou kritické. Prototyp v Transformers.js zabere odpoledne. Výsledky vás překvapí.