Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Knowledge Base O nás Spolupráce Kariéra
Pojďme to probrat

NLP v praxi — BERT, GPT a zpracování českých textů

14. 06. 2021 1 min čtení CORE SYSTEMSai

Transformer modely revolucionalizovaly NLP. Ale jak fungují na češtině — jazyku se sedmi pády a bohatým skloňováním?

Český BERT — Czert

Anglický BERT nezvládá českou morfologii. Czert z ÚFAL MFF UK je trénovaný na češtině, XLM-RoBERTa je dobrý kompromis.

Klasifikace pojišťovacích emailů

15 000 labelovaných emailů, Czert fine-tuned, 8 kategorií. Výsledek: accuracy 94 %. Nejisté predikce jdou na manuální posouzení.

GPT-2 pro generování

Fine-tuned na customer support odpovědích. Plynulý text, ale halucinace. Jako asistent pro operátory (navrhnout odpověď k úpravě) dává smysl. GPT-3 slibuje dramatické zlepšení — ale jen přes API.

NLP pro češtinu je reálné

Pro klasifikaci výsledky vynikající. Pro generování čekáme na lepší modely.

nlpbertgpttransformersczech nlp