NLP v praxi — BERT, GPT a zpracování českých textů

14. 06. 2021 1 min čtení CORE SYSTEMSai

Transformer modely revolucionalizovaly NLP. Ale jak fungují na češtině — jazyku se sedmi pády a bohatým skloňováním?

Český BERT — Czert¶

Anglický BERT nezvládá českou morfologii. Czert z ÚFAL MFF UK je trénovaný na češtině, XLM-RoBERTa je dobrý kompromis.

Klasifikace pojišťovacích emailů¶

15 000 labelovaných emailů, Czert fine-tuned, 8 kategorií. Výsledek: accuracy 94 %. Nejisté predikce jdou na manuální posouzení.

GPT-2 pro generování¶

Fine-tuned na customer support odpovědích. Plynulý text, ale halucinace. Jako asistent pro operátory (navrhnout odpověď k úpravě) dává smysl. GPT-3 slibuje dramatické zlepšení — ale jen přes API.

NLP pro češtinu je reálné¶

Pro klasifikaci výsledky vynikající. Pro generování čekáme na lepší modely.

nlpbertgpttransformersczech nlp

NLP v praxi — BERT, GPT a zpracování českých textů

Český BERT — Czert¶

Klasifikace pojišťovacích emailů¶

GPT-2 pro generování¶

NLP pro češtinu je reálné¶

Související články

Transformer architektura — kompletní průvodce

LLM integrace v enterprise — od prototypu k produkci

Prompt engineering — umění komunikace s AI modely