Transformer modely revolucionalizovaly NLP. Ale jak fungují na češtině — jazyku se sedmi pády a bohatým skloňováním?
Český BERT — Czert¶
Anglický BERT nezvládá českou morfologii. Czert z ÚFAL MFF UK je trénovaný na češtině, XLM-RoBERTa je dobrý kompromis.
Klasifikace pojišťovacích emailů¶
15 000 labelovaných emailů, Czert fine-tuned, 8 kategorií. Výsledek: accuracy 94 %. Nejisté predikce jdou na manuální posouzení.
GPT-2 pro generování¶
Fine-tuned na customer support odpovědích. Plynulý text, ale halucinace. Jako asistent pro operátory (navrhnout odpověď k úpravě) dává smysl. GPT-3 slibuje dramatické zlepšení — ale jen přes API.
NLP pro češtinu je reálné¶
Pro klasifikaci výsledky vynikající. Pro generování čekáme na lepší modely.