LLM evaluace — jak měřit kvalitu AI, která generuje text

05. 11. 2023 1 min čtení CORE SYSTEMSai

Funguje to dobře? Nejtěžší otázka v LLM světě. Na rozdíl od klasického softwaru je hodnocení LLM výstupů subjektivní. Ale bez metrik letíte naslepo.

Automatické metriky¶

BLEU, ROUGE: Příliš rigidní pro LLM. BERTScore: Sémantická podobnost, lepší. LLM-as-judge: GPT-4 hodnotí výstupy na základě rubric. Překvapivě efektivní.

RAG-specifické metriky¶

Context Relevancy: Jsou retrieved dokumenty relevantní?
Faithfulness: Je odpověď podložená kontextem?
Answer Relevancy: Odpovídá odpověď na otázku?

Evaluation dataset¶

Golden dataset s páry (otázka, odpověď, context) je nejcennější artefakt AI projektu. Investujte do jeho tvorby a údržby.

Bez metrik není improvement¶

Začněte s LLM-as-judge a RAGAS. Měřte před a po každé změně. Intuice nestačí, čísla ano.

llm evaluaceai testingmetrikyquality

Související články

AI testing — jak testovat nedeterministický software

Testování AI systémů vyžaduje nové přístupy. Property-based testing, fuzzing.

Syntetická data pro AI testing — kvalita bez privacy problémů

Syntetická data řeší GDPR compliance, bias a nedostatek trénovacích dat.

LLM evaluace — metriky a metody

Kompletní průvodce evaluací velkých jazykových modelů. Metriky, metody a nástroje pro hodnocení výkonnosti LLM v praxi.