Funguje to dobře? Nejtěžší otázka v LLM světě. Na rozdíl od klasického softwaru je hodnocení LLM výstupů subjektivní. Ale bez metrik letíte naslepo.
Automatické metriky¶
BLEU, ROUGE: Příliš rigidní pro LLM. BERTScore: Sémantická podobnost, lepší. LLM-as-judge: GPT-4 hodnotí výstupy na základě rubric. Překvapivě efektivní.
RAG-specifické metriky¶
- Context Relevancy: Jsou retrieved dokumenty relevantní?
- Faithfulness: Je odpověď podložená kontextem?
- Answer Relevancy: Odpovídá odpověď na otázku?
Evaluation dataset¶
Golden dataset s páry (otázka, odpověď, context) je nejcennější artefakt AI projektu. Investujte do jeho tvorby a údržby.
Bez metrik není improvement¶
Začněte s LLM-as-judge a RAGAS. Měřte před a po každé změně. Intuice nestačí, čísla ano.