Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Knowledge Base O nás Spolupráce Kariéra
Pojďme to probrat

LLM evaluace — jak měřit kvalitu AI, která generuje text

05. 11. 2023 1 min čtení CORE SYSTEMSai

Funguje to dobře? Nejtěžší otázka v LLM světě. Na rozdíl od klasického softwaru je hodnocení LLM výstupů subjektivní. Ale bez metrik letíte naslepo.

Automatické metriky

BLEU, ROUGE: Příliš rigidní pro LLM. BERTScore: Sémantická podobnost, lepší. LLM-as-judge: GPT-4 hodnotí výstupy na základě rubric. Překvapivě efektivní.

RAG-specifické metriky

  • Context Relevancy: Jsou retrieved dokumenty relevantní?
  • Faithfulness: Je odpověď podložená kontextem?
  • Answer Relevancy: Odpovídá odpověď na otázku?

Evaluation dataset

Golden dataset s páry (otázka, odpověď, context) je nejcennější artefakt AI projektu. Investujte do jeho tvorby a údržby.

Bez metrik není improvement

Začněte s LLM-as-judge a RAGAS. Měřte před a po každé změně. Intuice nestačí, čísla ano.

llm evaluaceai testingmetrikyquality