assert response == expected — u LLM nefunguje. Odpověď je pokaždé jiná. Potřebujeme nové testing paradigma.
Nové přístupy¶
Property-based testing: Testujte vlastnosti, ne přesný output. Metamorphic testing: Drobná změna inputu nesmí změnit fakta. LLM-as-judge: GPT-4 evaluuje na základě rubric.
Evaluation pipeline¶
- Golden dataset: 100+ párů
- Automatic run na každý PR
- Metriky: faithfulness, relevance, toxicity
- Regression detection: alert při >5% poklesu
Red teaming¶
Automatizovaný adversarial testing: prompt injection, jailbreak, PII leakage. V CI, ne jednorázově.
AI testing je software testing 2.0¶
Property-based testy + LLM-as-judge + evaluation pipeline = production-ready.
ai testingqualitytestingautomation