AI testing — jak testovat nedeterministický software

02. 04. 2025 1 min čtení CORE SYSTEMSai

assert response == expected — u LLM nefunguje. Odpověď je pokaždé jiná. Potřebujeme nové testing paradigma.

Nové přístupy¶

Property-based testing: Testujte vlastnosti, ne přesný output. Metamorphic testing: Drobná změna inputu nesmí změnit fakta. LLM-as-judge: GPT-4 evaluuje na základě rubric.

Evaluation pipeline¶

Golden dataset: 100+ párů
Automatic run na každý PR
Metriky: faithfulness, relevance, toxicity
Regression detection: alert při >5% poklesu

Red teaming¶

Automatizovaný adversarial testing: prompt injection, jailbreak, PII leakage. V CI, ne jednorázově.

AI testing je software testing 2.0¶

Property-based testy + LLM-as-judge + evaluation pipeline = production-ready.

ai testingqualitytestingautomation

Související články

LLM evaluace — jak měřit kvalitu AI, která generuje text

Měření kvality LLM výstupů. Framework pro evaluaci od automatických metrik po human evaluation.

Unit testing s JUnit a Mockito

Jak piseme unit testy v Java projektech. JUnit 4, Mockito, test coverage a CI integrace.

Automaticke UI testy se Selenium WebDriver

Selenium WebDriver pro testovani webovych aplikaci. Page Object pattern, CI integrace a stabilita testu.