Describe your AI/agent system and get one prioritized PASS / WARN / FAIL report — reward-hacking, model-collapse, agent-herding, fake A/B lifts, RAG rot, biased causal claims — each with the fix. Every check is measured, not assumed. Run it free below, in your browser.Opíš svoj AI/agentový systém a dostaneš jeden prioritizovaný PASS / WARN / FAIL report — reward-hacking, kolaps modelu, stádovanie agentov, falošné A/B nárasty, hnitie RAG, skreslené kauzálne tvrdenia — každé s opravou. Každá kontrola je odmeraná, nie predpokladaná. Spusti to zadarmo nižšie, v prehliadači.
Fill in whatever parts of your system you have (pre-filled with a failing example). It runs entirely in your browser — nothing is sent anywhere.Vyplň tie časti systému, ktoré máš (predvyplnené zlyhávajúcim príkladom). Beží celé v prehliadači — nič sa nikam neposiela.
Answer the ones you can — skip the rest. The defaults are a deliberately broken example so you see a full report. Hover units for help.Odpovedz na tie, ktoré vieš — ostatné preskoč. Predvolené hodnoty sú zámerne pokazený príklad, aby si videl plný report.
Your A/B test — conversions out of users, per variant.Tvoj A/B test — konverzie z používateľov, na variant.
Model-collapse risk from synthetic / self-generated data.Riziko kolapsu z umelých / samo-generovaných dát.
Multi-agent / ensemble herding (skip if single-agent).Stádovanie multi-agentov / ensemble (preskoč ak 1 agent).
Reward-hacking / Goodhart — when a metric becomes a target.Reward-hacking / Goodhart — keď sa miera stane cieľom.
Causal/attribution — one variable you "control for". Adjusting for the wrong kind injects bias.Kauzálne/atribúcia — jedna premenná, na ktorú "kontroluješ". Nesprávny druh vnáša skreslenie.
Each is a proven, measured tool — and we run all of them on ourselves, publicly. See our own self-audit →Každá je dokázaný, odmeraný nástroj — a všetky spúšťame na sebe, verejne. Pozri náš seba-audit →
Is a reported lift real, or noise?Je nárast reálny, či šum?
Is the model collapsing on itself?Kolabuje model sám na seba?
Will your agents herd?Budú agenti stádovať?
Is the metric/reward gamed?Je metrika gameovaná?
Is the causal number identified?Je kauzálne číslo identifikované?
Is your RAG store rotting?Hnije tvoj RAG sklad?
Agent-memory health.Zdravie pamäte agentov.
When to quit a depleting effort.Kedy vzdať slabnúce úsilie.
pip installVšetkých 8 kontrol + audit, jeden pip install