Agora — AI Audit: one reliability report for your AI system

The productProdukt

AI Audit — one reliability report for your AI system.AI Audit — jeden reliability report pre tvoj AI systém.

Describe your AI/agent system; get back one prioritized PASS/WARN/FAIL report — what's failing, how bad, and the fix — across every failure mode we can measure. It's the audit we run on ourselves, turned on your system.Opíš svoj AI/agentový systém; dostaneš jeden prioritizovaný PASS/WARN/FAIL report — čo zlyháva, ako vážne a oprava — naprieč všetkými merateľnými spôsobmi zlyhania. Je to audit, ktorý spúšťame na sebe, namierený na tvoj systém.

$ python -m aiaudit spec.json === Agora AI Audit === overall: FAIL · health 14/100 [FAIL] Self-training: COLLAPSE (0% external data, p=2) fix: keep >=5% real data; self-trust p<=1 [FAIL] Multi-agent: HERDED — no wiser than one agent [FAIL] Metric/reward: GAMED — stopped measuring the goal [FAIL] Causal: BIASED — conditioning on a collider [PASS] Agent memory: healthy # exit code 2 → gate your CI on it

Is a reported lift real, or noise?Je nahlásený nárast reálny, či šum? — nullcheck
Is your metric / reward gamed?Je tvoja metrika/odmena gameovaná? — goodhart
Is the model collapsing on itself?Kolabuje model sám na seba? — selfref
Will your agents herd?Budú tvoji agenti stádovať? — herdcheck
Is the causal number identified?Je kauzálne číslo identifikované? — idcheck
Is your RAG store rotting?Hnije tvoj RAG sklad? — ragfresh

Run it free, in your browser →Spusti zadarmo v prehliadači → pip install "git+https://github.com/DanceNitra/agora.git"

The checks AI Audit runs · open-core, zero dependenciesKontroly, ktoré AI Audit spúšťa · open-core, bez závislostí

Eight tools. Each one a single file, each with a measured benchmark.Osem nástrojov. Každý jeden súbor, každý s odmeraným benchmarkom.

AI Audit is built on these — and each works standalone too. The rule is measured, not assumed. Copy a file or pip install; each ships an MCP server for any agent.Vydestilované z výskumného systému — pravidlo znie odmerané, nie predpokladané. Skopíruj súbor alebo pip install; každý má MCP server pre ľubovoľného agenta.

mnemo

Agent memory + a self-maintaining second brain.Pamäť agentov + samoudržiavajúci druhý mozog.

6.7× more high-value memory kept vs FIFO

ragfresh

A freshness / decay layer for RAG & vector stores.Vrstva čerstvosti / rozpadu pre RAG a vektorové sklady.

value×freshness kept 96% of oracle vs 52% recency

nullcheck

Is this number real, or just noise?Je to číslo reálne, alebo len šum?

a +15% A/B lift on n=1k reads as noise (p=0.28)

selfref

Is your AI training on itself? (model collapse)Trénuje tvoja AI sama na sebe? (kolaps modelu)

no real data → 94% collapse; a 5% anchor fixes it

quitkit

When to quit a depleting effort.Kedy vzdať slabnúce úsilie.

drawdown-exit θ≈0.6 beats mine-to-depletion +239%

idcheck

Is your causal/attribution number identified, or biased?Je tvoje kauzálne číslo identifikované, alebo skreslené?

controlling a collider flips a correct estimate's sign

goodhart

How gameable is your proxy/metric? (reward hacking)Aká gameovateľná je tvoja metrika? (reward hacking)

select-precision 80% → 20% as the metric is optimized

herdcheck

Will your multi-agent system herd?Bude tvoj multi-agent systém stádovať?

a crowd collapses to one member at 2 observed peers

pip install "git+https://github.com/DanceNitra/agora.git" github.com/DanceNitra/agora →

The proof · dogfoodedDôkaz · vlastná koža

We run our company on these tools — so we audit ourselves with them.Bežíme na týchto nástrojoch — tak sa nimi aj auditujeme.

All eight, turned on Agora’s own real internal data. 8/8 healthy: not at model-collapse risk (94% externally grounded), agents not herding, research not depleting, the internal metric not gamed. It even caught two real gaps we then fixed. The strongest proof a tool works is that we run on it. See the live self-audit →Pozri živý seba-audit →Všetkých osem, namierených na vlastné reálne dáta Agory. 8/8 zdravých: bez rizika kolapsu (94% externe ukotvené), agenti nestádujú, výskum sa nevyčerpáva, interná metrika nie je gameovaná. Dokonca zachytil dve reálne medzery, ktoré sme opravili. Najsilnejší dôkaz, že nástroj funguje, je že na ňom bežíme. Pozri živý seba-audit →

The Crucible · claim by claimCrucible · tvrdenie po tvrdení

The ledgerRegister

Two dozen claims rebuilt as the smallest model that could prove them wrong. Three honest verdicts: reproduced, failed, or not computable — recorded either way.Dva tucty tvrdení prestavaných na najmenší model, ktorý ich mohol vyvrátiť. Tri poctivé verdikty: reprodukované, zlyhané, alebo nevypočítateľné — zaznamenané tak či tak.

2026‑06‑12FAILEDZLYHANÉ The hot hand is not a fallacyHorúca ruka nie je omylGilovich, Vallone & Tversky · 1985 · cognitive sciencekognitívna veda The fallacy was the fallacy: a real +8‑point streak effect read as zero.Omylom bol ten omyl: reálny efekt série +8‑bodov sa čítal ako nula. 2026‑06‑12FAILEDZLYHANÉ The Dunning–Kruger plot draws itself from pure noiseDunning–Krugerov graf sa nakreslí z čistého šumuKruger & Dunning · 1999 · cognitive sciencekognitívna veda Regression to the mean plus uniform overconfidence draws the whole plot. No deficit required.Regresia k priemeru plus rovnomerné preceňovanie nakreslia celý graf. Žiadny deficit netreba. 2026‑06‑14REPRODUCEDREPRODUKOVANÉ Difference‑in‑differences breaks with one treated unit — synthetic control holdsDifference‑in‑differences sa láme s jednou ošetrenou jednotkou — syntetická kontrola obstojíAlvarez & Ferman · 2020 · causal inferencekauzálna inferencia DiD’s 95% interval covered the truth just 31% of the time here; synthetic control restored it to 89%.95% interval DiD pokryl pravdu len v 31 % prípadov; syntetická kontrola ho obnovila na 89 %. 2026‑06‑14REPRODUCEDREPRODUKOVANÉ p‑hacking quadruples your false positives — unless you account for the searchp‑hacking strojnásobí tvoje falošné pozitíva — ak nezohľadníš to hľadanieRubin · 2026 · statisticsštatistika Best‑of‑five testing inflated the Type‑I error 5%→23% (4.45×); a selection‑aware likelihood stayed under 5%.Testovanie „najlepší z piatich" nafúklo chybu I. typu 5 %→23 % (4,45×); vierohodnosť zohľadňujúca výber zostala pod 5 %. 2026‑06‑12REPRODUCEDREPRODUKOVANÉ Thirty stocks diversify you — until the tails get heavyTridsať akcií ťa diverzifikuje — kým nepriťažknú chvostyEvans & Archer · 1968 · financefinancie Volatility, tamed. Tail risk is another story — you’ll want a hundred.Volatilita skrotená. Riziko chvostov je iný príbeh — budeš chcieť sto. 2026‑06‑12REPRODUCEDREPRODUKOVANÉ A monkey at a typewriter really does produce Zipf’s lawOpica pri písacom stroji naozaj vyprodukuje Zipfov zákonMiller · 1957 · linguistics / statisticslingvistika / štatistika The law alone proves nothing about language. Miller’s point survives a severe test.Samotný zákon nedokazuje o jazyku nič. Millerova pointa prežíva tvrdý test. 2026‑06‑12REPRODUCEDREPRODUKOVANÉ Diversity beats ability — but only on rugged groundRozmanitosť poráža schopnosť — ale len na členitom teréneHong & Page · 2004 · complexity / organizationskomplexita / organizácie +1.65 at the paper’s parameters; the effect reverses when the landscape smooths.+1,65 pri parametroch z článku; efekt sa obracia, keď sa krajina vyhladí. 2026‑06‑11REPRODUCEDREPRODUKOVANÉ In scale‑free networks, the epidemic threshold vanishesV bezškálových sieťach epidemický prah miznePastor‑Satorras & Vespignani · network sciencesieťová veda In hub‑rich networks there is no herd‑immunity threshold to speak of.V sieťach bohatých na uzly neexistuje žiadny zmysluplný prah kolektívnej imunity. 2026‑06‑11REPRODUCEDREPRODUKOVANÉ SGD’s slow convergence is a variance floorPomalá konvergencia SGD je podlaha rozptyluJohnson & Zhang · 2013 · optimizationoptimalizácia Constant‑step SGD stalls at a noise floor; the slowdown is variance, not curvature.SGD s konštantným krokom uviazne na podlahe šumu; spomalenie je rozptyl, nie zakrivenie.

All 16 claims, with their runnable modelsVšetkých 16 tvrdení, s ich spustiteľnými modelmi →

Science’s rarest exportNajvzácnejší export vedy

The failures, in fullZlyhania, v plnom znení

A ledger you can trust is one that can say no. Both of these were settled science for decades. Both rest on an estimator that was never run on a fair coin.Register, ktorému môžeš veriť, je ten, čo vie povedať nie. Oba z nich boli desaťročia uzavretou vedou. Oba stoja na odhade, ktorý nikdy nebol spustený na férovej minci.

FAILEDZLYHANÉ

Claim No. 015 · Cognitive science · 1985Tvrdenie č. 015 · Kognitívna veda · 1985

The hot hand is a cognitive illusionHorúca ruka je kognitívna ilúzia

Gilovich, Vallone & Tversky measured streak shooting, found “no difference,” and a generation learned that feeling hot is fooling yourself.Gilovich, Vallone & Tversky odmerali streleckú sériu, našli „žiadny rozdiel" a celá generácia sa naučila, že cítiť sa horúci znamená klamať sám seba.

Their estimator reads −7.9 points on a fair coin at the sample sizes they used (t = −28), worsening to −17 on longer streaks. A measured zero therefore implies a real hot hand of roughly +8.5 points.Ich odhad číta −7,9 bodu na férovej minci pri veľkostiach vzorky, ktoré použili (t = −28), a zhoršuje sa na −17 pri dlhších sériách. Nameraná nula teda implikuje reálnu horúcu ruku zhruba +8,5 bodu.

The deep dive, with charts →Hĺbková analýza, s grafmi → Ledger entry →Záznam v registri →

FAILEDZLYHANÉ

Claim No. 016 · Cognitive science · 1999Tvrdenie č. 016 · Kognitívna veda · 1999

The unskilled are unaware of itNeschopní si to neuvedomujú

The Dunning–Kruger quartile plot — the bottom overestimating by 46 points — became shorthand for confident incompetence.Dunning–Krugerov kvartilový graf — spodok preceňujúci o 46 bodov — sa stal skratkou pre sebavedomú neschopnosť.

A null model with zero metacognitive deficit reproduces the plot and its famous asymmetry: bottom +45.8 (they reported +46), top −14.2 (−13) — from regression to the mean plus a uniform better‑than‑average bias. The gaps are predictions, not fits.Nulový model s nulovým metakognitívnym deficitom reprodukuje graf aj jeho slávnu asymetriu: spodok +45,8 (oni uviedli +46), vrch −14,2 (−13) — z regresie k priemeru plus rovnomerného skreslenia „lepší‑než‑priemer". Tie medzery sú predpovede, nie dolaďovania.

Ledger entry →Záznam v registri → Run the model →Spustiť model →

What the ledger adds up toČo z registra vyplýva

Methods break exactly where they’re needed.Metódy zlyhávajú presne tam, kde sú potrebné.

Across the corpus, one skeleton repeats: a standard method is calibrated in the benign regime — large samples, thin tails, independence, slack budgets — and its error is wired to the very thing that defines the hard regime. The bias isn’t noise you can average away; it grows, monotonically, toward the operating point that made you reach for the method in the first place.Naprieč korpusom sa opakuje jedna kostra: štandardná metóda je kalibrovaná v miernom režime — veľké vzorky, tenké chvosty, nezávislosť, voľné rozpočty — a jej chyba je napojená presne na to, čo definuje ťažký režim. Skreslenie nie je šum, ktorý môžeš spriemerovať preč; rastie monotónne smerom k pracovnému bodu, kvôli ktorému si po metóde siahol na prvom mieste.

We ran the thesis’s own falsifier and it sharpened rather than broke: the sample mean’s error explodes 0.08 → 115 as tails fatten, while the median’s stays flat — robustness is the act of decoupling error from stress.Spustili sme vlastný falzifikátor tézy a ten sa skôr zaostril než zlomil: chyba výberového priemeru exploduje 0,08 → 115, ako chvosty hrubnú, zatiaľ čo chyba mediánu zostáva plochá — robustnosť je akt oddelenia chyby od záťaže.

Read the essay: The Operating‑Point TrapPrečítaj esej: Pasca pracovného bodu →

The thesis’s pre‑registered falsifier, run. The standard estimator follows the trap; the robust one escapes it. Lab 52c7a6.Vopred zaregistrovaný falzifikátor tézy, spustený. Štandardný odhad sleduje pascu; ten robustný jej unikne. Lab 52c7a6.

Essays · every one ships a numberEseje · každá prináša číslo

WritingTexty

01 Your AI might be training on itselfTvoja AI možno trénuje sama na seba Model collapse, measured: a ~5% real-data anchor stops it; a self-trust exponent p>1 permanently locks bias (p=2 → 50%).Kolaps modelu, odmeraný: ~5% kotva reálnych dát ho zastaví; exponent sebadôvery p>1 natrvalo zamkne skreslenie (p=2 → 50%). 2026‑06‑15 · 5 min5 min 02 Everyone says “set exit criteria.” Nobody gives you the number.Každý hovorí „urči si exit kritériá.“ Nikto nedá číslo. When to quit a depleting effort: a drawdown-exit threshold (θ≈0.6, an interior optimum) beats grinding +239%.Kedy vzdať slabnúce úsilie: drawdown-exit prah (θ≈0.6, vnútorné optimum) porazí drvenie o +239%. 2026‑06‑15 · 5 min5 min 03 Your RAG store is rottingTvoj RAG sklad hnije Freshness beats retrieval: ranking by value×freshness kept 96% of an oracle’s quality vs 52% for recency.Čerstvosť poráža vyhľadávanie: zoradenie podľa hodnota×čerstvosť udržalo 96% kvality oracle oproti 52% pri novosti. 2026‑06‑14 · 4 min4 min 04 Your second brain is dying of maintenanceTvoj druhý mozog umiera na údržbu Notes don’t die at capture, they die at upkeep — so we built one that maintains itself.Poznámky neumierajú pri zápise, ale pri údržbe — tak sme postavili taký, čo sa udržiava sám. 2026‑06‑14 · 4 min4 min 05 The hot hand, rebuilt in codeHorúca ruka, prestavaná v kóde The full anatomy of a thirty‑year error, every chart drawn from the simulation.Plná anatómia tridsaťročného omylu, každý graf nakreslený zo simulácie. 2026‑06‑12 · 6 min6 min 06 Why crowds get dumber when they watch each otherPrečo davy hlúpnu, keď sa pozorujú navzájom Collective accuracy collapses under correlation — and the cure costs ~80% independence.Kolektívna presnosť sa pod koreláciou zrúti — a liek stojí ~80 % nezávislosti. 2026‑06‑12 · 4 min4 min 07 The Operating‑Point TrapPasca pracovného bodu Methods break exactly where they’re needed — the pattern behind the whole ledger.Metódy zlyhávajú presne tam, kde sú potrebné — vzorec za celým registrom. 2026‑06‑12 · 5 min5 min 08 More data, more wrongViac dát, viac mimo A 95% Bayesian credible interval can fall to ~1.4% real coverage under an omitted confounder — and it degrades as the data grows.95% bayesovský kredibilný interval môže klesnúť na ~1,4 % reálneho pokrytia pri vynechanom zmätočnom faktore — a zhoršuje sa, ako dát pribúda. 2026‑06‑13 · 4 min4 min

Open source · the memory it runs onOpen source · pamäť, na ktorej beží

Mnemosyne

The agent memory layer behind this system, distilled to a single zero‑dependency file — its design rules earned by the ledger’s own findings.Agentová pamäťová vrstva za týmto systémom, zhustená do jediného súboru bez závislostí — jej návrhové pravidlá si vyslúžili vlastné zistenia registra.

6.7×

more high‑value memory retained by value‑ranked consolidation vs FIFO at a 5% budget — the advantage grows as space shrinks.viac hodnotnej pamäte udrží konsolidácia zoradená podľa hodnoty oproti FIFO pri 5% rozpočte — výhoda rastie, ako sa miesto zmenšuje.

2.8% → 100%

recall of rare‑but‑critical memories: access‑frequency decay starves them; a value‑aware blend keeps them all. Popularity is not value.vybavenie zriedkavých‑ale‑kritických spomienok: úpadok podľa frekvencie prístupu ich vyhladuje; zmes zohľadňujúca hodnotu ich udrží všetky. Popularita nie je hodnota.

0 rewrites

raw memory is append‑only; consolidation adds a derived layer and contradictions are flagged for review, never silently resolved.surová pamäť je iba pripájacia; konsolidácia pridáva odvodenú vrstvu a rozpory sa označia na revíziu, nikdy sa nevyriešia potichu.

# single file, zero dependencies
from mnemo import Mnemo

m = Mnemo("memory.json")
m.remember("pre-trend tests catch ~31% of fatal bias",
           tags=["causal"], value=3)
m.recall("difference in differences")  # value-ranked
m.consolidate(keep=200)               # the dream pass
m.contradictions()                     # flag, never delete

MCP server included — drop‑in long‑term memory for any agent client.Súčasťou je MCP server — zapojiteľná dlhodobá pamäť pre ľubovoľného agentového klienta. github.com/DanceNitra/agora/mnemo →

MethodMetóda

How a verdict is madeAko vzniká verdikt

RULE 01

Model before verdictModel pred verdiktom

The smallest model of the claim’s stated mechanism is built first, scoped to that mechanism — never reverse‑engineered toward a desired answer.Najmenší model deklarovaného mechanizmu tvrdenia sa zostaví ako prvý, ohraničený na ten mechanizmus — nikdy spätne nadizajnovaný smerom k želanej odpovedi.

RULE 02

A number, not a vibeČíslo, nie pocit

Every verdict is a measured quantity with a direction that could refute it — an effect size, a threshold, an exponent, a bias.Každý verdikt je nameraná veličina so smerom, ktorý by ju mohol vyvrátiť — veľkosť efektu, prah, exponent, skreslenie.

RULE 03

Re‑runnable, or it doesn’t countZnovuspustiteľné, inak sa to neráta

The code ships with the verdict. Reproduced means the minimal mechanism computes; it does not certify the original paper beyond doubt.Kód prichádza spolu s verdiktom. Reprodukované znamená, že minimálny mechanizmus vychádza; nepotvrdzuje to pôvodný článok nado všetku pochybnosť.

RULE 04

Failures are the pointZlyhania sú tou pointou

A failed means the mechanism didn’t survive its smallest honest model, with the discrepancy measured. Those stay published. So do the honest passes.Verdikt zlyhané znamená, že mechanizmus neprežil svoj najmenší poctivý model, s nameraným rozdielom. Tie zostávajú zverejnené. Rovnako aj poctivé úspechy.

Built by the thing itselfPostavené tou vecou samotnou

Agora runs as an autonomous organism: eight agents research around the clock, a laboratory executes their experiments — 62 ledgered so far — and a 6,433‑note living memory consolidates what holds. Its own findings feed back into how it works: the crowd research shaped how its agents diverge; the memory research became Mnemosyne. Nothing leaves the machine without its owner’s review.Agora beží ako autonómny organizmus: osem agentov skúma nepretržite, laboratórium vykonáva ich experimenty — 62 doteraz zaznamenaných — a 6 433‑poznámková živá pamäť konsoliduje to, čo obstojí. Jej vlastné zistenia sa vracajú do toho, ako funguje: výskum davov utváral, ako sa jej agenti rozchádzajú; výskum pamäte sa stal Mnemosyne. Nič neopustí stroj bez revízie jej vlastníka.