The same hidden law in four AI-memory mechanisms — and where it breaksTen istý skrytý zákon v štyroch mechanizmoch AI-pamäte — a kde sa láme
What to forget, when to believe a contradiction, how fast to distrust a bad source — one problem with a known optimal solution, measured across four AI-memory mechanisms and validated on 16 real labelled streams.Čo zabudnúť, kedy uveriť protirečeniu, ako rýchlo prestať dôverovať pokazenému zdroju — jeden problém so známym optimálnym riešením, odmeraný naprieč štyrmi mechanizmami AI-pamäte a overený na 16 reálnych označených tokoch.
What should an agent forget? When should it believe a contradicting fact? How fast should it distrust a source that turns bad? These look like separate engineering questions. They are the same problem, it has a known optimal solution, and the rules people actually ship are far from it. Here is the law, measured across four mechanisms, plus the exact line where it becomes unsolvable.
One problem wearing four hats
Each mechanism reads a single stream that carries both signals at once:
- genuine change you must adapt to fast, and
- adversarial corruption you must resist.
The trap is that, at the instant a deviation appears, an isolated corruption and the first sample of a real change are the same observation. You cannot tell them apart until you see whether the deviation persists.
The Adaptation–Corruption Separation Law. No single aggregation rule can be both fast to genuine novelty and bounded against corruption on a shared stream. The only escape is architectural: a corroboration-gated slow channel + a fast channel + a persistence selector — which converts the tradeoff into a fixed detection-latency floor d\*. You can have both robustness and fast adaptation, but not at zero latency.
Measured in four places (same three signatures)
Each instance shows a single-rule frontier (fast = fragile, slow = laggy), a two-channel escape, and a latency floor. Minimal, fully-reproducible simulations.
| mechanism | the "corruption" | the "real change" | what a single rule pays | the escape works |
|---|---|---|---|---|
| memory consolidation | one poison spike | a true value shift | error grows unbounded with attack size | gate keeps error flat (~0.5 vs EWMA's 22.3 at a 30× spike) |
| cache eviction | a flood of junk | a drifting working set | recency hits 0.00 under flood; value starves locality (0.22) | two-tier matches the best rule in all 3 regimes |
| trust / reputation | one framed event | a source turning bad | fast: delay 0.1 but false-distrust 1.00; slow: delay 13 | two-channel: delay 2.5, false-distrust 0.04 |
| best-of-N selection | an exploitable tail | (more samples) | accuracy collapses to 0 as N grows (h=8%) | cap N ≈ 1/h |
The trust case was a pre-registered prediction — before running it, we claimed binary reputation would show the same three signatures. It did. That is what turns a list of coincidences into a law.
It is not magic — it is optimal detection
The honest core: this is the sequential change-detection tradeoff (mean-time-to-false-alarm vs detection delay), which is a theorem (CUSUM is optimal; Lorden 1971, Page). We red-teamed our own escape against CUSUM on the trust task. Minimum detection delay at false-distrust ≤ 5%:
| detector | delay |
|---|---|
| naive single EWMA (plain decay — what most memory ships) | 6.08 |
| our two-channel | 2.51 |
| CUSUM (provably optimal single statistic) | 2.42 |
The two-channel matches the optimum, and both beat the naive decay rule. How far naive decay sits from the bound is regime-dependent (validated across change-magnitude × noise): up to ~2× when the change is subtle and the signal noisy, shrinking to ~0 (naive is fine) when changes are large and the signal is clean. The fix where it matters is a persistence-based detector (CUSUM optimally; a two-channel store practically).
Where it becomes unsolvable
The escape needs corruption to be more transient than the change you must catch. Sweeping poison-burst length B against selector delay d, the escape holds iff B < d; once a poison campaign persists for B ≥ d steps it is indistinguishable from real change and false-distrust jumps to 1.00. And you cannot just raise d — detection delay grows ~1:1 with it.
The boundary. The escape is valid iff B_corruption < d < your change-detection budget. If an adversary can sustain corruption as long as a genuine change must persist to be caught, the window is empty and the coupling is information-theoretically irreducible — no architecture helps.
If you build agent memory, RAG, trust, or reward models
Don't tune a single decay rate and hope — in hard regimes (subtle change, noisy signal) that is a choice between gullibility and rigidity and leaves up to ~2× of the achievable frontier on the table. Treat the update as sequential change detection: a persistence-based detector (or a value-protected + recency-aged two-tier store), with the confirmation latency set to your stream's corruption-vs-change ratio. Two caveats this buys nothing for: an adversary who can sustain corruption as long as a real change (irreducible), and signals where the genuine change is itself transient (then a fast rule is better — the persistence detector would miss it). We've shipped this escape into our open memory core in three places.
Does it hold on real data?
Not just simulations. We tested it on 16 real, expert-labelled anomaly streams (the Numenta Anomaly Benchmark — machine/temperature failures, server misconfigurations, network/cpu/latency telemetry, taxi demand, tweet volume). For each stream an objective classifier labels its anomaly sustained (the level shifts and stays) or transient (a spike that returns), then we compare a naive point-detector against a persistence (CUSUM) detector, scored by the false alarms each needs to catch every labelled window.
The clean part — and the actionable one — is an asymmetry:
On real data, no sustained-change stream is ever better served by the naive detector (0 / 6) — persistence wins or ties every one. And every win the naive detector scores (5 / 5) is on a transient spike.
| real stream | anomaly type | naive false alarms | persistence (CUSUM) |
|---|---|---|---|
| server auto-scaling misconfiguration | sustained | 1181 | 0 |
| ec2 network-in failure | sustained | 280 | 0 |
| rogue-agent key hold | sustained | 62 | 0 |
| machine-temperature failure | sustained | 46 | 13 |
| latency / cpu / traffic spikes (where naive wins) | transient | 0–9 | 5–17 |
So "is the genuine change sustained?" is sufficient to know you need a persistence detector — in one case the difference is 0 vs 1181 false alarms. What is not clean is the converse: transient streams split roughly evenly (5 naive / 5 CUSUM), because some "transient" anomalies still persist a few samples and accumulate. An earlier 6-stream cut looked like a perfect "type predicts the winner" biconditional; expanding to 16 streams showed that was small-sample luck. The robust, honest claim is the asymmetry — sustained ⇒ use persistence, never the reverse — not a strict two-way rule. (Scope: 16 streams, one detector family each, a simple shift-based classifier.)
The falsifierIf a single aggregation rule were simultaneously fast-to-novelty and bounded-against-corruption on a shared stream (no frontier), or a detector beat the latency floor (robustness at zero delay), the law would be false. Across the mechanisms it never did; at zero delay robustness collapses every time; a pre-registered new instance behaved as predicted; and on 16 real labelled streams the actionable asymmetry held — no sustained-change stream was ever better served by the naive detector.
FAQ
Is this a new theorem? No — it's a unification: the same sequential-change-detection tradeoff (CUSUM is provably optimal; Lorden 1971, Page) governs four agent-memory mechanisms. The force is breadth + a pre-registered prediction + real-data validation, not a new proof.
Where does it fail? Two boundaries. (1) If corruption can persist as long as a genuine change must to be caught (B ≥ d), the coupling is information-theoretically irreducible — no architecture helps. (2) If the genuine signal you care about is itself transient, a fast rule beats the persistence detector.
Does it hold on real data? Asymmetrically, yes — on 16 expert-labelled NAB streams, no sustained-change stream was ever better served by the naive detector; the converse isn't clean.
What should I do with it? Treat memory / RAG / trust / reward updates as sequential change detection: a persistence-based detector (CUSUM) or a value-protected + recency-aged two-tier store, with the confirmation latency set to your stream's corruption-vs-change ratio.
Related research
Čo má agent zabudnúť? Kedy má uveriť protirečiacemu faktu? Ako rýchlo má prestať dôverovať zdroju, ktorý sa pokazí? Vyzerajú ako samostatné inžinierske otázky. Je to ten istý problém, má známe optimálne riešenie a pravidlá, ktoré sa reálne nasadzujú, sú od neho ďaleko. Tu je ten zákon, odmeraný naprieč štyrmi mechanizmami, plus presná hranica, za ktorou sa stáva neriešiteľným.
Jeden problém v štyroch podobách
Každý mechanizmus číta jeden tok, ktorý nesie oba signály naraz:
- skutočnú zmenu, na ktorú sa musíš rýchlo adaptovať, a
- nepriateľské poškodenie (corruption), ktorému musíš odolať.
Pasca je v tom, že v okamihu, keď sa objaví odchýlka, izolované poškodenie a prvá vzorka skutočnej zmeny sú to isté pozorovanie. Rozlíšiť ich nedokážeš, kým neuvidíš, či odchýlka pretrvá.
Zákon o oddelení adaptácie a poškodenia (Adaptation–Corruption Separation Law). Žiadne jediné agregačné pravidlo nemôže byť na zdieľanom toku zároveň rýchle voči skutočnej novosti a ohraničené voči poškodeniu. Jediný únik je architektonický: pomalý kanál s bránou na potvrdenie + rýchly kanál + selektor pretrvania — čím sa kompromis premení na pevný spodný limit oneskorenia detekcie d\*. Môžeš mať aj robustnosť aj rýchlu adaptáciu, ale nie pri nulovom oneskorení.
Odmerané na štyroch miestach (tie isté tri podpisy)
Každý prípad ukazuje hranicu jediného pravidla (rýchle = krehké, pomalé = oneskorené), dvojkanálový únik a spodný limit oneskorenia. Minimálne, plne reprodukovateľné simulácie.
| mechanizmus | „poškodenie" | „skutočná zmena" | čo platí jediné pravidlo | únik funguje |
|---|---|---|---|---|
| konsolidácia pamäte | jeden poison výkyv | skutočný posun hodnoty | chyba rastie neohraničene s veľkosťou útoku | brána drží chybu plochú (~0,5 vs 22,3 pri EWMA pri 30× výkyve) |
| vyhadzovanie z cache | záplava balastu | driftujúca pracovná množina | recency padá na 0.00 pri záplave; hodnota vyhladuje lokalitu (0,22) | dvojvrstvové dorovná najlepšie pravidlo vo všetkých 3 režimoch |
| dôvera / reputácia | jedna zmanipulovaná udalosť | zdroj, ktorý sa kazí | rýchle: oneskorenie 0,1 ale falošná nedôvera 1.00; pomalé: oneskorenie 13 | dvojkanálové: oneskorenie 2,5, falošná nedôvera 0,04 |
| výber best-of-N | zneužiteľný chvost | (viac vzoriek) | presnosť padá na 0 s rastúcim N (h=8 %) | obmedz N ≈ 1/h |
Prípad dôvery bol vopred zaregistrovaná predpoveď — pred spustením sme tvrdili, že binárna reputácia ukáže tie isté tri podpisy. Ukázala. Práve to mení zoznam náhod na zákon.
Nie je to mágia — je to optimálna detekcia
Poctivé jadro: je to kompromis sekvenčnej detekcie zmeny (stredný čas do falošného poplachu vs oneskorenie detekcie), čo je teoréma (CUSUM je optimálny; Lorden 1971, Page). Vlastný únik sme red-teamovali proti CUSUM na úlohe dôvery. Minimálne oneskorenie detekcie pri falošnej nedôvere ≤ 5 %:
| detektor | oneskorenie |
|---|---|
| naivné jedno EWMA (čistý rozpad — čo väčšina pamätí reálne používa) | 6.08 |
| naše dvojkanálové | 2.51 |
| CUSUM (dokázateľne optimálna jediná štatistika) | 2.42 |
Dvojkanálové dorovná optimum a obe prekonajú naivné pravidlo rozpadu. Ako ďaleko leží naivný rozpad od hranice, je závislé od režimu (overené naprieč veľkosťou zmeny × šumom): až ~2× keď je zmena jemná a signál zašumený, zmenšuje sa k ~0 (naivné stačí), keď sú zmeny veľké a signál čistý. Náprava tam, kde na tom záleží, je detektor založený na pretrvaní (CUSUM optimálne; dvojkanálové úložisko prakticky).
Kde sa stáva neriešiteľným
Únik potrebuje, aby poškodenie bolo prechodnejšie než zmena, ktorú musíš zachytiť. Pri prehľadávaní dĺžky poison-dávky B proti oneskoreniu selektora d platí únik práve vtedy, keď B < d; keď poison kampaň pretrvá B ≥ d krokov, je nerozoznateľná od skutočnej zmeny a falošná nedôvera vyskočí na 1.00. A d sa nedá len tak zvýšiť — oneskorenie detekcie rastie s ním ~1:1.
Hranica. Únik je platný práve vtedy, keď B_poškodenia < d < tvoj rozpočet na detekciu zmeny. Ak útočník dokáže udržať poškodenie tak dlho, ako musí skutočná zmena pretrvať, aby bola zachytená, okno je prázdne a previazanie je informačno-teoreticky neredukovateľné — žiadna architektúra nepomôže.
Ak staviaš pamäť agentov, RAG, dôveru alebo reward modely
Nelaď jedinú rýchlosť rozpadu a nedúfaj — v ťažkých režimoch (jemná zmena, zašumený signál) je to voľba medzi dôverčivosťou a strnulosťou a necháva až ~2× dosiahnuteľnej hranice nevyužité. Ber aktualizáciu ako sekvenčnú detekciu zmeny: detektor založený na pretrvaní (alebo dvojvrstvové úložisko chrániace hodnotu + starnúce podľa recency), s latenciou potvrdenia nastavenou na pomer poškodenie-vs-zmena tvojho toku. Dve výhrady, na ktoré toto nepomôže: útočník, ktorý dokáže udržať poškodenie tak dlho ako skutočnú zmenu (neredukovateľné), a signály, kde je skutočná zmena sama prechodná (vtedy je lepšie rýchle pravidlo — detektor pretrvania by ju prehliadol). Tento únik sme zabudovali do nášho otvoreného pamäťového jadra na troch miestach.
Platí to na reálnych dátach?
Nie len simulácie. Otestovali sme to na 16 reálnych, expertom-označených tokoch anomálií (Numenta Anomaly Benchmark — poruchy strojov/teploty, zlé konfigurácie serverov, sieťová/cpu/latenčná telemetria, dopyt po taxíkoch, objem tweetov). Pre každý tok objektívny klasifikátor označí jeho anomáliu ako trvalú (úroveň sa posunie a zostane) alebo prechodnú (výkyv, ktorý sa vráti), potom porovnáme naivný bodový detektor proti detektoru pretrvania (CUSUM), hodnotené počtom falošných poplachov, ktoré každý potrebuje na zachytenie každého označeného okna.
Čistá — a prakticky využiteľná — časť je asymetria:
Na reálnych dátach nie je ani jeden tok s trvalou zmenou lepšie obslúžený naivným detektorom (0 / 6) — pretrvanie vyhráva alebo remizuje na každom z nich. A každú výhru, ktorú naivný detektor získa (5 / 5), získa na prechodnom výkyve.
| reálny tok | typ anomálie | naivné falošné poplachy | pretrvanie (CUSUM) |
|---|---|---|---|
| zlá konfigurácia auto-scalingu servera | trvalá | 1181 | 0 |
| porucha ec2 network-in | trvalá | 280 | 0 |
| rogue-agent key hold | trvalá | 62 | 0 |
| porucha teploty stroja | trvalá | 46 | 13 |
| výkyvy latencie / cpu / prevádzky (kde naivné vyhráva) | prechodná | 0–9 | 5–17 |
Takže „je skutočná zmena trvalá?" je postačujúce na to, aby si vedel, že potrebuješ detektor pretrvania — v jednom prípade je rozdiel 0 vs 1181 falošných poplachov. Čo nie je čisté, je opačný smer: prechodné toky sa delia zhruba na polovicu (5 naivné / 5 CUSUM), pretože niektoré „prechodné" anomálie aj tak pretrvajú pár vzoriek a nahromadia sa. Skorší rez na 6 tokoch vyzeral ako dokonalý obojsmerný vzťah „typ predpovedá víťaza"; rozšírenie na 16 tokov ukázalo, že to bola náhoda malej vzorky. Robustné, poctivé tvrdenie je tá asymetria — trvalá ⇒ použi pretrvanie, nikdy nie naopak — nie striktné obojsmerné pravidlo. (Rozsah: 16 tokov, jedna rodina detektorov na každý, jednoduchý klasifikátor založený na posune.)
FalzifikátorAk by jediné agregačné pravidlo bolo na zdieľanom toku súčasne rýchle voči novosti a ohraničené voči poškodeniu (žiadna hranica), alebo by nejaký detektor prekonal spodný limit oneskorenia (robustnosť pri nulovom oneskorení), zákon by bol nepravdivý. Naprieč mechanizmami sa to nikdy nestalo; pri nulovom oneskorení sa robustnosť zakaždým zrúti; vopred zaregistrovaný nový prípad sa správal podľa predpovede; a na 16 reálnych označených tokoch platila prakticky využiteľná asymetria — žiadny tok s trvalou zmenou nebol nikdy lepšie obslúžený naivným detektorom.
FAQ
Je to nová teoréma? Nie — je to zjednotenie: ten istý kompromis sekvenčnej detekcie zmeny (CUSUM je dokázateľne optimálny; Lorden 1971, Page) riadi štyri mechanizmy pamäte agentov. Sila je v šírke + vopred zaregistrovanej predpovedi + overení na reálnych dátach, nie v novom dôkaze.
Kde zlyhá? Dve hranice. (1) Ak poškodenie dokáže pretrvať tak dlho, ako musí skutočná zmena pretrvať, aby bola zachytená (B ≥ d), previazanie je informačno-teoreticky neredukovateľné — žiadna architektúra nepomôže. (2) Ak je samotný signál, ktorý ťa zaujíma, prechodný, rýchle pravidlo prekoná detektor pretrvania.
Platí to na reálnych dátach? Asymetricky áno — na 16 expertom-označených NAB tokoch nebol ani jeden tok s trvalou zmenou lepšie obslúžený naivným detektorom; opačný smer nie je čistý.
Čo s tým mám robiť? Ber aktualizácie pamäte / RAG / dôvery / reward ako sekvenčnú detekciu zmeny: detektor založený na pretrvaní (CUSUM) alebo dvojvrstvové úložisko chrániace hodnotu + starnúce podľa recency, s latenciou potvrdenia podľa pomeru poškodenie-vs-zmena tvojho toku.